繁体   English   中英

SettingWithCopyWarning 即使使用.loc[row_indexer,col_indexer] = value

[英]SettingWithCopyWarning even when using .loc[row_indexer,col_indexer] = value

这是我获得SettingWithCopyWarning的代码行之一:

value1['Total Population']=value1['Total Population'].replace(to_replace='*', value=4)

然后我改为:

row_index= value1['Total Population']=='*'
value1.loc[row_index,'Total Population'] = 4

这仍然给出相同的警告。 我该如何摆脱它?

另外,对于我使用过的convert_objects(convert_numeric=True) function,我收到了相同的警告,有什么办法可以避免这种情况。

 value1['Total Population'] = value1['Total Population'].astype(str).convert_objects(convert_numeric=True)

这是我收到的警告消息:

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/indexing.html#indexing-view-versus-copy 

如果您使用.loc[row,column]并仍然得到相同的错误,则可能是因为复制了另一个数据框。 你必须使用.copy()

这是一步一步的错误再现:

import pandas as pd

d = {'col1': [1, 2, 3, 4], 'col2': [3, 4, 5, 6]}
df = pd.DataFrame(data=d)
df
#   col1    col2
#0  1   3
#1  2   4
#2  3   5
#3  4   6

创建一个新列并更新其值:

df['new_column'] = None
df.loc[0, 'new_column'] = 100
df
#   col1    col2    new_column
#0  1   3   100
#1  2   4   None
#2  3   5   None
#3  4   6   None

我没有收到错误。 但是,让我们根据前一个数据框创建另一个数据框:

new_df = df.loc[df.col1>2]
new_df
#col1   col2    new_column
#2  3   5   None
#3  4   6   None

现在,使用.loc ,我将尝试以相同的方式替换一些值:

new_df.loc[2, 'new_column'] = 100

但是,我再次收到了这个可恶的警告:

试图在来自 DataFrame 的切片副本上设置值。 尝试使用 .loc[row_indexer,col_indexer] = value 代替

请参阅文档中的警告: https : //pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy

解决方案

在创建新数据框时使用.copy()将解决警告:

new_df_copy = df.loc[df.col1>2].copy()
new_df_copy.loc[2, 'new_column'] = 100

现在,您将不会收到任何警告!

如果您的数据框是使用另一个数据框顶部的过滤器创建的,请始终使用.copy()

您是否尝试过直接设置?:

value1.loc[value1['Total Population'] == '*', 'Total Population'] = 4

我来这里是因为我想根据另一列中的值有条件地设置新列的值。

对我有用的是 numpy.where:

import numpy as np
import pandas as pd
...

df['Size'] = np.where((df.value > 10), "Greater than 10", df.value)

numpy docs ,这相当于:

[xv if c else yv
 for c, xv, yv in zip(condition, x, y)]

这是 zip 的一个很好的用法......

我不知道这对数据存储/内存的影响有多糟糕,但它每次都会为您的平均数据帧修复它:

def addCrazyColFunc(df):
    dfNew = df.copy()
    dfNew['newCol'] = 'crazy'
    return dfNew

就像消息说的那样......制作一份副本,你就可以开始了。 请如果有人可以在没有副本的情况下解决上述问题,请发表评论。 上面所有的 loc 东西都不适用于这种情况。

尝试在发出警告的行之前添加以下内容(如有必要:重新索引)。 它与df.copy()具有相同的效果,因此不会有警告。

 df = df.reset_index(drop=True) 

得到了解决方案:

我创建了一个新的 DataFrame 并仅存储了我需要处理的列的值,现在它没有给我任何错误!

奇怪,但有效。

指定它是为我工作的副本。 我刚刚在语句的末尾添加了.copy()

value1['Total Population'] = value1['Total Population'].replace(to_replace='*', value=4).copy()

这应该可以解决您的问题:

value1[:, 'Total Population'] = value1[:, 'Total Population'].replace(to_replace='*', value=4)

我能够避免使用以下语法出现相同的警告消息:

value1.loc[:, 'Total Population'].replace('*', 4)

请注意,不需要将数据帧重新分配给自身,即 value1['Total Population']=value1['Total Population']...

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM