![](/img/trans.png)
[英]Pandas: More efficient way to update a column in pandas dataframe without a for loop
[英]Efficient way to update column value for subset of rows on Pandas DataFrame?
使用Pandas更新行的特定子集的列的值时,最佳方法是什么?
简单的例子:
import pandas as pd
df = pd.DataFrame({'name' : pd.Series(['Alex', 'John', 'Christopher', 'Dwayne']),
'value' : pd.Series([1., 2., 3., 4.])})
目的:更新所述value
基于名称的长度和值列本身的初始值的列。
以下代码实现了目标:
df.value[df.name.str.len() == 4 ] = df.value[df.name.str.len() == 4] * 1000
但是,此行在LHS和RHS中两次对整个数据帧进行过滤。 我认为这不是最有效的方法。 它并没有做到“就地”。
基本上我正在寻找与R data.table':='运算符等效的熊猫:
df[nchar(name) == 4, value := value*1000]
对于其他类型的操作,例如:
df[nchar(name) == 4, value := paste0("short_", as.character(value))]
环境: Python 3.6
Pandas 0.22
提前致谢。
你需要loc
与*=
:
df.loc[df.name.str.len() == 4, 'value'] *= 1000
print (df)
name value
0 Alex 1000.0
1 John 2000.0
2 Christopher 3.0
3 Dwayne 4.0
编辑:
更一般的解决方案:
mask = df.name.str.len() == 4
df.loc[mask, 'value'] = df.loc[mask, 'value'] * 1000
要么:
df.update(df.loc[mask, 'value'] * 1000)
这可能是您需要的:
df.loc[df.name.str.len() == 4, 'value'] *= 1000
df.loc[df.name.str.len() == 4, 'value'] = 'short_' + df['value'].astype(str)
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.