[英]Fill empty columns with values from another column of another row based on an identifier
我正在嘗試根據標識符填充包含重復元素的 dataframe。 我的 Dataframe 如下:
Code Value
0 SJHV
1 SJIO 96B
2 SJHV 33C
3 CPO3 22A
4 CPO3 22A
5 SJHV 33C #< -- Numbers stored as strings
6 TOY
7 TOY #< -- These aren't NaN, they are empty strings
僅當存在非空“值”行時,我才想刪除空的“值”行。 明確地說,我希望我的 output 看起來像:
Code Value
0 SJHV 33C
1 SJIO 96B
2 CPO3 22A
3 TOY
我的嘗試如下:
df['Value'].replace('', np.nan, inplace=True)
df2 = df.dropna(subset=['Value']).drop_duplicates('Code')
正如預期的那樣,此代碼還刪除了“玩具”代碼。 有什么建議么?
如果對它們進行排序,空字符串應該 go 到底部,然后你可以刪除重復項。
import pandas as pd
df = pd.DataFrame({'Code':['SJHV','SJIO','SJHV','CPO3','CPO3','SJHV','TOY','TOY'],'Value':['','96B','33C','22A','22A','33C','','']})
df = (
df.sort_values(by=['Value'], ascending=False)
.drop_duplicates(subset=['Code'], keep='first')
.sort_index()
)
Output
Code Value
1 SJIO 96B
2 SJHV 33C
3 CPO3 22A
6 TOY
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.