[英]Is there a python way to merge multiple cells with condition
我需要在多个单元格中搜索特定值,当找到它时,它应该在新列中返回。
我在这里得到了答案; Python:在多列中查找字符串并在新列中返回它但下面的这一行返回找到的第一个值
df['b'] = (df[cols].where(df[cols].stack().str.contains('b')
.unstack(fill_value=False)).ffill(1).iloc[:,-1])
科尔斯在哪里
df = df[['col1', 'col2', 'col3', 'col4']]
我尝试了其他答案,他们都给了我错误ValueError: cannot reindex from a duplicate axis
有谁知道如何在一个单元格中获取所有匹配值。
数据集
ID col0 col1 col2 col3 col4 col5
1 jack a/h t/m w/n y/h 56
2 sam z/n b/w null b/n 93
3 john b/i y/d b/d null 33
我现在使用的代码:
df['b'] = (df[cols].where(df[cols].stack().str.contains('b')
.unstack(fill_value=False)).ffill(1).iloc[:,-1])
这里是我现在得到的 output
ID col0 col1 col2 col3 col4 col5 b
1 jack a/h t/m w/n y/h 56 -
2 sam z/n b/w null b/n 93 b/w
3 john b/i y/d b/d null 33 b/i
实际上我希望 output 看起来像下面的数据框
ID col0 col1 col2 col3 col4 col5 b
1 jack a/h t/m w/n y/h 56 null
2 sam z/n b/w null b/n 93 b/w - b/n
3 john b/i y/d b/d null 33 b/i - b/d
Use DataFrame.filter
to filter dataframe containing columns col1-col4
and use DataFrame.stack
, then using Series.str.contains
filter the stacked dataframe finally use Series.groupby
on level=0
and aggregate using join
:
s = df.filter(regex=r'col[1-4]').stack()
s = s[s.str.contains('b')].groupby(level=0).agg(' - '.join)
df['b'] = s
结果:
# print(df)
ID col0 col1 col2 col3 col4 col5 b
0 1 jack a/h t/m w/n y/h 56 NaN
1 2 sam z/n b/w NaN b/n 93 b/w - b/n
2 3 john b/i y/d b/d NaN 33 b/i - b/d
这是一种使用melt
的方法:
t = df.melt(id_vars="ID", value_vars = ["col0", "col1", "col2", "col3", "col4"], var_name=[]).dropna()
t = t[t.value.str.contains("b")].groupby("ID")["value"].apply(lambda x: " - ".join(x))
res = pd.concat([df, t], axis=1).rename(columns={"value":"b"})
output 是:
ID col0 col1 col2 col3 col4 col5 b
0 1.0 jack a/h t/m w/n y/h 56.0 NaN
1 2.0 sam z/n b/w NaN b/n 93.0 NaN
2 3.0 john b/i y/d b/d NaN 33.0 b/w - b/n
3 NaN NaN NaN NaN NaN NaN NaN b/i - b/d
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.