Python：計數列 dataframe 中屬於列表的字符串

Question

我花了一天時間試圖解決我的問題...

我有一個從 CSV 文件導入的 DataFrame。 這里有一個例子：

df=pd.DataFrame(['{"choices": ["rougeur", "hematome","oedeme","ecoul","necrose"]}','ecoul','necrose','','oedeme'])

我有我可能的標簽列表：

label_sl=['rougeur', 'hematome', 'oedeme','ecoul','extra','necrose']

我想創建一個新的 dataframe ，它返回：

rougeur hematome oedeme ecoul extra necrose
1 1 1 1 0 1
1 0 0 0 0 0
0 0 0 0 0 1
0 0 0 0 0 0
0 0 1 0 0 0

我找不到解決方案...如果您有想法...

謝謝，

鋁

Answer 1

如果包括字典在內的所有值實際上都是字符串，則應該可以：

(df[0].str.replace(r'[\[\]{}"]','',regex=True)
.str.strip()
.str.split('[, ]')
.explode()
.str.get_dummies()
.groupby(level=0).sum()
.reindex(label_sl,axis=1)
.fillna(0)
.astype(int))

Output：

   rougeur  hematome  oedeme  ecoul  extra  necrose
0        1         1       1      1      0        1
1        0         0       0      1      0        0
2        0         0       0      0      0        1
3        0         0       0      0      0        0
4        0         0       1      0      0        0

Answer 2

正則表達式\bsomething\b將something內容提取為單獨的單詞。 我們可以這樣使用它：

for x in label_sl:
    df[x] = df.iloc[:,0].str.contains("\\b" + x + "\\b").astype(int)

在哪里

label_sl=['rougeur', 'hematome', 'oedeme','ecoul','extra','necrose']
df=pd.DataFrame(['{"choices": ["rougeur", "hematome","oedeme","ecoul","necrose"]}','ecoul','necrose','','oedeme'])

Python：計數列 dataframe 中屬於列表的字符串

問題描述

2 個解決方案

解決方案1
1 已采納 2022-08-08 14:42:52

解決方案2
1 2022-08-08 14:59:23

Python：計數列 dataframe 中屬於列表的字符串

問題描述

2 個解決方案

解決方案1 1 已采納 2022-08-08 14:42:52

解決方案2 1 2022-08-08 14:59:23

解決方案1
1 已采納 2022-08-08 14:42:52

解決方案2
1 2022-08-08 14:59:23