根據列中的不同條目過濾 pandas 數據幀（逗號分隔字符串列表）

Question

我有一個 Pandas DataFrame 我想過濾所有在“TCK”（逗號分隔的字符串列表）中有不同條目的“ID”，即所有條目都不相同。

我的 DataFrame 看起來像這樣：

df1 = pd.DataFrame({"ID": [1, 2, 3, 4],
        "TCK": [["AA, AA, AC"], ["LL, LL"], ["DD , DB, DF, DE"], ["LO , LO, LO, LO, LO, LO"]]})

所需的 output 應如下所示：

df2 = pd.DataFrame({"ID": [1, 3],
        "TCK": [["AA, AA, AC"],["DD , DB, DF, DE"]]})

我知道一種方法是首先將字符串拆分為新列（基於逗號），然后使用循環來識別不同的代碼。 但是，由於還會有 np.nans，這將是一個相當復雜的解決方案。

有誰知道這個問題的快速而優雅的解決方案？

Answer 1

您可以先拆分您的字符串並應用set來檢查該 set 是否有超過 1 個元素，即具有不同的元素：

tck = df1.TCK.apply(lambda x: [item.strip() for item in x[0].split(',')])
df1[tck.apply(lambda x: len(set(x)) > 1)]

Answer 2

使用str.extractall ：

m = df1['TCK'].str[0].str.extractall('(\w+)')[0].groupby(level=0).nunique().gt(1)

df1[m]

output：

   ID                TCK
0   1       [AA, AA, AC]
2   3  [DD , DB, DF, DE]

Answer 3

使用regex ：

df = pd.DataFrame({"ID": [1, 2, 3, 4],
        "TCK": [["AA, AA, AC"], ["LL, LL"], ["DD , DB, DF, DE"], ["LO , LO, LO, LO, LO, LO"]]})

df['TCK'] = [','.join(l) for l in df['TCK']]
df['TCK']= df['TCK'].replace(r'(\w+)(?:\W+\1\b)+$', None, regex=True)
df.dropna(inplace=True)
print(df.head())

output：

   ID              TCK
0   1       AA, AA, AC
2   3  DD , DB, DF, DE

根據列中的不同條目過濾 pandas 數據幀（逗號分隔字符串列表）

問題描述

3 個解決方案

解決方案1
3 2022-08-29 06:48:03

解決方案2
0 2022-08-29 07:00:11

解決方案3
0 2022-08-29 07:37:08

根據列中的不同條目過濾 pandas 數據幀（逗號分隔字符串列表）

問題描述

3 個解決方案

解決方案1 3 2022-08-29 06:48:03

解決方案2 0 2022-08-29 07:00:11

解決方案3 0 2022-08-29 07:37:08

解決方案1
3 2022-08-29 06:48:03

解決方案2
0 2022-08-29 07:00:11

解決方案3
0 2022-08-29 07:37:08