如何從dataframe單元格中的格式項中刪除重復項？

Question

我有一個數據幀作為下面的df1 。 我想從包含-的項目中刪除重復的項目。 例如，行1和行3將分別刪除1A和1A ， 2B ，就像df2一樣 。 如何刪除重復項？

數據幀：

df1 = DataFrame({'Condition': ['1A', '1A, 1A-1A', '1A, 2B', '1A, 2B, 1A-2B', '3C, 1A-2B']})

df1
    Condition
0   1A
1   1A, 1A-1A
2   1A, 2B
3   1A, 2B, 1A-2B
4   3C, 1A-2B

目標輸出：

df2 = DataFrame({'Condition': ['1A', '1A-1A', '1A, 2B', '1A-2B', '3C, 1A-2B']})

df2
    Condition
0   1A
1   1A-1A
2   1A, 2B
3   1A-2B
4   3C, 1A-2B

Answer 1

您CA與價值創造套-和測試，如果分裂值不成套，最后通過加入回來, ：

L = []
for x in df1['Condition']:
    a = x.split(', ')
    s = set([z for y in a if '-' in y for z in y.split('-')])
    L.append(', '.join([z for z in a if z not in s]))

df1['new'] = L
print (df1)
       Condition        new
0             1A         1A
1      1A, 1A-1A      1A-1A
2         1A, 2B     1A, 2B
3  1A, 2B, 1A-2B      1A-2B
4      3C, 1A-2B  3C, 1A-2B

如何從dataframe單元格中的格式項中刪除重復項？

問題描述

1 個解決方案

解決方案1
3 已采納 2019-05-17 09:30:07

如何從dataframe單元格中的格式項中刪除重復項？

問題描述

1 個解決方案

解決方案1 3 已采納 2019-05-17 09:30:07

解決方案1
3 已采納 2019-05-17 09:30:07