如何刪除具有重復值的不同列名？

Question

給定這個 DF：

a   b   c   d
1   2   1   4
4   3   4   2
foo bar foo yes

在大型 pandas DF 中刪除相同但名稱不同的列的最佳方法是什么？ 例如：

a   b   d
1   2   4
4   3   2
foo bar yes

列 c 已從上述 dataframe 中刪除，因為 a 和 c 列相同但名稱不同。 到目前為止，我試圖

df = df.iloc[:, ~df.columns.duplicated()]

但是我不清楚如何檢查 DF 中的行值？

Answer 1

如下使用transpose

df.T.drop_duplicates().T

我嘗試了直接的方法 - 遍歷列名並將每一列與其他列的 rest 進行比較。 使用np.all進行完全匹配。 這些方法只用了 336ms。

repeated_columns = []
for i, column in enumerate(df.columns):
    r_columns = df.columns[i+1:]
    for r_c in r_columns:
        if np.all(df[column] == df[r_c]):
            repeated_columns.append(r_c)
new_columns = [x for x in df.columns if x not in repeated_columns]
df[new_columns]

它會給你以下 output

     a    b    d
0    1    2    4
1    4    3    2
2  foo  bar  yes

Answer 2

df.loc[:,~df.T.duplicated()]
     a    b    d
0    1    2    4
1    4    3    2
2  foo  bar  yes

如何刪除具有重復值的不同列名？

問題描述

2 個解決方案

解決方案1
1 已采納 2020-04-26 18:01:38

解決方案2
1 2020-04-26 18:01:52

如何刪除具有重復值的不同列名？

問題描述

2 個解決方案

解決方案1 1 已采納 2020-04-26 18:01:38

解決方案2 1 2020-04-26 18:01:52

解決方案1
1 已采納 2020-04-26 18:01:38

解決方案2
1 2020-04-26 18:01:52