帶有列表的pandas數據框中的唯一項

Question

我正在嘗試從pandas數據框中刪除所有列，其中列中的唯一項目少於10個。 但是，我的一些數據是列表，我得到錯誤unhashable type: 'list' 。 有道理，因為pandas與hashmap相比較。

我目前的代碼是

for i in df.columns:
    if len(df[i].unique()) < 10:
        df.drop(i, 1)

哪個工作正常，直到我到達列表對象。 就我的目的而言，list1和list2並不是唯一的。 [1, 2]和[2, 1]不是唯一的，即使[1, 2] == [2, 1]為假。

我該如何進行這項操作？ 將列表分開是沒有意義的，因為我有1400個列，所以我無法明確地輸入列。

提前謝謝了！

Answer 1

list對象不可清除，因為它們是可變的，但另一方面， tuple是不可變的。 您可以transform列表值transform為tuple並使用此屬性。

假設你有

df = pd.DataFrame({"A": [1,2,3,4], 
                   "B": ["a", "b", "c", "d"],
                   "C": [[1,2,3], [2], [2,3,1], [4]] })

    A   B   C
0   1   a   [1, 2, 3]
1   2   b   [2]
2   3   c   [2, 3, 1]
3   4   d   [4]

因此，你可以做類似的事情

df.C.apply(sorted).transform(tuple).unique()

返回

array([(1, 2, 3), (2,), (4,)], dtype=object)

因此，您的代碼可能類似於下面的代碼，使用collections.Hashable可以使用以檢查列的內容是否確實可以清除

import collections

for i in df.columns:
    if isinstance(df[i].iloc[0], collections.Hashable):
        if len(df[i].unique()) < 10: 
            df = df.drop(i, 1)
    else:
        if len(df[i].apply(sorted).transform(tuple).unique()) < 10: 
            df = df.drop(i, 1)

請注意，這也適用於其他不可用的類型，例如dict

>>> df["D"] = [{"a":2}, {}, {"k":3}, {"k":3}]})
>>> print(df.D.apply(sorted).transform(tuple).unique())
[('a',) () ('k',)]

Answer 2

一種方法是將麻煩的類型轉換為可清除的替代品。 在下面的例子中，有14個元素，但是[1, 2] == [2, 1]將兩邊都轉換為frozenset ，另外， 0 == False 。 所以我們計算了12個唯一值。

s = pd.Series([[1, 2], [2, 1], (1, 2, 3), {5, 1}, 3142, 563.123, np.nan, 'dfa',
               '', 'dsafa', 3214, 0, True, False])

print(len(s))  # 14

def converter(x):
    return frozenset(x) if isinstance(x, (set, list)) else x

print(len(s.apply(converter).unique()))  # 12

帶有列表的pandas數據框中的唯一項

問題描述

2 個解決方案

解決方案1
2 已采納 2018-05-18 20:57:31

解決方案2
1 2018-05-18 20:55:55

帶有列表的pandas數據框中的唯一項

問題描述

2 個解決方案

解決方案1 2 已采納 2018-05-18 20:57:31

解決方案2 1 2018-05-18 20:55:55

解決方案1
2 已采納 2018-05-18 20:57:31

解決方案2
1 2018-05-18 20:55:55