如何根據值計數過濾 pandas DataFrame？

Question

我在 Python 和 pandas DataFrame 的視頻游戲中工作，每個游戲都有一個類型。 我正在嘗試刪除任何類型在 DataFrame 中出現次數少於一定次數的視頻游戲，但我不知道如何解決這個問題 go。 我確實找到了一個似乎相關的 StackOverflow 問題，但我根本無法破譯解決方案（可能是因為我從未聽說過 R，而我的函數式編程 memory 充其量只是生疏了）。

幫助？

Answer 1

使用groupby 過濾器：

In [11]: df = pd.DataFrame([[1, 2], [1, 4], [5, 6]], columns=['A', 'B'])

In [12]: df
Out[12]:
   A  B
0  1  2
1  1  4
2  5  6

In [13]: df.groupby("A").filter(lambda x: len(x) > 1)
Out[13]:
   A  B
0  1  2
1  1  4

我建議閱讀文檔的split-combine-section 。

Answer 2

性能更好的解決方案應該是GroupBy.transform ，每個組的計數size為與原始df相同大小的系列，因此可能通過boolean indexing進行過濾：

df1 = df[df.groupby("A")['A'].transform('size') > 1]

或者使用Series.map和Series.value_counts ：

df1 = df[df['A'].map(df['A'].value_counts()) > 1]

Answer 3

@jezael 解決方案效果很好，這是一種基於值計數的不同過濾方法：

例如，如果數據集是：

df = pd.DataFrame({'a': [1,2,3,3,1,6], 'b': [11,2,33,4,55,6]})

將計數轉換並保存為字典

ount_freq = dict(df['a'].value_counts())

創建一個新列並復制目標列，將字典映射到新創建的列

df['count_freq'] = df['a']
df['count_freq'] = df['count_freq'].map(count_freq)

現在我們有一個帶有計數頻率的新列，您現在可以使用此列輕松定義閾值和過濾器。

df[df.count_freq>1]

Answer 4

此外，萬一有人想要過濾並擁有“計數”列：

attr = 'A'
limit = 10
df2 = df.groupby(attr)[attr].agg(count='count')
df2 = df2.loc[df2['count'] > limit].reset_index()
print(df2)

#outputs rows with grouped 'A' count > 10 and columns ==> index, count, A

Answer 5

我可能來晚了一點，但是：

df = pd.DataFrame(df_you_have.groupby(['IdA', 'SomeOtherA'])['theA_you_want_to_count'].count())
df.reset_index(inplace=True)

這就是你如何創建一個新的 dataframe 然后過濾它......

df[df['A']>100]

如何根據值計數過濾 pandas DataFrame？

問題描述

5 個解決方案

解決方案1
92 已采納 2015-04-24 00:50:54

解決方案2
24 2019-10-24 07:46:52

解決方案3
0 2021-01-18 17:42:18

解決方案4
0 2021-06-28 06:29:10

解決方案5
0 2022-04-04 16:29:25

如何根據值計數過濾 pandas DataFrame？

問題描述

5 個解決方案

解決方案1 92 已采納 2015-04-24 00:50:54

解決方案2 24 2019-10-24 07:46:52

解決方案3 0 2021-01-18 17:42:18

解決方案4 0 2021-06-28 06:29:10

解決方案5 0 2022-04-04 16:29:25

解決方案1
92 已采納 2015-04-24 00:50:54

解決方案2
24 2019-10-24 07:46:52

解決方案3
0 2021-01-18 17:42:18

解決方案4
0 2021-06-28 06:29:10

解決方案5
0 2022-04-04 16:29:25