在不迭代Python熊貓的情況下計算大型數據框中的模式出現次數

Question

我有以下數據框：

    Jack   Joe   Mary
1    I      O     O
2    I      O     I
3    I      I     I
4    O      I     I
5    O      I     O
6    I      O     O
7    I      O     I
8    I      O     I
9    O      I     I
10   O      I     O
      ....

我的專欄各處散布着“ III”和“ OOO”的圖案。

我想計算每列中“ III”和“ OOO”的出現次數。

我知道我可以遍歷每一列的每一行，但這是一個非常大的數據框。

有沒有人有1）執行此操作的更有效方法和2）執行此操作的更Python的方法？

謝謝。

Answer 1

以“ Jack”列和“ III”模式為例。

使用移位，我們得到

>>> (df.Jack == df.Jack.shift(1)) & (df.Jack == df.Jack.shift(2)) & (df.Jack == 'I')
1     False
2     False
3      True
4     False
5     False
6     False
7     False
8      True
9     False
10    False
Name: Jack, dtype: bool

所以

((df.Jack == df.Jack.shift(1)) & (df.Jack == df.Jack.shift(2)) & (df.Jack == 'I')).sum()

給出該模式在列中的出現次數。

您可以輕松地將其修改為其他模式和列。

注意，“ IIII”將計為兩次出現的模式（交錯）。

Answer 2

我將要做的

s=(df.shift()==df).ne(True).cumsum()# create the group key, class all continue value to one group
for x in s.columns:
    print(x,df[x].groupby(s[x]).apply(''.join).isin(['III','OOO']).sum())
Jack 2
Joe 2
Mary 2

Answer 3

IIUC：

您正在計算III或OOO發生的次數。 我會串起來算數

s = df.sum()
pd.concat({k: s.str.count(k) for k in ['III', 'OOO']}).unstack()

     Jack  Joe  Mary
III     2    1     2
OOO     0    1     0

您會注意到，這將'IIII'視為'III'一個實例。

Answer 4

您可以將pd.value_counts應用於數據pd.value_counts的每一列，這樣，如果您不僅擁有I和O，還可以輕松計算這些值

df.apply(pd.value_counts)

   Jack  Joe  Mary
I     6    5     6
O     4    5     4

在不迭代Python熊貓的情況下計算大型數據框中的模式出現次數

問題描述

4 個解決方案

解決方案1
2 已采納 2018-04-17 22:25:10

解決方案2
2 2018-04-17 22:54:05

解決方案3
1 2018-04-18 03:15:10

解決方案4
0 2018-04-18 00:30:15

在不迭代Python熊貓的情況下計算大型數據框中的模式出現次數

問題描述

4 個解決方案

解決方案1 2 已采納 2018-04-17 22:25:10

解決方案2 2 2018-04-17 22:54:05

解決方案3 1 2018-04-18 03:15:10

解決方案4 0 2018-04-18 00:30:15

解決方案1
2 已采納 2018-04-17 22:25:10

解決方案2
2 2018-04-17 22:54:05

解決方案3
1 2018-04-18 03:15:10

解決方案4
0 2018-04-18 00:30:15