分組並統計Pandas DataFrame中的不同單詞

Question

通過年份和名稱，我希望計算從Excel導入的數據框中單詞的出現次數，該結果也將導出到Excel。

這是示例代碼：

source = pd.DataFrame({'Name' : ['John', 'Mike', 'John','John'], 
                  'Year' : ['1999', '2000', '2000','2000'],
                  'Message' : [

'I Love You','Will Remember You','Love','I Love You]})

數據框中的結果如下。 有任何想法嗎？

Year Name Message Count
1999 John I 1
1999 John love 1
1999 John you 1

2000 Mike Will 1 
2000 Mike Remember 1
2000 Mike You 1 
2000 John Love 2
2000 John I 1
2000 John You 1

Answer 1

我認為您可以先split Message列，創建Serie並將其添加到原始source 。 最后groupby的size ：

#split column Message to new df, create Serie by stack
s = (source.Message.str.split(expand=True).stack())
#remove multiindex
s.index = s.index.droplevel(-1)
s.name= 'Message'
print(s)
0           I
0        Love
0         You
1        Will
1    Remember
1         You
2        Love
3           I
3        Love
3         You
Name: Message, dtype: object

#remove old column Message
source = source.drop(['Message'], axis=1)
#join Serie s to df source
df = (source.join(s))

#aggregate size
print (df.groupby(['Year', 'Name', 'Message']).size().reset_index(name='count'))
   Year  Name   Message  count
0  1999  John         I      1
1  1999  John      Love      1
2  1999  John       You      1
3  2000  John         I      1
4  2000  John      Love      2
5  2000  John       You      1
6  2000  Mike  Remember      1
7  2000  Mike      Will      1
8  2000  Mike       You      1

分組並統計Pandas DataFrame中的不同單詞

問題描述

1 個解決方案

解決方案1
2 已采納 2016-05-29 10:22:50

分組並統計Pandas DataFrame中的不同單詞

問題描述

1 個解決方案

解決方案1 2 已采納 2016-05-29 10:22:50

解決方案1
2 已采納 2016-05-29 10:22:50