使用nltk計算python中csv文件中單詞的出現次數

Question

我試圖計算.csv文件中單詞“the”的出現次數，但是當我運行以下代碼時，它返回0.（test.csv位於此處）

我只是搜索這個文件的第一列。

import csv
import nltk

tweet = []

for t in csv.DictReader(open('test.csv'), delimiter=','):
    tweet.append(t['text'])

tweet_text = nltk.Text(tweet)
print tweet_text.count("the")

在此先感謝您的幫助。

Answer 1

使用str.split text字段拆分為單詞，並相應地使用list.extend 。 除非你只想要小寫the否則制作小寫。

>>> nltk.Text(['the world The words']).count('the')
0
>>> nltk.Text(['the', 'world', 'The', 'words']).count('the')
1

完整代碼：

import csv
import nltk

tweet = []

for t in csv.DictReader(open('test.csv'), delimiter=','):
    tweet.extend(t['text'].lower().split()) # <-----------

tweet_text = nltk.Text(tweet)
print tweet_text.count('the')

使用nltk計算python中csv文件中單詞的出現次數

問題描述

1 個解決方案

解決方案1
2 已采納 2013-12-14 07:10:52

使用nltk計算python中csv文件中單詞的出現次數

問題描述

1 個解決方案

解決方案1 2 已采納 2013-12-14 07:10:52

解決方案1
2 已采納 2013-12-14 07:10:52