实现scikit-learn机器学习算法

Question

链接： https ： //stackoverflow.com/questions/18154278/is-there-a-maximum-size-for-the-nltk-naive-bayes-classifer

我在代码中实现scikit-learn机器学习算法时遇到麻烦。 scikit-learn的作者之一在上述问题上为我提供了帮助，但我不能完全解决这个问题，并且由于我最初的问题是关于另一件事，所以我认为最好打开一个新问题。。

该代码将输入推文并将其文本和情感读入字典中。 然后，它解析文本的每一行，并将文本添加到一个列表中，并将其情感添加到另一个列表中（在上述链接的问题中，根据作者的建议）。

但是，尽管我使用链接中的代码并尽我所能查找API，但我还是觉得有些不足。 运行下面的代码，首先让我得到一串用冒号分隔的输出，如下所示：

  (0, 299)  0.270522159585
  (0, 271)  0.32340892262
  (0, 266)  0.361182814311
  : :
  (48, 123) 0.240644787937

其次是：

['negative', 'positive', 'negative', 'negative', 'positive', 'negative', 'negative', 'negative', etc]

接着：

ValueError: empty vocabulary; perhaps the documents only contain stop words

我是否以错误的方式分配了分类器？ 这是我的代码：

test_file = 'RawTweetDataset/SmallSample.csv'
#test_file = 'RawTweetDataset/Dataset.csv'
sample_tweets = 'SampleTweets/FlumeData2.txt'
csv_file = csv.DictReader(open(test_file, 'rb'), delimiter=',', quotechar='"')

tweetsDict = {}

for line in csv_file:
    tweetsDict.update({(line['SentimentText'],line['Sentiment'])})

tweets = []
labels = []
shortenedText = ""
for (text, sentiment) in tweetsDict.items():
    text = HTMLParser.HTMLParser().unescape(text.decode("cp1252", "ignore"))
    exclude = set(string.punctuation)
    for punct in string.punctuation:
        text = text.replace(punct,"")
    cleanedText = [e.lower() for e in text.split() if not e.startswith(('http', '@'))]
    shortenedText = [e.strip() for e in cleanedText if e not in exclude]

    text = ' '.join(ch for ch in shortenedText if ch not in exclude)
    tweets.append(text.encode("utf-8", "ignore"))
    labels.append(sentiment)

vectorizer = TfidfVectorizer(input='content')
X = vectorizer.fit_transform(tweets)
y = labels
classifier = MultinomialNB().fit(X, y)

X_test = vectorizer.fit_transform(sample_tweets)
y_pred = classifier.predict(X_test)

更新：当前代码：

all_files = glob.glob (tweet location)
for filename in all_files:
    with open(filename, 'r') as file:
        for line file.readlines():
            X_test = vectorizer.transform([line])
            y_pred = classifier.predict(X_test)
            print line
            print y_pred

这总是会产生类似：

happy bday trish
['negative'] << Never changes, always negative

Answer 1

问题在这里：

X_test = vectorizer.fit_transform(sample_tweets)

fit_transform在训练集而不是测试集上调用fit_transform 。 在测试集上，调用transform 。

另外， sample_tweets是文件名。 您应先将其打开，并从中读取其tweet，然后再将其传递给矢量化器。 如果这样做，那么您最终应该可以做类似的事情

for tweet, sentiment in zip(list_of_sample_tweets, y_pred):
    print("Tweet: %s" % tweet)
    print("Sentiment: %s" % sentiment)

Answer 2

要在TextBlob中做到这一点（如在注释中提到的那样），您可以

from text.blob import TextBlob

tweets = ['This is tweet one, and I am happy.', 'This is tweet two and I am sad']

for tweet in tweets:
    blob = TextBlob(tweet)
    print blob.sentiment #Will return (Polarity, Subjectivity)

实现scikit-learn机器学习算法

问题描述

2 个解决方案

解决方案1
6 已采纳 2013-08-14 07:17:35

解决方案2
1 2013-08-14 00:06:30

实现scikit-learn机器学习算法

问题描述

2 个解决方案

解决方案1 6 已采纳 2013-08-14 07:17:35

解决方案2 1 2013-08-14 00:06:30

解决方案1
6 已采纳 2013-08-14 07:17:35

解决方案2
1 2013-08-14 00:06:30