繁体   English   中英

Python如何在csv文件中的推文中应用单词袋

[英]Python how to apply bag of words to tweets in csv file

我目前正在从事Twitter数据分析,并且一直致力于在Python中应用单词袋技术,并且没有运气。 目前,我已经能够通过一些预处理流式传输要存储在数据库中的数据,然后我将这些推文导出到一个csv文件中,但绊倒了下一部分以使用单词袋来进行机器学习。

我已经尝试遵循https://www.kaggle.com/c/word2vec-nlp-tutorial#part-1-for-beginners-bag-of-words,但是我没有成功,也无法掌握仅查看scikit或nltk文档即可了解如何进行处理。 任何人都可以建议我可以遵循的教程,以使用Python 3来达到目的。 谢谢您的帮助

因此,scikit-learn的CountVectoriser是一个不错的起点。 您需要创建一个固定大小的词汇表(从您的推文中收集N个唯一单词),以便可以将每个推文表示为固定长度的向量,其中向量中的每个位置代表您词汇表中的特定单词,并且value是单词出现的次数。

使用纯Python,将是:

  1. 创建一系列推文文本
  2. 初始化代表您的词汇的空集

首次通过推文

  1. 对于每条推文,提取唯一的单词
    • 如果这些单词不存在,请将它们添加到您的词汇表中

第二次通过相同的推文

  1. 对于每条推文,提取唯一的单词
    • 创建一个矢量,该矢量填充有大小为N的零,表示该推文
    • 对于每个单词,增加与单词在向量中的位置相对应的计数

您可以使用1或0表示是否存在一个单词,而不要使用单词频率。 看看有什么用。

但是,scikit-learn使所有这些操作变得更加容易。

我发现本教程可能也有帮助。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM