[英]Python how to apply bag of words to tweets in csv file
我目前正在从事Twitter数据分析,并且一直致力于在Python中应用单词袋技术,并且没有运气。 目前,我已经能够通过一些预处理流式传输要存储在数据库中的数据,然后我将这些推文导出到一个csv文件中,但绊倒了下一部分以使用单词袋来进行机器学习。
我已经尝试遵循https://www.kaggle.com/c/word2vec-nlp-tutorial#part-1-for-beginners-bag-of-words,但是我没有成功,也无法掌握仅查看scikit或nltk文档即可了解如何进行处理。 任何人都可以建议我可以遵循的教程,以使用Python 3来达到目的。 谢谢您的帮助
因此,scikit-learn的CountVectoriser是一个不错的起点。 您需要创建一个固定大小的词汇表(从您的推文中收集N个唯一单词),以便可以将每个推文表示为固定长度的向量,其中向量中的每个位置代表您词汇表中的特定单词,并且value是单词出现的次数。
使用纯Python,将是:
首次通过推文
第二次通过相同的推文
您可以使用1或0表示是否存在一个单词,而不要使用单词频率。 看看有什么用。
但是,scikit-learn使所有这些操作变得更加容易。
我发现本教程可能也有帮助。
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.