繁体 English 中英

Python如何在csv文件中的推文中应用单词袋

[英]Python how to apply bag of words to tweets in csv file

原文 2017-12-03 20:26:59 1 1 python/ twitter/ scikit-learn/ nlp/ nltk

我目前正在从事Twitter数据分析，并且一直致力于在Python中应用单词袋技术，并且没有运气。 目前，我已经能够通过一些预处理流式传输要存储在数据库中的数据，然后我将这些推文导出到一个csv文件中，但绊倒了下一部分以使用单词袋来进行机器学习。

我已经尝试遵循https://www.kaggle.com/c/word2vec-nlp-tutorial#part-1-for-beginners-bag-of-words，但是我没有成功，也无法掌握仅查看scikit或nltk文档即可了解如何进行处理。 任何人都可以建议我可以遵循的教程，以使用Python 3来达到目的。 谢谢您的帮助

1 个解决方案

因此，scikit-learn的CountVectoriser是一个不错的起点。 您需要创建一个固定大小的词汇表（从您的推文中收集N个唯一单词），以便可以将每个推文表示为固定长度的向量，其中向量中的每个位置代表您词汇表中的特定单词，并且value是单词出现的次数。

使用纯Python，将是：

创建一系列推文文本
初始化代表您的词汇的空集

首次通过推文

对于每条推文，提取唯一的单词
- 如果这些单词不存在，请将它们添加到您的词汇表中

第二次通过相同的推文

对于每条推文，提取唯一的单词
- 创建一个矢量，该矢量填充有大小为N的零，表示该推文
- 对于每个单词，增加与单词在向量中的位置相对应的计数

您可以使用1或0表示是否存在一个单词，而不要使用单词频率。 看看有什么用。

但是，scikit-learn使所有这些操作变得更加容易。

我发现本教程可能也有帮助。

如何将a.csv文件转换为python中的.bag？

[英]how to convert a .csv file to .bag in python?

从python的csv文件中的推文中删除不需要的单词（字符）

[英]Removing unwanted words(characters) from tweets in a csv file in python

如何在python中保存词袋数据？

[英]How to save bag of words datas in python?

Python Bag of Words聚类

[英]Python Bag of Words clustering

Python语言包

[英]Python Bag of Words

如何使用Python保存乌尔都语推文并保存在CSV文件中

[英]How to save urdu tweets and save in csv file using python

如何确定可以从一袋字母和一袋单词python中制作的单词数量和词组

[英]How to determine the count and set of words that can be made from a bag of letters and bag of words python

如何使用拆分方法从python中的文本文件制作一袋单词

[英]How to make a bag of words using split method from a text file in python

如何使用pycharm应用TFIDF在CSV文件中查找重要单词

[英]How to apply TFIDF to find important words in csv file using pycharm

如何在python中的csv文件中识别和替换单词

[英]how to identify and replace words in a csv file in python

暂无

暂无

声明:本站的技术帖子网页，遵循CC BY-SA 4.0协议，如果您需要转载，请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

相关问题 如何将a.csv文件转换为python中的.bag？从python的csv文件中的推文中删除不需要的单词（字符）如何在python中保存词袋数据？ Python Bag of Words聚类 Python语言包如何使用Python保存乌尔都语推文并保存在CSV文件中如何确定可以从一袋字母和一袋单词python中制作的单词数量和词组如何使用拆分方法从python中的文本文件制作一袋单词如何使用pycharm应用TFIDF在CSV文件中查找重要单词如何在python中的csv文件中识别和替换单词

相关标签

粤ICP备18138465号 © 2020-2024 STACKOOM.COM