我正在尝试调整此代码: http : //snipperize.todayclose.com/snippet/py/Use-NLTK-Toolkit-to-Classify-Documents--5671027/以接受一些其他功能。 似乎是基于具有用于不同信息类别的单独文件来确定其类别的,这很好。 但我也希望能够添加一些其他数据以供查找。 需要修改什么? 有什么好的资源吗? 关于NLTK / Python的书没有解决这个问题。

#1楼 票数:1

您所说的功能是什么意思? 在我看来,您只想添加更多的数据,而不是功能。

如果要考虑新功能,则必须根据需要修改提取词。

如果只需要更多数据(可能存储在不同文件中),则应编辑主代码,以考虑文件名集而不是功能的单个文件。 当然,这意味着对第74行的循环进行了修改。您必须添加另一个内部循环以遍历集合中的所有文件名。

  ask by Dan translate from so

未解决问题?本站智能推荐:

1回复

NLTK在一个分类器中具有多个功能集?

在NLTK中,通过使用朴素的贝叶斯分类器,我从示例中知道,使用“词袋”方法非常简单,可以查找单字组或双字母组或两者。 您可以使用两组完全不同的功能来做相同的事情吗? 例如,我可以使用字母组合和训练集的长度吗(我知道这里已经提到过一次)? 但是让我更感兴趣的是文档中出现的诸如双字母组和“
1回复

python textblob和文本分类

我正在尝试使用python和textblob构建文本分类模型,该脚本正在我的服务器上运行,将来的想法是用户将能够提交其文本并将其分类。 我正在从csv加载训练集: csv长约500行(字符串在10到100个字符之间),NaiveBayesclassifier需要约2分钟的训练时间,然后
2回复

NLTK分类和带文本Blob的WordNet

我有以下两套。 我们的想法是能够根据我提供的一些元标记对新闻文章进行分类。 例如,当我得到一篇文章“法官”“5年”时,它应被归类为犯罪故事 问题是当我运行时: 它把一切都归类为“汽车” 我确信我在这里缺少语义相似性比较。 我尝试通过文本blob使用WordNet。
1回复

朴素贝叶斯的文本分类

我倾向于NLP并注意到基于朴素贝叶斯的TextBlob分类(textblob是在NLTK之上构建的) https://textblob.readthedocs.io/en/dev/classifiers.html在训练数据为句子列表并且确实可以正常工作时如果训练数据是单个单词(每个单词和指定的分
2回复

NLP ML 如何知道文本分类器中使用的词的权重?

我正在构建一个推文分类器,我尝试训练不同的 ML 模型来对来自 2 个不同推特帐户的推文进行分类。 到目前为止,我已经训练了逻辑回归模型、K 邻居分类器和决策树分类器。 有没有办法知道这些分类器用来预测帐户的推文中的哪些词? 比如分类过程中词的权重?? 我愿意训练也能做到这一点的新分类器。 已经
2回复

NLTK分类概率估计(使用n-gram)

我有以下代码,它估计文本字符串属于特定类(正数或负数)的可能性。 它产生以下内容: 我正在加载的腌制分类器已经使用了n-gram。 我的问题是: 如何编辑此代码,以便将n元语法合并到概率估计中?
1回复

如何为NLTK中的歧义句生成多个解析树?

我在Python中有以下代码。 输出是: 但是输出应该有另外2个解析树。 问题是RegexpParser只采用了第一个正则表达式。 如何一次生成所有可能的解析树?
1回复

使用NLTK构建训练分类器Python

目前,我正在一个项目中,该项目使用Python和NLTK从聊天应用程序中的文本中检测情绪(高兴,悲伤等)。 我对NLP和Python不太熟悉。 作为一种基本方式,我希望使用基于关键字的方法。 在那种情况下,我必须在每个情绪状态下列出一个情绪关键字列表,并且需要查找给定句子中是否有任何情绪关