繁体   English   中英

Python是否提供任何用于文本关系的库?

[英]Does Python provide any libraries for textual relationship?

我有一句话,让我们说“美国”和一份文本文件。 我想知道整个文件是否与“美国”有关。 在文档中,“美国”一词可能被提及过100或1000次,但是到今天结束时,文档可能在谈论中国。

我使用了Python中的情感分析库,但是只有当文档以肯定,否定或中性的方式提及该词时,这些库才会返回。

我还可以算出该单词被提及的次数,以及该单词与文档中每个单词之间的相似度,但是仍然不知道如何判断整个文档是否与所提到的单词有关。

python中是否有任何库可以执行此操作,或者是否有任何API?

对此没有真正好的完整解决方案库。 您可能需要使用NLTK之类的词干和分析( http://www.nltk.org )。 词干如下:“法拉利->跑车->汽车->运输”,这使您可以看到单词的“基本”概念。

然后,您可能需要进行某种TF / IDF分析,以确定确切的文档内容。 这将帮助您确定哪些单词很重要( http://scikit-learn.org/stable/modules/generation/sklearn.feature_extraction.text.TfidfVectorizer.html )。

关于TF / IDF的很好的教程可以在这里找到: http : //stevenloria.com/finding-important-words-in-a-document-using-tf-idf/

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM