
[英]How to compute the similarity between two text documents?
我正在研究一个 NLP 项目,可以使用任何编程语言(尽管我更喜欢 Python)。 我想拿两份文件并确定它们的相似程度。 ...
[英]How to compute the similarity between two text documents?
我正在研究一个 NLP 项目,可以使用任何编程语言(尽管我更喜欢 Python)。 我想拿两份文件并确定它们的相似程度。 ...
[英]How to get rid of punctuation using NLTK tokenizer?
我刚开始使用 NLTK,我不太明白如何从文本中获取单词列表。 如果我使用nltk.word_tokenize() ,我会得到一个单词和标点符号列表。 我只需要单词。 我怎样才能摆脱标点符号? word_tokenize也不适用于多个句子:在最后一个单词中添加点。 ...
[英]How to compute precision, recall, accuracy and f1-score for the multiclass case with scikit learn?
我正在处理情感分析问题,数据如下所示: 所以我的数据是不平衡的,因为 1190 个instances被标记为5 。 对于使用 scikit 的SVC的分类 Im。 问题是我不知道如何以正确的方式平衡我的数据,以便准确计算多类案例的准确率、召回率、准确率和 f1 分数。 所以我尝试了以下方法: ...
[英]spacy Can't find model 'en_core_web_sm' on windows 10 and Python 3.5.3 :: Anaconda custom (64-bit)
spacy.load('en_core_web_sm')和spacy.load('en')有什么区别? 此链接解释了不同的 model 尺寸。 但我仍然不清楚spacy.load('en_core_web_sm')和spacy.load('en')不同 spacy.load('en')对我来说 ...
[英]How to return history of validation loss in Keras
使用 Anaconda Python 2.7 Windows 10。 我正在使用 Keras 示例训练语言 model: 根据 Keras 文档, model.fit方法返回一个 History 回调,该回调具有一个包含连续损失列表和其他指标的 history 属性。 训练我的 model 后,如果 ...
[英]Stopword removal with NLTK
我正在尝试通过使用 nltk 工具包删除停用词来处理用户输入的文本,但是使用停用词删除,诸如“and”、“or”、“not”之类的词会被删除。 我希望这些词在停用词删除过程后出现,因为它们是稍后将文本作为查询处理所需的运算符。 我不知道哪些词可以作为文本查询中的运算符,我也想从我的文本中删除不必要的 ...
[英]googletrans stopped working with error 'NoneType' object has no attribute 'group'
我正在尝试使用googletrans ,它运行良好。 从今天早上开始,我开始遇到错误。 我查看了来自 stackoverflow 和其他网站的多个帖子,发现我的 ip 可能在一段时间内被禁止使用该服务。 我尝试使用具有不同 ip 的多个服务提供商 inte.net,但仍然面临同样的问题? 我也尝试 ...
[英]How to determine the language of a piece of text?
我想得到这个:Input text: "ру́сский язы́к" Output text: "Russian" Input text: "中文" Output text: "Chinese" Input text: "にほんご" Output text: "Japanese" I ...
[英]What is the difference between lemmatization vs stemming?
我什么时候使用它们? 另外……NLTK 词形还原是否依赖于词性? 如果是的话不是更准确吗? ...
[英]Calculate cosine similarity given 2 sentence strings
来自Python:tf-idf-cosine: to find document similarity ,可以使用 tf-idf cosine 计算文档相似度。 在不导入外部库的情况下,是否有任何方法可以计算 2 个字符串之间的余弦相似度? ...
[英]Replace specific text with a redacted version using Python
我希望做与这里所做的相反的事情: 部分替换为 re.sub() 我的总体目标是使用神经网络替换文本中的所有XXXX 。 XXXX可以表示 .csv 文件中的名称、地点、数字、日期等。 最终结果将如下所示: 海绵宝宝去了迪斯尼乐园。 简而言之,我正在取消屏蔽文本并将其替换为使用模糊生 ...
[英]How do I do word Stemming or Lemmatization?
我已经尝试过PorterStemmer和Snowball,但两个都不能用于所有单词,缺少一些非常常见的单词。 我的测试词是:“ 猫跑仙人掌仙人掌仙人掌社区社区 ”,两者都不到一半。 也可以看看: 用于生成真实单词的词干算法 词干 - 代码示例或开源项目? ...
[英]How do I tokenize a string sentence in NLTK?
我正在使用nltk,所以我想创建自己的自定义文本,就像nltk.books上的默认文本一样。 但是,我刚刚接受了这样的方法 我想发现任何方式输入我的“文本”: 哪种方法,python或者nltk允许我这样做。 更重要的是,我如何解除标点符号? ...
[英]Python NLTK: SyntaxError: Non-ASCII character '\xc3' in file (Sentiment Analysis -NLP)
我在玩 NLTK 来做一项关于情绪分析的任务。 我正在使用 Python 2.7。 NLTK 3.0 和 NumPy1.9.1 版本。 这是代码: 这是我在运行代码时遇到的错误: 我该如何解决这个错误? 我还使用 Python 3.4.2 和 NLTK 3.0 和 NumPy 1.9. ...
[英]How to use Stanford Parser in NLTK using Python
是否可以在 NLTK 中使用斯坦福解析器? (我不是在谈论斯坦福 POS。) ...
[英]Java Stanford NLP: Part of Speech labels?
此处演示的斯坦福 NLP 给出了如下输出: 词性标签是什么意思? 我找不到官方列表。 是斯坦福自己的系统,还是他们使用通用标签? (例如,什么是JJ ?) 此外,当我遍历句子时,例如寻找名词时,我最终会做一些事情,例如检查标签.contains('N') 。 这感觉很弱。 有没有更好的方法来 ...
[英]Computing N Grams using Python
我需要为包含如下文本的文本文件计算 Unigrams、BiGrams 和 Trigrams: “仅在美国,囊性纤维化就影响了 30,000 名儿童和年轻人 吸入盐水雾可以减少充满囊性纤维化患者气道的脓液和感染,尽管副作用包括令人讨厌的咳嗽和刺鼻的味道。这就是结论本周发表在《新英格兰医学杂志》上的 ...
[英]SpaCy OSError: Can't find model 'en'
即使我下载了模型它也无法加载它 我应该如何解决这个问题? 如果我不使用 sudo 下载 en 模型,我会得到: ...
[英]Fuzzy String Comparison
我正在努力完成的是一个程序,它读取一个文件并根据原始句子比较每个句子。 与原文完全匹配的句子将获得 1 分,完全相反的句子将获得 0 分。所有其他模糊句子将获得介于 1 和 0 之间的分数。 我不确定使用哪个操作可以让我在 Python 3 中完成此操作。 我已经包含了示例文本,其中 Text 1 ...
[英]How to check whether a sentence is correct (simple grammar check in Python)?
如何检查Python中的句子是否有效? 例子: ...