cost 346 ms
如何计算两个文本文档之间的相似度?

[英]How to compute the similarity between two text documents?

我正在研究一个 NLP 项目,可以使用任何编程语言(尽管我更喜欢 Python)。 我想拿两份文件并确定它们的相似程度。 ...

2012-01-17 15:51:09   13   259564    python / nlp  
如何使用 NLTK 分词器去除标点符号?

[英]How to get rid of punctuation using NLTK tokenizer?

我刚开始使用 NLTK,我不太明白如何从文本中获取单词列表。 如果我使用nltk.word_tokenize() ,我会得到一个单词和标点符号列表。 我只需要单词。 我怎样才能摆脱标点符号? word_tokenize也不适用于多个句子:在最后一个单词中添加点。 ...

如何使用 scikit learn 计算多类案例的准确率、召回率、准确率和 f1 分数?

[英]How to compute precision, recall, accuracy and f1-score for the multiclass case with scikit learn?

我正在处理情感分析问题,数据如下所示: 所以我的数据是不平衡的,因为 1190 个instances被标记为5 。 对于使用 scikit 的SVC的分类 Im。 问题是我不知道如何以正确的方式平衡我的数据,以便准确计算多类案例的准确率、召回率、准确率和 f1 分数。 所以我尝试了以下方法: ...

如何在 Keras 中返回验证丢失的历史记录

[英]How to return history of validation loss in Keras

使用 Anaconda Python 2.7 Windows 10。 我正在使用 Keras 示例训练语言 model: 根据 Keras 文档, model.fit方法返回一个 History 回调,该回调具有一个包含连续损失列表和其他指标的 history 属性。 训练我的 model 后,如果 ...

使用 NLTK 去除停用词

[英]Stopword removal with NLTK

我正在尝试通过使用 nltk 工具包删除停用词来处理用户输入的文本,但是使用停用词删除,诸如“and”、“or”、“not”之类的词会被删除。 我希望这些词在停用词删除过程后出现,因为它们是稍后将文本作为查询处理所需的运算符。 我不知道哪些词可以作为文本查询中的运算符,我也想从我的文本中删除不必要的 ...

googletrans 停止工作并出现错误“NoneType” object 没有属性“group”

[英]googletrans stopped working with error 'NoneType' object has no attribute 'group'

我正在尝试使用googletrans ,它运行良好。 从今天早上开始,我开始遇到错误。 我查看了来自 stackoverflow 和其他网站的多个帖子,发现我的 ip 可能在一段时间内被禁止使用该服务。 我尝试使用具有不同 ip 的多个服务提供商 inte.net,但仍然面临同样的问题? 我也尝试 ...

如何判断一段文字的语言?

[英]How to determine the language of a piece of text?

我想得到这个:Input text: "ру́сский язы́к" Output text: "Russian" Input text: "中文" Output text: "Chinese" Input text: "にほんご" Output text: "Japanese" I ...

2016-08-25 10:26:00   16   146647    python / nlp  
使用 Python 将特定文本替换为编辑版本

[英]Replace specific text with a redacted version using Python

我希望做与这里所做的相反的事情: 部分替换为 re.sub() 我的总体目标是使用神经网络替换文本中的所有XXXX 。 XXXX可以表示 .csv 文件中的名称、地点、数字、日期等。 最终结果将如下所示: 海绵宝宝去了迪斯尼乐园。 简而言之,我正在取消屏蔽文本并将其替换为使用模糊生 ...

我如何做词干或词形还原?

[英]How do I do word Stemming or Lemmatization?

我已经尝试过PorterStemmer和Snowball,但两个都不能用于所有单词,缺少一些非常常见的单词。 我的测试词是:“ 猫跑仙人掌仙人掌仙人掌社区社区 ”,两者都不到一半。 也可以看看: 用于生成真实单词的词干算法 词干 - 代码示例或开源项目? ...

如何在NLTK中对字符串句子进行标记?

[英]How do I tokenize a string sentence in NLTK?

我正在使用nltk,所以我想创建自己的自定义文本,就像nltk.books上的默认文本一样。 但是,我刚刚接受了这样的方法 我想发现任何方式输入我的“文本”: 哪种方法,python或者nltk允许我这样做。 更重要的是,我如何解除标点符号? ...

Python NLTK:SyntaxError:文件中的非 ASCII 字符 '\\xc3'(情绪分析 -NLP)

[英]Python NLTK: SyntaxError: Non-ASCII character '\xc3' in file (Sentiment Analysis -NLP)

我在玩 NLTK 来做一项关于情绪分析的任务。 我正在使用 Python 2.7。 NLTK 3.0 和 NumPy1.9.1 版本。 这是代码: 这是我在运行代码时遇到的错误: 我该如何解决这个错误? 我还使用 Python 3.4.2 和 NLTK 3.0 和 NumPy 1.9. ...

Java 斯坦福 NLP:语音标签的一部分?

[英]Java Stanford NLP: Part of Speech labels?

此处演示的斯坦福 NLP 给出了如下输出: 词性标签是什么意思? 我找不到官方列表。 是斯坦福自己的系统,还是他们使用通用标签? (例如,什么是JJ ?) 此外,当我遍历句子时,例如寻找名词时,我最终会做一些事情,例如检查标签.contains('N') 。 这感觉很弱。 有没有更好的方法来 ...

使用 Python 计算 N 克

[英]Computing N Grams using Python

我需要为包含如下文本的文本文件计算 Unigrams、BiGrams 和 Trigrams: “仅在美国,囊性纤维化就影响了 30,000 名儿童和年轻人 吸入盐水雾可以减少充满囊性纤维化患者气道的脓液和感染,尽管副作用包括令人讨厌的咳嗽和刺鼻的味道。这就是结论本周发表在《新英格兰医学杂志》上的 ...

SpaCy OSError:找不到模型“en”

[英]SpaCy OSError: Can't find model 'en'

即使我下载了模型它也无法加载它 我应该如何解决这个问题? 如果我不使用 sudo 下载 en 模型,我会得到: ...

2018-04-22 08:33:02   14   92698    nlp / spacy  
模糊字符串比较

[英]Fuzzy String Comparison

我正在努力完成的是一个程序,它读取一个文件并根据原始句子比较每个句子。 与原文完全匹配的句子将获得 1 分,完全相反的句子将获得 0 分。所有其他模糊句子将获得介于 1 和 0 之间的分数。 我不确定使用哪个操作可以让我在 Python 3 中完成此操作。 我已经包含了示例文本,其中 Text 1 ...


 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM