cost 95 ms
谷歌“你的意思是什么?”算法是如何工作的?

[英]How does the Google “Did you mean?” Algorithm work?

我一直在开发一个投资组合管理工具的内部网站。 有很多文本数据,公司名称等。我对一些搜索引擎能够快速响应查询的印象非常深刻,“你的意思是:xxxx”。 我需要能够智能地进行用户查询并不仅响应原始搜索结果,还要回答“你的意思是?” 当有极有可能的替代答案等时作出回应 [我正在开发AS ...

如何计算两个文本文档之间的相似度?

[英]How to compute the similarity between two text documents?

我正在研究一个 NLP 项目,可以使用任何编程语言(尽管我更喜欢 Python)。 我想拿两份文件并确定它们的相似程度。 ...

2012-01-17 15:51:09   13   259564    python / nlp  
Java 斯坦福 NLP:语音标签的一部分?

[英]Java Stanford NLP: Part of Speech labels?

此处演示的斯坦福 NLP 给出了如下输出: 词性标签是什么意思? 我找不到官方列表。 是斯坦福自己的系统,还是他们使用通用标签? (例如,什么是JJ ?) 此外,当我遍历句子时,例如寻找名词时,我最终会做一些事情,例如检查标签.contains('N') 。 这感觉很弱。 有没有更好的方法来 ...

googletrans 停止工作并出现错误“NoneType” object 没有属性“group”

[英]googletrans stopped working with error 'NoneType' object has no attribute 'group'

我正在尝试使用googletrans ,它运行良好。 从今天早上开始,我开始遇到错误。 我查看了来自 stackoverflow 和其他网站的多个帖子,发现我的 ip 可能在一段时间内被禁止使用该服务。 我尝试使用具有不同 ip 的多个服务提供商 inte.net,但仍然面临同样的问题? 我也尝试 ...

如何判断一段文字的语言?

[英]How to determine the language of a piece of text?

我想得到这个:Input text: "ру́сский язы́к" Output text: "Russian" Input text: "中文" Output text: "Chinese" Input text: "にほんご" Output text: "Japanese" I ...

2016-08-25 10:26:00   16   146647    python / nlp  
如何使用 NLTK 分词器去除标点符号?

[英]How to get rid of punctuation using NLTK tokenizer?

我刚开始使用 NLTK,我不太明白如何从文本中获取单词列表。 如果我使用nltk.word_tokenize() ,我会得到一个单词和标点符号列表。 我只需要单词。 我怎样才能摆脱标点符号? word_tokenize也不适用于多个句子:在最后一个单词中添加点。 ...

检测单词中的音节

[英]Detecting syllables in a word

我需要找到一种相当有效的方法来检测单词中的音节。 例如, 隐形 -> in-vi-sib-le 有一些可以使用的音节规则: V CV VC CVC CCV CCCV CVCC *其中 V 是元音,C 是辅音。 例如, 发音 (5 Pro-nun-ci-a-tion; CV-CVC ...

Apple 如何在电子邮件中查找日期、时间和地址?

[英]How does Apple find dates, times and addresses in emails?

在 iOS 电子邮件客户端中,当电子邮件包含日期、时间或位置时,文本将变成超链接,只需点击链接即可创建约会或查看地图。 它不仅适用于英语电子邮件,也适用于其他语言。 我喜欢这个功能,想了解他们是如何做到的。 这样做的天真方法是拥有许多正则表达式并全部运行它们。 然而,我这不会很好地扩展并且只适用于 ...

如何使用 scikit learn 计算多类案例的准确率、召回率、准确率和 f1 分数?

[英]How to compute precision, recall, accuracy and f1-score for the multiclass case with scikit learn?

我正在处理情感分析问题,数据如下所示: 所以我的数据是不平衡的,因为 1190 个instances被标记为5 。 对于使用 scikit 的SVC的分类 Im。 问题是我不知道如何以正确的方式平衡我的数据,以便准确计算多类案例的准确率、召回率、准确率和 f1 分数。 所以我尝试了以下方法: ...

我如何做词干或词形还原?

[英]How do I do word Stemming or Lemmatization?

我已经尝试过PorterStemmer和Snowball,但两个都不能用于所有单词,缺少一些非常常见的单词。 我的测试词是:“ 猫跑仙人掌仙人掌仙人掌社区社区 ”,两者都不到一半。 也可以看看: 用于生成真实单词的词干算法 词干 - 代码示例或开源项目? ...

如何正确地在单词前加上“a”和“an”?

[英]How can I correctly prefix a word with “a” and “an”?

我有一个 .NET 应用程序,其中给定一个名词,我希望它在该词前面正确加上“a”或“an”。 我该怎么做? 在您认为答案是简单地检查第一个字母是否是元音之前,请考虑以下短语: 一个诚实的错误 一辆二手车 ...

如何使用Genia Corpus训练斯坦福分析器?

[英]How to train the Stanford Parser with Genia Corpus?

我为Stanford Parser创建一个新模型有一些问题。 我还从斯坦福下载了最新版本: http : //nlp.stanford.edu/software/lex-parser.shtml 在这里,Genia Corpus有2种格式,xml和ptb(Penn Treebank) ...

Keras Tokenizer 方法究竟做了什么?

[英]What does Keras Tokenizer method exactly do?

有时,情况需要我们执行以下操作: 然后,我们总是念诵这个咒语: 虽然我(或多或少)了解总体效果是什么,但我无法弄清楚每个人分别做了什么,无论我做了多少研究(显然,包括文档)。 我想我从来没有见过一个没有另一个。 那么每个人做什么呢? 在任何情况下,您都可以使用其中一种而不使用另一种吗? 如 ...

理解 scikit CountVectorizer 中的 min_df 和 max_df

[英]Understanding min_df and max_df in scikit CountVectorizer

我有五个文本文件输入到 CountVectorizer。 当为 CountVectorizer 实例指定 min_df 和 max_df 时,最小/最大文档频率究竟意味着什么? 是某个词在其特定文本文件中的出现频率,还是该词在整个语料库(5 个 txt 文件)中的出现频率? 当 min_df 和 ...


 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM