
[英]How does the Google “Did you mean?” Algorithm work?
我一直在开发一个投资组合管理工具的内部网站。 有很多文本数据,公司名称等。我对一些搜索引擎能够快速响应查询的印象非常深刻,“你的意思是:xxxx”。 我需要能够智能地进行用户查询并不仅响应原始搜索结果,还要回答“你的意思是?” 当有极有可能的替代答案等时作出回应 [我正在开发AS ...
[英]How does the Google “Did you mean?” Algorithm work?
我一直在开发一个投资组合管理工具的内部网站。 有很多文本数据,公司名称等。我对一些搜索引擎能够快速响应查询的印象非常深刻,“你的意思是:xxxx”。 我需要能够智能地进行用户查询并不仅响应原始搜索结果,还要回答“你的意思是?” 当有极有可能的替代答案等时作出回应 [我正在开发AS ...
[英]How to compute the similarity between two text documents?
我正在研究一个 NLP 项目,可以使用任何编程语言(尽管我更喜欢 Python)。 我想拿两份文件并确定它们的相似程度。 ...
[英]What is the difference between lemmatization vs stemming?
我什么时候使用它们? 另外……NLTK 词形还原是否依赖于词性? 如果是的话不是更准确吗? ...
[英]Java Stanford NLP: Part of Speech labels?
此处演示的斯坦福 NLP 给出了如下输出: 词性标签是什么意思? 我找不到官方列表。 是斯坦福自己的系统,还是他们使用通用标签? (例如,什么是JJ ?) 此外,当我遍历句子时,例如寻找名词时,我最终会做一些事情,例如检查标签.contains('N') 。 这感觉很弱。 有没有更好的方法来 ...
[英]googletrans stopped working with error 'NoneType' object has no attribute 'group'
我正在尝试使用googletrans ,它运行良好。 从今天早上开始,我开始遇到错误。 我查看了来自 stackoverflow 和其他网站的多个帖子,发现我的 ip 可能在一段时间内被禁止使用该服务。 我尝试使用具有不同 ip 的多个服务提供商 inte.net,但仍然面临同样的问题? 我也尝试 ...
[英]How to determine the language of a piece of text?
我想得到这个:Input text: "ру́сский язы́к" Output text: "Russian" Input text: "中文" Output text: "Chinese" Input text: "にほんご" Output text: "Japanese" I ...
[英]How to get rid of punctuation using NLTK tokenizer?
我刚开始使用 NLTK,我不太明白如何从文本中获取单词列表。 如果我使用nltk.word_tokenize() ,我会得到一个单词和标点符号列表。 我只需要单词。 我怎样才能摆脱标点符号? word_tokenize也不适用于多个句子:在最后一个单词中添加点。 ...
[英]Detecting syllables in a word
我需要找到一种相当有效的方法来检测单词中的音节。 例如, 隐形 -> in-vi-sib-le 有一些可以使用的音节规则: V CV VC CVC CCV CCCV CVCC *其中 V 是元音,C 是辅音。 例如, 发音 (5 Pro-nun-ci-a-tion; CV-CVC ...
[英]How does Apple find dates, times and addresses in emails?
在 iOS 电子邮件客户端中,当电子邮件包含日期、时间或位置时,文本将变成超链接,只需点击链接即可创建约会或查看地图。 它不仅适用于英语电子邮件,也适用于其他语言。 我喜欢这个功能,想了解他们是如何做到的。 这样做的天真方法是拥有许多正则表达式并全部运行它们。 然而,我这不会很好地扩展并且只适用于 ...
[英]How to compute precision, recall, accuracy and f1-score for the multiclass case with scikit learn?
我正在处理情感分析问题,数据如下所示: 所以我的数据是不平衡的,因为 1190 个instances被标记为5 。 对于使用 scikit 的SVC的分类 Im。 问题是我不知道如何以正确的方式平衡我的数据,以便准确计算多类案例的准确率、召回率、准确率和 f1 分数。 所以我尝试了以下方法: ...
[英]How do I do word Stemming or Lemmatization?
我已经尝试过PorterStemmer和Snowball,但两个都不能用于所有单词,缺少一些非常常见的单词。 我的测试词是:“ 猫跑仙人掌仙人掌仙人掌社区社区 ”,两者都不到一半。 也可以看看: 用于生成真实单词的词干算法 词干 - 代码示例或开源项目? ...
[英]Difference between constituency parser and dependency parser
选区解析器和依赖解析器之间有什么区别? 这两者的用法有什么不同? ...
[英]word2vec: negative sampling (in layman term)?
我正在阅读下面的论文,但在理解负采样的概念方面遇到了一些麻烦。 http://arxiv.org/pdf/1402.3722v1.pdf 请问有人可以帮忙吗? ...
[英]How can I correctly prefix a word with “a” and “an”?
我有一个 .NET 应用程序,其中给定一个名词,我希望它在该词前面正确加上“a”或“an”。 我该怎么做? 在您认为答案是简单地检查第一个字母是否是元音之前,请考虑以下短语: 一个诚实的错误 一辆二手车 ...
[英]How to use Stanford Parser in NLTK using Python
是否可以在 NLTK 中使用斯坦福解析器? (我不是在谈论斯坦福 POS。) ...
[英]How to train the Stanford Parser with Genia Corpus?
我为Stanford Parser创建一个新模型有一些问题。 我还从斯坦福下载了最新版本: http : //nlp.stanford.edu/software/lex-parser.shtml 在这里,Genia Corpus有2种格式,xml和ptb(Penn Treebank) ...
[英]spacy Can't find model 'en_core_web_sm' on windows 10 and Python 3.5.3 :: Anaconda custom (64-bit)
spacy.load('en_core_web_sm')和spacy.load('en')有什么区别? 此链接解释了不同的 model 尺寸。 但我仍然不清楚spacy.load('en_core_web_sm')和spacy.load('en')不同 spacy.load('en')对我来说 ...
[英]What does Keras Tokenizer method exactly do?
有时,情况需要我们执行以下操作: 然后,我们总是念诵这个咒语: 虽然我(或多或少)了解总体效果是什么,但我无法弄清楚每个人分别做了什么,无论我做了多少研究(显然,包括文档)。 我想我从来没有见过一个没有另一个。 那么每个人做什么呢? 在任何情况下,您都可以使用其中一种而不使用另一种吗? 如 ...
[英]Understanding min_df and max_df in scikit CountVectorizer
我有五个文本文件输入到 CountVectorizer。 当为 CountVectorizer 实例指定 min_df 和 max_df 时,最小/最大文档频率究竟意味着什么? 是某个词在其特定文本文件中的出现频率,还是该词在整个语料库(5 个 txt 文件)中的出现频率? 当 min_df 和 ...