我正在尝试根据 Min-Soo Kim、Kyu-Young Whang 和 Jae-Gil Lee 的论文实现n-Gram/2L-近似索引,可在此处找到: http://infolab.dgist.ac.kr/~mskim /论文/CSSE07.pdf 建立索引非常简单。 我迷路的地方是查询算法。 ...
我正在尝试根据 Min-Soo Kim、Kyu-Young Whang 和 Jae-Gil Lee 的论文实现n-Gram/2L-近似索引,可在此处找到: http://infolab.dgist.ac.kr/~mskim /论文/CSSE07.pdf 建立索引非常简单。 我迷路的地方是查询算法。 ...
我在 R 中对列表进行序列比对/匹配时遇到问题。 让我更好地解释一下,我的数据是点击流数据,我的序列分为 n-gram。 序列看起来像 等等 Na 保留为“不可用”的地方,需要匹配序列长度。 现在我以一种粗鲁的方式将所有这些序列放在一个列表中dativec = as.vector(dataseq2) ...
我目前正在使用 azure 搜索,为了实现中缀搜索,例如在“redwine”中搜索“win” ,应该在搜索结果中找到 redwine。 在 azure 中,我对 N gram Tokenizer 的配置如下 现在根据我的理解,上面的配置应该返回 redwine 的令牌应该是Re, Red, ed, ...
我正在使用范围为 2 到 25 的边缘 ngram。 我正在尝试搜索“测试”之类的关键字,但得到的结果是“测试”和“测试”之类的词。 如果我的搜索键是“测试”,那么在这种情况下我都可以得到测试和测试。 我需要做什么只得到搜索键“testing”的结果“testing”,它不应该匹配“test” 我的 ...
我正在执行 Python NLP 任务,我需要从包含噪音的名词短语列表中删除非技术/非常常见的名词短语。 这是一个例子: 我需要删除"people"和"the best" 。 我想使用 ngram 数据集来做到这一点:“people”和“the best”的频率比任何其他名词短语的频率高得多,因此 ...
问题我有一个 dataframe,它包含属于某个类别的文本。 我现在想获得每个类别中最常用的 n-gram(示例中的二元语法)。 我设法做到了这一点,但我认为这方面的代码太长了。 示例代码 Output 单词数数类别 ('运动','运动') 2个商业与金融 ('运动','文本') 2个商业与 ...
我有这个问题。 我应该将单词拆分为 ngram(例如:单词 ADVENTURE 具有三个 4grams - ADVE;ENTU;TURE)。 有一个书籍文件文档(这就是 counter 和 isalpha 的原因),我这里没有,所以我只使用 2 个单词的列表。 这是我在 Python 中的代码: ...
在 SQL 中,表 T1 包含标题 5岁奥尔顿·约翰直播演出必须继续有一个表 T2 包含姓名。 描述约翰波儿童奥尔顿约翰奥尔顿显示 age5 mustgo 孩子们我想在 TITLE (T1) 中找到双字母组(成对的连续单词)并检查列表 1 中的双字母组是否存在于 DESCRIPTION (T2) 中 ...
我正在尝试制作一个包含字符串和字典的元组列表。 字符串是文件名,字典是 n-gram 的频率列表。 对于我正在做的事情,我想列出这些看起来像的元组 我正在尝试使用以下代码来做到这一点: 出于某种原因,上面的代码在附加字典之前组合了字典中的数据,这样“story.txt”字典将包含最初与“great ...
我正在尝试在文本中查找关键字列表。 其中一些关键字是 n-gram。 但是,TermDocumentMatrix 只会找到单个单词。 我已经看过几个类似的问题,例如这个问题(我从中借用了自定义分词器函数)、 这个问题以及更多问题。 但是,没有一个建议的解决方案对我有用。 我尝试了 R 3.6.3 和 ...
我是 R(和这个站点)的新手,并且正在为一个非常具体的主题建模项目学习它。 我需要在正文中连接特定的二元组/三元组以进行主题建模,并且遇到了一些障碍。 我需要这样做,因为 unigram 'community' 不具备 bigrams 'community health' 或 'community ...
我正在尝试为每组关键字在 pandas dataframe 的新列中返回频率最高的三元组。 (本质上类似于带有变换的 groupby,在新列中返回最高的三元组)。 带有虚拟数据的示例 dataframe 所需 Output 最小可重现示例 我试过的。 我有工作代码来查找二元组,但它有点 hacky ...
我尝试从 dataframe 的每一行生成 ngram。 它们应该用“,”分隔。 输入看起来像: output 应如下所示: 这样每个“,”将 ngram 和 forms 分隔为每个 ngram 的新列。 我的代码是: 有一个类似的问题,但我不知道为什么,但代码不起作用。 “参数 'str' ...
第一部分这是我的代码: 显示时的 output 示例(本示例使用虚构数据): _1 _2 “_1”:“如何”,“_2”:“是”,“_3”:“你” 102 “_1”:“好”,“_2”:“谢谢”,“_3”:“你” 96 “_1”:“是”,“_2”:“你”,“_3”:“好吧” 72 ( ...
我正在尝试使用 Gensim Phrases function 将经常显示的二元组包含到一组一元标记中,但在这里我被困在最后阶段。 我得到的 output 如下所示(Having),其中所有标记进一步分解为字符级别,并且一些字符配对(例如 y_o)。 但我想看到的 output 如下所示(想要)。 ...
我正在尝试允许使用edge_ngram标记器进行搜索。 我按照教程中的示例,只是添加了custom_token_chars配置,如下所示: 然后我尝试使用 char 创建搜索! 如下: 但是我得到的结果忽略了! : ...
这是我正在工作的可重现数据框... 我尝试了https://cran.r-project.org/web/packages/udpipe/vignettes/udpipe-usecase-postagging-lemmatisation.html的解决方案,但结果中的前 5 个输出给了我 它 ...
我有一个巨大的 ngram 列表要搜索。 我想知道他们在我的历史 dataframe 上的频率以及我在我的历史上的数字变量的平均值。 我有一个非常丑陋的方法来做这件事(可行),但是由于 ngram 列表很大,所以它真的很慢。 我想避免做循环,因为我猜这是我的速度问题的主要原因,但我不知道我该怎么做。 ...
我正在使用 Python 和 spaCy 作为我的 NLP 库,在一个大的 dataframe 上工作,其中包含关于不同汽车的反馈,看起来像这样: “反馈”列包含要处理的自然语言文本, 'lemmatized' 列包含反馈文本的词形还原版本, “entities”列包含从反馈文本中提取的命 ...