标签[n-gram] - 堆栈内存溢出

如何从一篇论文（Python）中实现一个 n-gram 倒排索引？ - How to implement an n-gram inverted index from a paper (Python)?

我正在尝试根据 Min-Soo Kim、Kyu-Young Whang 和 Jae-Gil Lee 的论文实现n-Gram/2L-近似索引，可在此处找到： http://infolab.dgist.ac.kr/~mskim /论文/CSSE07.pdf 建立索引非常简单。我迷路的地方是查询算法。 ...

R中的成对序列表匹配 - Pairwise sequence list matching in R

我在 R 中对列表进行序列比对/匹配时遇到问题。让我更好地解释一下，我的数据是点击流数据，我的序列分为 n-gram。序列看起来像等等 Na 保留为“不可用”的地方，需要匹配序列长度。现在我以一种粗鲁的方式将所有这些序列放在一个列表中dativec = as.vector(dataseq2) ...

Azure 用于中缀搜索的搜索 N gram Tokenizer 配置 - Azure Search N gram Tokenizer Configuration for infix searching

我目前正在使用 azure 搜索，为了实现中缀搜索，例如在“redwine”中搜索“win” ，应该在搜索结果中找到 redwine。在 azure 中，我对 N gram Tokenizer 的配置如下现在根据我的理解，上面的配置应该返回 redwine 的令牌应该是Re, Red, ed, ...

我需要根据搜索的关键字限制结果，例如全文搜索 - i need to restrict the results based on the searched key like - full text search

我正在使用范围为 2 到 25 的边缘 ngram。我正在尝试搜索“测试”之类的关键字，但得到的结果是“测试”和“测试”之类的词。如果我的搜索键是“测试”，那么在这种情况下我都可以得到测试和测试。我需要做什么只得到搜索键“testing”的结果“testing”，它不应该匹配“test” 我的 ...

Python NLP：谷歌 ngram API - Python NLP: Google ngram API

我正在执行 Python NLP 任务，我需要从包含噪音的名词短语列表中删除非技术/非常常见的名词短语。这是一个例子：我需要删除"people"和"the best" 。我想使用 ngram 数据集来做到这一点：“people”和“the best”的频率比任何其他名词短语的频率高得多，因此 ...

如何根据类别有效构建 ngrams dataframe - How to efficiently build ngrams based on categories in a dataframe

问题我有一个 dataframe，它包含属于某个类别的文本。我现在想获得每个类别中最常用的 n-gram（示例中的二元语法）。我设法做到了这一点，但我认为这方面的代码太长了。示例代码 Output 单词数数类别（'运动'，'运动'） 2个商业与金融（'运动'，'文本'） 2个商业与 ...

如何在 Python 中将单词拆分为 ngram？ - How to split word to ngrams in Python?

我有这个问题。我应该将单词拆分为 ngram（例如：单词 ADVENTURE 具有三个 4grams - ADVE；ENTU；TURE）。有一个书籍文件文档（这就是 counter 和 isalpha 的原因），我这里没有，所以我只使用 2 个单词的列表。这是我在 Python 中的代码： ...

SQL组合二元语法并搜索是否存在于其他表中 - SQL compose bi-gram and search if exists in other table

在 SQL 中，表 T1 包含标题 5岁奥尔顿·约翰直播演出必须继续有一个表 T2 包含姓名。描述约翰波儿童奥尔顿约翰奥尔顿显示 age5 mustgo 孩子们我想在 TITLE (T1) 中找到双字母组（成对的连续单词）并检查列表 1 中的双字母组是否存在于 DESCRIPTION (T2) 中 ...

为什么附加我的元组列表会改变它们的内容？ - Why is appending my list of tuples changing their content?

我正在尝试制作一个包含字符串和字典的元组列表。字符串是文件名，字典是 n-gram 的频率列表。对于我正在做的事情，我想列出这些看起来像的元组我正在尝试使用以下代码来做到这一点：出于某种原因，上面的代码在附加字典之前组合了字典中的数据，这样“story.txt”字典将包含最初与“great ...

使用词典进行文本分析：NGramTokenizer 不起作用 - Text analysis with dictionary of words: NGramTokenizer not working

我正在尝试在文本中查找关键字列表。其中一些关键字是 n-gram。但是，TermDocumentMatrix 只会找到单个单词。我已经看过几个类似的问题，例如这个问题（我从中借用了自定义分词器函数）、这个问题以及更多问题。但是，没有一个建议的解决方案对我有用。我尝试了 R 3.6.3 和 ...

有没有办法在 R 中连接语料库中的特定二元组以进行主题建模？ - Is there a way to concatenate specific bigrams within a corpus for topic modeling in R?

我是 R（和这个站点）的新手，并且正在为一个非常具体的主题建模项目学习它。我需要在正文中连接特定的二元组/三元组以进行主题建模，并且遇到了一些障碍。我需要这样做，因为 unigram 'community' 不具备 bigrams 'community health' 或 'community ...

在 Pandas Dataframe 中查找所有 groupby 集群的三元组并在新列中返回 - Find trigrams for all groupby clusters in a Pandas Dataframe and return in a new column

我正在尝试为每组关键字在 pandas dataframe 的新列中返回频率最高的三元组。（本质上类似于带有变换的 groupby，在新列中返回最高的三元组）。带有虚拟数据的示例 dataframe 所需 Output 最小可重现示例我试过的。我有工作代码来查找二元组，但它有点 hacky ...

如何生成 dataframe 的每一行的 ngram，以便每个 ngram 创建一个新行？ - How to generate ngrams of each row of a dataframe so that each ngram creates a new row?

我尝试从 dataframe 的每一行生成 ngram。它们应该用“，”分隔。输入看起来像： output 应如下所示：这样每个“，”将 ngram 和 forms 分隔为每个 ngram 的新列。我的代码是：有一个类似的问题，但我不知道为什么，但代码不起作用。 “参数 'str' ...

我已经创建了三元组，如何将其保存为镶木地板文件？当_1列未被识别为列时，如何从列中获取项目？ (PySpark) - I've created trigrams, how do I save this as a parquet file? How can I getItems from column _1 when it's not recognised as a column? (PySpark)

第一部分这是我的代码：显示时的 output 示例（本示例使用虚构数据）： _1 _2 “_1”：“如何”，“_2”：“是”，“_3”：“你” 102 “_1”：“好”，“_2”：“谢谢”，“_3”：“你” 96 “_1”：“是”，“_2”：“你”，“_3”：“好吧” 72 （ ...

使用 Gensim 短语生成 Bigrams 并与标记化 Unigrams 连接 - Generate Bigrams Using Gensim Phrases and Concatenate with Tokenized Unigrams

我正在尝试使用 Gensim Phrases function 将经常显示的二元组包含到一组一元标记中，但在这里我被困在最后阶段。我得到的 output 如下所示（Having），其中所有标记进一步分解为字符级别，并且一些字符配对（例如 y_o）。但我想看到的 output 如下所示（想要）。 ...

二元概率 - bi-gram probability

尝试使用二元语法找到一个短语的概率 filename.txt ...

edge_ngram 不适用于自定义标记字符 - edge_ngram doesn't work with custom token chars

我正在尝试允许使用edge_ngram标记器进行搜索。我按照教程中的示例，只是添加了custom_token_chars配置，如下所示：然后我尝试使用 char 创建搜索! 如下：但是我得到的结果忽略了! ： ...

如何使用 R 从列中提取和绘制前 20 个最常见单词（uni、bi、tri、ngram）的计数？ - How to extract and plot the count of top 20 most common words (uni, bi, tri, ngram) from a column using R?

这是我正在工作的可重现数据框... 我尝试了https://cran.r-project.org/web/packages/udpipe/vignettes/udpipe-usecase-postagging-lemmatisation.html的解决方案，但结果中的前 5 个输出给了我它 ...

是否有非循环方式在数据框中执行文本搜索 - Is there a non-looping way to perform text searching in a data frame

我有一个巨大的 ngram 列表要搜索。我想知道他们在我的历史 dataframe 上的频率以及我在我的历史上的数字变量的平均值。我有一个非常丑陋的方法来做这件事（可行），但是由于 ngram 列表很大，所以它真的很慢。我想避免做循环，因为我猜这是我的速度问题的主要原因，但我不知道我该怎么做。 ...

Python NLP Spacy：改进从 dataframe 和命名实体中提取二元语法？ - Python NLP Spacy : improve bi-gram extraction from a dataframe, and with named entities?

我正在使用 Python 和 spaCy 作为我的 NLP 库，在一个大的 dataframe 上工作，其中包含关于不同汽车的反馈，看起来像这样： “反馈”列包含要处理的自然语言文本， 'lemmatized' 列包含反馈文本的词形还原版本， “entities”列包含从反馈文本中提取的命 ...