cost 303 ms
R中的成对序列表匹配 - Pairwise sequence list matching in R

我在 R 中对列表进行序列比对/匹配时遇到问题。 让我更好地解释一下,我的数据是点击流数据,我的序列分为 n-gram。 序列看起来像 等等 Na 保留为“不可用”的地方,需要匹配序列长度。 现在我以一种粗鲁的方式将所有这些序列放在一个列表中dativec = as.vector(dataseq2) ...

Azure 用于中缀搜索的搜索 N gram Tokenizer 配置 - Azure Search N gram Tokenizer Configuration for infix searching

我目前正在使用 azure 搜索,为了实现中缀搜索,例如在“redwine”中搜索“win” ,应该在搜索结果中找到 redwine。 在 azure 中,我对 N gram Tokenizer 的配置如下 现在根据我的理解,上面的配置应该返回 redwine 的令牌应该是Re, Red, ed, ...

我需要根据搜索的关键字限制结果,例如全文搜索 - i need to restrict the results based on the searched key like - full text search

我正在使用范围为 2 到 25 的边缘 ngram。 我正在尝试搜索“测试”之类的关键字,但得到的结果是“测试”和“测试”之类的词。 如果我的搜索键是“测试”,那么在这种情况下我都可以得到测试和测试。 我需要做什么只得到搜索键“testing”的结果“testing”,它不应该匹配“test” 我的 ...

Python NLP:谷歌 ngram API - Python NLP: Google ngram API

我正在执行 Python NLP 任务,我需要从包含噪音的名词短语列表中删除非技术/非常常见的名词短语。 这是一个例子: 我需要删除"people"和"the best" 。 我想使用 ngram 数据集来做到这一点:“people”和“the best”的频率比任何其他名词短语的频率高得多,因此 ...

如何根据类别有效构建 ngrams dataframe - How to efficiently build ngrams based on categories in a dataframe

问题我有一个 dataframe,它包含属于某个类别的文本。 我现在想获得每个类别中最常用的 n-gram(示例中的二元语法)。 我设法做到了这一点,但我认为这方面的代码太长了。 示例代码 Output 单词数数类别 ('运动','运动') 2个商业与金融 ('运动','文本') 2个商业与 ...

SQL组合二元语法并搜索是否存在于其他表中 - SQL compose bi-gram and search if exists in other table

在 SQL 中,表 T1 包含标题 5岁奥尔顿·约翰直播演出必须继续有一个表 T2 包含姓名。 描述约翰波儿童奥尔顿约翰奥尔顿显示 age5 mustgo 孩子们我想在 TITLE (T1) 中找到双字母组(成对的连续单词)并检查列表 1 中的双字母组是否存在于 DESCRIPTION (T2) 中 ...

为什么附加我的元组列表会改变它们的内容? - Why is appending my list of tuples changing their content?

我正在尝试制作一个包含字符串和字典的元组列表。 字符串是文件名,字典是 n-gram 的频率列表。 对于我正在做的事情,我想列出这些看起来像的元组 我正在尝试使用以下代码来做到这一点: 出于某种原因,上面的代码在附加字典之前组合了字典中的数据,这样“story.txt”字典将包含最初与“great ...

使用词典进行文本分析:NGramTokenizer 不起作用 - Text analysis with dictionary of words: NGramTokenizer not working

我正在尝试在文本中查找关键字列表。 其中一些关键字是 n-gram。 但是,TermDocumentMatrix 只会找到单个单词。 我已经看过几个类似的问题,例如这个问题(我从中借用了自定义分词器函数)、 这个问题以及更多问题。 但是,没有一个建议的解决方案对我有用。 我尝试了 R 3.6.3 和 ...

有没有办法在 R 中连接语料库中的特定二元组以进行主题建模? - Is there a way to concatenate specific bigrams within a corpus for topic modeling in R?

我是 R(和这个站点)的新手,并且正在为一个非常具体的主题建模项目学习它。 我需要在正文中连接特定的二元组/三元组以进行主题建模,并且遇到了一些障碍。 我需要这样做,因为 unigram 'community' 不具备 bigrams 'community health' 或 'community ...

在 Pandas Dataframe 中查找所有 groupby 集群的三元组并在新列中返回 - Find trigrams for all groupby clusters in a Pandas Dataframe and return in a new column

我正在尝试为每组关键字在 pandas dataframe 的新列中返回频率最高的三元组。 (本质上类似于带有变换的 groupby,在新列中返回最高的三元组)。 带有虚拟数据的示例 dataframe 所需 Output 最小可重现示例 我试过的。 我有工作代码来查找二元组,但它有点 hacky ...

如何生成 dataframe 的每一行的 ngram,以便每个 ngram 创建一个新行? - How to generate ngrams of each row of a dataframe so that each ngram creates a new row?

我尝试从 dataframe 的每一行生成 ngram。 它们应该用“,”分隔。 输入看起来像: output 应如下所示: 这样每个“,”将 ngram 和 forms 分隔为每个 ngram 的新列。 我的代码是: 有一个类似的问题,但我不知道为什么,但代码不起作用。 “参数 'str' ...

2022-08-09 20:28:15   1   17    r / n-gram  
我已经创建了三元组,如何将其保存为镶木地板文件? 当_1列未被识别为列时,如何从列中获取项目? (PySpark) - I've created trigrams, how do I save this as a parquet file? How can I getItems from column _1 when it's not recognised as a column? (PySpark)

第一部分这是我的代码: 显示时的 output 示例(本示例使用虚构数据): _1 _2 “_1”:“如何”,“_2”:“是”,“_3”:“你” 102 “_1”:“好”,“_2”:“谢谢”,“_3”:“你” 96 “_1”:“是”,“_2”:“你”,“_3”:“好吧” 72 ( ...

使用 Gensim 短语生成 Bigrams 并与标记化 Unigrams 连接 - Generate Bigrams Using Gensim Phrases and Concatenate with Tokenized Unigrams

我正在尝试使用 Gensim Phrases function 将经常显示的二元组包含到一组一元标记中,但在这里我被困在最后阶段。 我得到的 output 如下所示(Having),其中所有标记进一步分解为字符级别,并且一些字符配对(例如 y_o)。 但我想看到的 output 如下所示(想要)。 ...

是否有非循环方式在数据框中执行文本搜索 - Is there a non-looping way to perform text searching in a data frame

我有一个巨大的 ngram 列表要搜索。 我想知道他们在我的历史 dataframe 上的频率以及我在我的历史上的数字变量的平均值。 我有一个非常丑陋的方法来做这件事(可行),但是由于 ngram 列表很大,所以它真的很慢。 我想避免做循环,因为我猜这是我的速度问题的主要原因,但我不知道我该怎么做。 ...

Python NLP Spacy:改进从 dataframe 和命名实体中提取二元语法? - Python NLP Spacy : improve bi-gram extraction from a dataframe, and with named entities?

我正在使用 Python 和 spaCy 作为我的 NLP 库,在一个大的 dataframe 上工作,其中包含关于不同汽车的反馈,看起来像这样: “反馈”列包含要处理的自然语言文本, 'lemmatized' 列包含反馈文本的词形还原版本, “entities”列包含从反馈文本中提取的命 ...


 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM