繁体 English 中英

从大型语料库中提取词频列表

[英]Extracting Word Frequency List from a Large Corpus

原文 2019-01-13 17:03:57 6 1 python/ python-3.x/ nlp/ corpus/ word-frequency

我有一个名为SubIMDB的大型英语语料库，我想列出所有单词及其频率。 意思是它们在整个语料库中出现了多少。 这个频率列表应该有一些特点：

像男孩和男孩这样的词或其他语法特征，例如 get 和 getting，相同的词或词条，如果有 3 个男孩和 2 个男孩，则应将它们列为男孩 5。但是，对于像 Go 和 Went 这样有不规则形式（或脚和脚）
我想使用这个频率列表作为一种字典，所以每当我在程序的另一部分看到一个词时，我想检查它在这个列表中的频率。 因此，最好是无需查找所有内容即可搜索。

我的问题是：

对于第一个问题，我该怎么办？ 词形还原？ 还是词干？ 或者我怎样才能得到它？
其次，我应该将它设置为什么样的变量类型？ 像字典或列表或什么？
最好将它保存在csv中吗？
是否有任何准备好的 Python 工具包来完成这一切？

非常感谢。

1 个解决方案

如上所述，问题是基于意见且含糊不清，但这里有一些说明：

两者都适用于您的情况。 Stemming 通常更简单、更快。 我建议从nltk 的PorterStemmer 。 如果您需要复杂的词形还原，请查看spaCy ，这是行业标准的 IMO。
您需要字典，一旦您有了词干/引理，它就会为您提供分摊 O(1) 查找。 counter也可能变得有用。
取决于您的用例。 CSV 更“便携”， pickle可能更容易使用。
nltk 和 spaCy 中有很多“构建块”，构建管道/模型取决于您

在 python 中从大型语料库中提取包含一个单词的句子，包括标点符号

[英]Extracting sentences including a word from large corpus, including the punctuation, in python

从列表中提取频率

[英]Extracting frequency from list

在使用tf-idf的NLP中，如何从python中的语料库（包含大量文档）中查找特定单词的频率

[英]In NLP using tf-idf how to find the frequency of specific word from the corpus(contaning large numbers of documentation) in python

从txt大型语料库中获取Ngram频率。档

[英]Getting Ngram frequency from a a large corpus of txt. files

如何从大型语料库中找到每个单词的词频？

[英]How to find word frequencies of each word from a large corpus?

从文本语料库中提取给定单词的搭配词-Python

[英]Extracting collocates for a given word from a text corpus - Python

从python中的标记语料库中提取

[英]extracting from a tagged corpus in python

从大量.txt文件及其频率生成Ngrams（Unigrams，Bigrams等）

[英]Generating Ngrams (Unigrams,Bigrams etc) from a large corpus of .txt files and their Frequency

使用 NLTK 计算语料库中单词列表的频率

[英]Count frequency of list of words in corpus using NLTK

从带有特定单词，标签组合的带有pos标签的语料库中提取句子

[英]extracting sentences from pos-tagged corpus with certain word, tag combos

暂无

暂无

声明:本站的技术帖子网页，遵循CC BY-SA 4.0协议，如果您需要转载，请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

相关问题 在 python 中从大型语料库中提取包含一个单词的句子，包括标点符号从列表中提取频率在使用tf-idf的NLP中，如何从python中的语料库（包含大量文档）中查找特定单词的频率从txt大型语料库中获取Ngram频率。档如何从大型语料库中找到每个单词的词频？从文本语料库中提取给定单词的搭配词-Python 从python中的标记语料库中提取从大量.txt文件及其频率生成Ngrams（Unigrams，Bigrams等）使用 NLTK 计算语料库中单词列表的频率从带有特定单词，标签组合的带有pos标签的语料库中提取句子

相关标签

粤ICP备18138465号 © 2020-2024 STACKOOM.COM