[英]Extracting sentences including a word from large corpus, including the punctuation, in python
[英]Extracting Word Frequency List from a Large Corpus
我有一个名为SubIMDB的大型英语语料库,我想列出所有单词及其频率。 意思是它们在整个语料库中出现了多少。 这个频率列表应该有一些特点:
我的问题是:
非常感谢。
如上所述,问题是基于意见且含糊不清,但这里有一些说明:
PorterStemmer
。 如果您需要复杂的词形还原,请查看spaCy
,这是行业标准的 IMO。counter
也可能变得有用。pickle
可能更容易使用。
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.