FreqDist 与 NLTK

Question

python 中的NLTK有一个函数FreqDist ，它可以为您提供文本中单词的频率。 我试图将我的文本作为参数传递，但结果的形式如下：

[' ', 'e', 'a', 'o', 'n', 'i', 't', 'r', 's', 'l', 'd', 'h', 'c', 'y', 'b', 'u', 'g', '\\n', 'm', 'p', 'w', 'f', ',', 'v', '.', "'", 'k', 'B', '"', 'M', 'H', '9', 'C', '-', 'N', 'S', '1', 'A', 'G', 'P', 'T', 'W', '[', ']', '(', ')', '0', '7', 'E', 'J', 'O', 'R', 'j', 'x']

而在NLTK网站的示例中，结果是整个单词而不仅仅是字母。 我这样做：

file_y = open(fileurl)
p = file_y.read()
fdist = FreqDist(p)
vocab = fdist.keys()
vocab[:100]

你知道我有什么问题吗？ 谢谢！

Answer 1

FreqDist需要一个可迭代的令牌。 字符串是可迭代的——迭代器产生每个字符。

首先将您的文本传递给标记器，然后将标记传递给FreqDist 。

Answer 2

FreqDist 在一组令牌上运行。 您正在向它发送一个字符数组（一个字符串），您应该首先在其中标记输入：

words = nltk.tokenize.word_tokenize(p)
fdist = FreqDist(words)

Answer 3

NLTK 的FreqDist接受任何迭代。 由于字符串是逐字符迭代的，因此它以您正在经历的方式将事物分开。

为了计算单词，您需要输入FreqDist单词。 你怎么做？ 好吧，您可能会认为（正如其他人在回答您的问题时所建议的那样）将整个文件提供给nltk.tokenize.word_tokenize 。

>>> # first, let's import the dependencies
>>> import nltk
>>> from nltk.probability import FreqDist

>>> # wrong :(
>>> words = nltk.tokenize.word_tokenize(p)
>>> fdist = FreqDist(words)

word_tokenize从句子构建单词模型。 它需要一次输入一个句子。 当给出整个段落甚至文档时，它会做得相对较差。

那么，该怎么办？ 很简单，添加一个句子标记器！

>>> fdist = FreqDist()
>>> for sentence in nltk.tokenize.sent_tokenize(p):
...     for word in nltk.tokenize.word_tokenize(sentence):
>>>         fdist[word] += 1

要记住的一件事是有很多方法可以标记文本。 模块nltk.tokenize.sent_tokenize和nltk.tokenize.word_tokenize只是为相对干净的英文文本选择一个合理的默认值。 还有其他几个选项可供选择，您可以在API 文档中阅读。

Answer 4

你只需要像这样使用它：

import nltk
from nltk.probability import FreqDist

sentence='''This is my sentence'''
tokens = nltk.tokenize.word_tokenize(sentence)
fdist=FreqDist(tokens)

变量 fdist 的类型为“class 'nltk.probability.FreqDist”，包含单词的频率分布。

Answer 5

Your_string = "here is my string"
tokens = Your_string.split()

这样做，然后使用NLTK函数

它会给你的代币用文字而不是字符

Answer 6

text_dist = nltk.FreqDist(word for word in list(text) if word.isalpha())
top1_text1 = text_dist.max()
maxfreq = top1_text1

FreqDist 与 NLTK

问题描述

6 个解决方案

解决方案1
46 2011-01-08 16:44:40

解决方案2
31 2011-06-27 23:58:28

解决方案3
20 2011-01-08 19:52:49

解决方案4
9 2013-08-08 06:37:23

解决方案5
1 2020-02-29 09:33:31

解决方案6
0 2020-10-03 16:06:01

FreqDist 与 NLTK

问题描述

6 个解决方案

解决方案1 46 2011-01-08 16:44:40

解决方案2 31 2011-06-27 23:58:28

解决方案3 20 2011-01-08 19:52:49

解决方案4 9 2013-08-08 06:37:23

解决方案5 1 2020-02-29 09:33:31

解决方案6 0 2020-10-03 16:06:01

解决方案1
46 2011-01-08 16:44:40

解决方案2
31 2011-06-27 23:58:28

解决方案3
20 2011-01-08 19:52:49

解决方案4
9 2013-08-08 06:37:23

解决方案5
1 2020-02-29 09:33:31

解决方案6
0 2020-10-03 16:06:01