繁体   English   中英

使用 Python 在数百万个文档中找到最常见的句子/短语

[英]Find the most common sentences/phrases among millions of documents using Python

我有大约 500 万份文件。 一份文件由许多句子组成,可能大约有 1 到 5 页长。 每个文档都是一个文本文件。

我必须在所有文档中找到最常见的句子/短语(至少 5 个单词长)。 我应该如何实现这一目标?

对于恰好 5 个字长的短语,这是相对简单的 Python(可能需要大量内存)。 对于可变长的短语,它有点复杂——并且可能需要额外说明你想要找到什么样的较长的短语。

对于 5 个字(又名“5-gram”)的情况:

在对语料库的一次遍历中,您生成所有 5-gram ,并统计它们的出现次数(比如一个Counter ),然后报告前 N 个。

例如,让我们假设docs是所有标记化文本的 Python 序列,其中每个单独的项目都是一个字符串列表。 然后:

from collections import Counter

ngram_size = 5
tallies = Counter()

for doc in docs:
    for i in range(0, len(doc)-4):
        ngram = doc[i:i+5]
        tallies[ngram] += 1

# show the 10 most-common n-grams
print(tallies.most_common(10))

如果您还想考虑可变长的短语,那就有点棘手了——但请注意,任何此类短语都必须从您已经找到的一些 5-gram 开始。

所以你可以考虑逐渐重复以上,对于 6 克、7 克等。

但是为了优化内存/工作量,您可以添加一个步骤来忽略所有尚未从您从早期运行中选择的前 N ​​个候选之一开始的 n-gram。 (例如,在 6-gram 运行中,上面的+=行将以 6-gram 为条件 - 从您已经认为感兴趣的少数 5-gram 之一开始。)

此外,当(例如)前 8 克的计数已经低于较短 n 克的相关前 N 计数时,您将停止寻找更长的 n 克。 (也就是说,当任何更长的 n-gram 被确保比您感兴趣的前 N ​​个出现频率更低时。)

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM