繁体   English   中英

Gensim用短段文本摘要

[英]Text Summarization with Gensim with short paragraph

我是NLP的新手。 我试图在python中使用Gensim提取段落的摘要。

我正面临一个短段问题,它给了我一个警告,如下所示,并没有给我一个短段的摘要。

这是我在Python中的代码:

 import logging
 logging.basicConfig(format='%(asctime)s : %(levelname)s : %(message)s', level=logging.INFO)
 from gensim.summarization import summarize

text = "short paragraph"
print ('Summary:')
print (summarize(text))

它给了我如下警告:

2018-02-01 17:31:47,247 : WARNING : Input text is expected to have at least 10 sentences.
2018-02-01 17:31:47,253 : INFO : adding document #0 to Dictionary(0 unique tokens: [])
2018-02-01 17:31:47,258 : INFO : built Dictionary(52 unique tokens: ['clearli', 'adult', 'chang', 'member', 'visit']...) from 4 documents (total 70 corpus positions)
2018-02-01 17:31:47,262 : WARNING : Input corpus is expected to have at least 10 documents.
2018-02-01 17:31:47,285 : WARNING : Couldn't get relevant sentences.

输出为(仅打印摘要标签而不是短段的实际摘要):

Summary:

我错过了什么吗? 是否还有其他库。

你真的使用"some paragraph"作为输入吗? 如果是这样,我发现你的脚本没有抛出ZeroDivisionErrorZeroDivisionError gensim总结基于TextRank 根据文档

“输入应该是一个字符串,并且必须长于INPUT_MIN_LENGTH个句子才能使摘要有意义。文本将使用summarization.texcleaner模块中的split_sentences方法拆分成句子。请注意,换行符会对句子进行划分。”

考虑到这一点,看看这个

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM