[英]How to save NLTK concordance results in a list?
通過檢查ConcordanceIndex
的源代碼,我們可以看到結果打印到stdout。 如果不能將stdout重定向到文件 ,則必須重新實現ConcordanceIndex.print_concordance
,以便返回結果而不是將其打印到stdout。
碼:
def concordance(ci, word, width=75, lines=25):
"""
Rewrite of nltk.text.ConcordanceIndex.print_concordance that returns results
instead of printing them.
See:
http://www.nltk.org/api/nltk.html#nltk.text.ConcordanceIndex.print_concordance
"""
half_width = (width - len(word) - 2) // 2
context = width // 4 # approx number of words of context
results = []
offsets = ci.offsets(word)
if offsets:
lines = min(lines, len(offsets))
for i in offsets:
if lines <= 0:
break
left = (' ' * half_width +
' '.join(ci._tokens[i-context:i]))
right = ' '.join(ci._tokens[i+1:i+context])
left = left[-half_width:]
right = right[:half_width]
results.append('%s %s %s' % (left, ci._tokens[i], right))
lines -= 1
return results
用法:
from nltk.book import text1
from nltk.text import ConcordanceIndex
ci = ConcordanceIndex(text1.tokens)
results = concordance(ci, 'circumstances')
print(type(results))
<class 'list'>
要使用文本一致性,您需要實例化NLTK Text()
對象,然后對該對象使用concordance()
方法:
import nltk.corpus
from nltk.text import Text
moby = Text(nltk.corpus.gutenberg.words('melville-moby_dick.txt'))
這里我們在文本文件melville-moby_dick.txt
上實例化一個Text對象,然后我們就可以使用這個方法了:
moby.concordance("monster")
如果你在這里有一個NonType,它會看起來是因為你沒有創建任何Text
對象,所以你的變量text
是None
。
Text類現在有一個concordance_list
函數。 例如:
from nltk.corpus import gutenberg
from nltk.text import Text
corpus = gutenberg.words('melville-moby_dick.txt')
text = Text(corpus)
con_list = text.concordance_list("monstrous")
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.