繁体   English   中英

Python Snowball Stemmer + RAKE:生成“ u”

[英]Python Snowball Stemmer + RAKE: generates 'u's

我试图从包含文本的文本文件中获取关键字,并且首先提取文本。 下面的代码可以工作,但是由于某种原因,它会在关键字列表的前面生成字母“ u”。 例如,这就是我得到的:

[(u'keyword1', 5), (u'keyword2', 4)]

而且我不确定'u'的来源。 这是代码(导入软件包后):

stemmer = SnowballStemmer("english")
rake_object = rake.Rake("SmartStoplist.txt", 5, 3, 4)
s = open("test.txt", "r").read()
s = re.sub('[^a-zA-Z0-9-_*.]', ' ', s) # Remove special characters that might cause problems with stemming
words = s.split()
stemmed = [stemmer.stem(word) for word in words]
stemmed = ' '.join(stemmed)
keywords = rake_object.run(stemmed) # Perform RAKE on stemmed text
print(keywords)

这意味着它是Unicode字符串,stemmer返回此类型的字符串。 从2.0开始,在Python 2.x中一直是语法。 要获取更多信息,请阅读文档 不用担心

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM