![](/img/trans.png)
[英]nltk stopwords - AttributeError: 'function' object has no attribute 'words'
[英]object has no attribute when removing stop words with NLTK
我正在尝试从由Python 3中的文本数据行组成的pandas DataFrame的NLTK停用词集合中删除停用词:
import pandas as pd
from nltk.corpus import stopwords
file_path = '/users/rashid/desktop/webtext.csv'
doc = pd.read_csv(file_path, encoding = "ISO-8859-1")
texts = doc['text']
filter = texts != ""
dfNew = texts[filter]
stop = stopwords.words('english')
dfNew.apply(lambda x: ' '.join([word for word in x.split() if word not in (stop)]))
我收到此错误:
'float' object has no attribute 'split'
听起来您的文字中有一些数字,它们使熊猫变得有点聪明。 添加dtype
选项pandas.read_csv()
以确保在列,一切text
导入为一个字符串:
doc = pd.read_csv(file_path, encoding = "ISO-8859-1", dtype={'text':str})
一旦代码开始工作,您可能会注意到它很慢:在列表中查找内容效率很低。 将您的停用词放在这样的集合中,您将对加速感到惊讶。 ( in
运算符可同时使用集合和列表,但是速度差异很大。)
stop = set(stopwords.words('english'))
最后,将x.split()
更改为nltk.word_tokenize(x)
。 如果您的数据包含真实文本,这会将标点符号与单词分开,并允许您正确匹配停用词。
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.