AttributeError: 'list' object 在词频逆文档频率中没有属性 'lower'

Question

我在堆栈溢出中发现了很多与此问题相关的帖子。 我尝试了这些，但仍然遇到同样的错误。 我正在使用 python 3.7 并为我的 urdu 数据集编写了以下代码

Tfidf_vect = TfidfVectorizer()

x=Tfidf_vect.fit(df['final'])

但收到错误消息AttributeError: 'list' object has no attribute 'lower'然后我发现这个堆栈溢出帖子

AttributeError: 'list' object has no attribute 'lower' : clustering

. 这表明 TfidfVectorizer 只需要一个句子列表所以我按照解决方案中提到的步骤 & 修改代码 & 使用以下代码

vectors = TfidfVectorizer() dataset_list=df['final'].values.ravel().tolist() X = vectors.fit_transform(dataset_list)

示例数据集在此处可用仍然是相同的错误消息。您能建议我纠正的步骤吗？

Answer 1

fit_transform 方法接受一个迭代，它产生 str、unicode 或文件对象作为参数。 您的输入数据中可能存在被忽略的项目。 确保所有项目都是 str。 通过以下代码段检查。

False in map((lambda x: type(x) == str), df['final'])