Stemming Pandas Dataframe 'float' 对象没有属性 'split'

Question

import pandas as pd
from nltk.stem import PorterStemmer, WordNetLemmatizer
porter_stemmer = PorterStemmer()

df = pd.read_csv("last1.csv",sep=',',header=0,encoding='utf-8')

df['rev'] = df['reviewContent'].apply(lambda x : filter(None,x.split(" ")))

数据集

我正在尝试阻止我的数据框。 在标记化时，我收到此错误

df['rev'] = df['reviewContent'].apply(lambda x : filter(None,x.split(" ")))

AttributeError: 'float' 对象没有属性 'split'

在使用 Stemming 时，我也遇到了浮动问题

df['reviewContent'] = df["reviewContent"].apply(lambda x: [stemmer.stem(y) for y in x])

类型错误：“浮动”对象不可迭代

我能做什么？

Answer 1

标记数据时，您不需要apply调用。 str.split应该没问题。 此外，您可以拆分多个空格，因此您不必寻找空字符串。

df['rev'] = df['reviewContent'].astype(str).str.split()

您现在可以像以前一样运行您的词干分析器：

df['rev'] = df['rev'].apply(lambda x: [stemmer.stem(y) for y in x])

Answer 2

我们也可以这样写

df['rev'] = df['rev'].astype(str).apply(lambda x: stemmer.stem(x))

Stemming Pandas Dataframe 'float' 对象没有属性 'split'

问题描述

2 个解决方案

解决方案1
3 已采纳 2017-11-07 16:50:54

解决方案2
0 2020-10-09 16:07:28

Stemming Pandas Dataframe &#39;float&#39; 对象没有属性 &#39;split&#39;

问题描述

2 个解决方案

解决方案1 3 已采纳 2017-11-07 16:50:54

解决方案2 0 2020-10-09 16:07:28

Stemming Pandas Dataframe 'float' 对象没有属性 'split'

解决方案1
3 已采纳 2017-11-07 16:50:54

解决方案2
0 2020-10-09 16:07:28