将单词标记化为熊猫数据框中的新列

Question

我正在尝试查看在熊猫数据框中收集的注释列表，并将这些单词标记化，然后将这些单词放在数据框中的新列中，但是在执行此操作时出现错误，是

该错误表明AttributeError：'unicode'对象没有属性'apwords'

还有其他方法吗？ 谢谢

def apwords(words):
    filtered_sentence = []
    words = word_tokenize(words)
    for w in words:
        filtered_sentence.append(w)
    return filtered_sentence
addwords = lambda x: x.apwords()
df['words'] = df['complaint'].apply(addwords)
print df

Answer 1

您不只是想这样做：

   df['words'] = df['complaint'].apply(apwords)

您不需要定义功能addwords 。 应该定义为：

addwords = lambda x: apwords(x)

Answer 2

您应用lambda函数的方法是正确的，这是您无法定义addwords的方法。

当您定义apwords您定义的是function而不是attribute因此，当您要应用它时，请使用：

addwords = lambda x: apwords(x)

并不是：

addwords = lambda x: x.apwords()

如果要将apwords用作属性，则需要定义一个从string继承的class ，并将apwords定义为apwords中的属性。

使用该function要容易得多：

def apwords(words):
    filtered_sentence = []
    words = word_tokenize(words)
    for w in words:
        filtered_sentence.append(w)
    return filtered_sentence
addwords = lambda x: apwords(x)
df['words'] = df['complaint'].apply(addwords)

将单词标记化为熊猫数据框中的新列

问题描述

2 个解决方案

解决方案1
0 2016-06-30 10:18:20

解决方案2
0 已采纳 2016-06-30 11:11:44

将单词标记化为熊猫数据框中的新列

问题描述

2 个解决方案

解决方案1 0 2016-06-30 10:18:20

解决方案2 0 已采纳 2016-06-30 11:11:44

解决方案1
0 2016-06-30 10:18:20

解决方案2
0 已采纳 2016-06-30 11:11:44