如何使用 nltk 阻止熊猫数据框？输出应该是一个词干数据框

Question

我正在尝试预处理数据集。 数据集包含文本数据。 我已经从该数据集创建了一个 Pandas DataFrame。 我的问题是，如何在 DataFrame 上使用词干提取并获得一个词干提取的 DataFrame 作为输出？

Answer 1

给定某个 Pandas df，您可以在对单词进行标记后对整个 df 应用词干提取函数来提取内容。

为此，我示例性地使用了 nltk 的滚雪球词干。

from nltk.stem.snowball import SnowballStemmer
englishStemmer=SnowballStemmer("english") #define stemming dict

这个标记器：

from nltk.tokenize import WhitespaceTokenizer as w_tokenizer

定义你的函数：

def stemm_texts(text):
    return [englishStemmer.stem(w) for w in w_tokenizer.tokenize(str(text))]

在您的 df 上应用该函数：

df = df.apply(lambda y: y.map(stemm_texts, na_action='ignore'))

请注意，我还添加了 NaN 忽略部分。

您可能想再次取消标记：

from nltk.tokenize.treebank import TreebankWordDetokenizer

detokenizer = TreebankWordDetokenizer()
df = df.apply(lambda y: y.map(detokenizer.detokenize, na_action='ignore'))

如何使用 nltk 阻止熊猫数据框？输出应该是一个词干数据框

问题描述

1 个解决方案

解决方案1
1 2019-04-03 12:34:18

如何使用 nltk 阻止熊猫数据框？ 输出应该是一个词干数据框

问题描述

1 个解决方案

解决方案1 1 2019-04-03 12:34:18

如何使用 nltk 阻止熊猫数据框？输出应该是一个词干数据框

解决方案1
1 2019-04-03 12:34:18