在两列 dataframe 的单列系列上运行 CountVectorizer？

Question

如何将具有多列的 pandas dataframe 的单列转换为 CountVectorizer 的系列？

我有一个 Pandas dataframe 有 2 列 x 9372 记录（行）：

第一列称为twodig ，是 integer
第二列称为descrp并且是 varchar
dataframe 的图像

删除停用词和特殊字符后，我只想在descrp列上使用 CountVectorizer ，但仍保留twodig 。

import pandas
from sklearn.feature_extraction.text import CountVectorizer

vectorizer = CountVectorizer()
bowmatrix = vectorizer.fit_transform(df)

但是，运行 CountVectorizer 需要将 dataframe 转换为 pandas 系列，然后使用 CountVectorizer 运行。

corpus = pd.Series(df)

但是当我运行脚本时，产生的错误：错误的项目数通过 2，放置意味着 9372

Answer 1

您只能从 DataFrame 那里获得该列，如下所示： df["descrp"]所以您的代码将是：

import pandas

from sklearn.feature_extraction.text import CountVectorizer

vectorizer = CountVectorizer()

bowmatrix = vectorizer.fit_transform(df["descrp"])

Answer 2

你可以做这样的事情，但在那之后使用起来就不是最佳的了。

import pandas 
from sklearn.feature_extraction.text import CountVectorizer 

vectorizer = CountVectorizer() 
df["bowmatrix"] = vectorizer.fit_transform(df["descrp"])

在两列 dataframe 的单列系列上运行 CountVectorizer？

问题描述

2 个解决方案

解决方案1
1 已采纳 2019-10-25 20:11:37

解决方案2
0 2019-10-25 20:21:37

在两列 dataframe 的单列系列上运行 CountVectorizer？

问题描述

2 个解决方案

解决方案1 1 已采纳 2019-10-25 20:11:37

解决方案2 0 2019-10-25 20:21:37

解决方案1
1 已采纳 2019-10-25 20:11:37

解决方案2
0 2019-10-25 20:21:37