[英]Run CountVectorizer on single column Series from two-column dataframe?
如何将具有多列的 pandas dataframe 的单列转换为 CountVectorizer 的系列?
我有一个 Pandas dataframe 有 2 列 x 9372 记录(行):
twodig
,是 integerdescrp
并且是 varchar删除停用词和特殊字符后,我只想在descrp
列上使用 CountVectorizer ,但仍保留twodig
。
import pandas
from sklearn.feature_extraction.text import CountVectorizer
vectorizer = CountVectorizer()
bowmatrix = vectorizer.fit_transform(df)
但是,运行 CountVectorizer 需要将 dataframe 转换为 pandas 系列,然后使用 CountVectorizer 运行。
corpus = pd.Series(df)
但是当我运行脚本时,产生的错误:错误的项目数通过 2,放置意味着 9372
您只能从 DataFrame 那里获得该列,如下所示: df["descrp"]
所以您的代码将是:
import pandas
from sklearn.feature_extraction.text import CountVectorizer
vectorizer = CountVectorizer()
bowmatrix = vectorizer.fit_transform(df["descrp"])
你可以做这样的事情,但在那之后使用起来就不是最佳的了。
import pandas
from sklearn.feature_extraction.text import CountVectorizer
vectorizer = CountVectorizer()
df["bowmatrix"] = vectorizer.fit_transform(df["descrp"])
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.