繁体   English   中英

带有 python 的 TF-IDF 矢量化器

[英]TF-IDF vectorizer with python

我对 python 中的 TfidfVectorizer function 有问题。 例如,如果我有一个这样的字符串:'xxx//xx. aaa.bb.ccc.d' 将提取这些单词作为字典的键:'xxx', 'xx', 'aaa', 'bb', 'ccc', 'd' 相反,我想创建这些新功能:'xxx//xx.'、'aaa.bb.ccc.d'

我如何询问 TfidfVectorizer function 到 select 单词之间用空格('')分隔?

TfidfVectorizer 中token-pattern参数用于指定自定义拆分模式

from sklearn.feature_extraction.text import TfidfVectorizer
a = ['xxx//xx. aaa.bb.ccc.d']  
t = TfidfVectorizer(token_pattern=r"([a-z]*//[a-z]*)|([a-z.]*)")

输出

[('', ''), ('', '.'), ('', 'aaa.bb.ccc.d'), ('xxx//xx', '')]

在这种情况下,需要进行一些后期清洁。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM