[英]TF-IDF vectorizer with python
我對 python 中的 TfidfVectorizer function 有問題。 例如,如果我有一個這樣的字符串:'xxx//xx. aaa.bb.ccc.d' 將提取這些單詞作為字典的鍵:'xxx', 'xx', 'aaa', 'bb', 'ccc', 'd' 相反,我想創建這些新功能:'xxx//xx.'、'aaa.bb.ccc.d'
我如何詢問 TfidfVectorizer function 到 select 單詞之間用空格('')分隔?
有一個參數叫做token-pattern。
TfidfVectorizer 中token-pattern
參數用於指定自定義拆分模式
from sklearn.feature_extraction.text import TfidfVectorizer
a = ['xxx//xx. aaa.bb.ccc.d']
t = TfidfVectorizer(token_pattern=r"([a-z]*//[a-z]*)|([a-z.]*)")
輸出
[('', ''), ('', '.'), ('', 'aaa.bb.ccc.d'), ('xxx//xx', '')]
在這種情況下,需要進行一些后期清潔。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.