簡體   English   中英

帶有 python 的 TF-IDF 矢量化器

[英]TF-IDF vectorizer with python

我對 python 中的 TfidfVectorizer function 有問題。 例如,如果我有一個這樣的字符串:'xxx//xx. aaa.bb.ccc.d' 將提取這些單詞作為字典的鍵:'xxx', 'xx', 'aaa', 'bb', 'ccc', 'd' 相反,我想創建這些新功能:'xxx//xx.'、'aaa.bb.ccc.d'

我如何詢問 TfidfVectorizer function 到 select 單詞之間用空格('')分隔?

TfidfVectorizer 中token-pattern參數用於指定自定義拆分模式

from sklearn.feature_extraction.text import TfidfVectorizer
a = ['xxx//xx. aaa.bb.ccc.d']  
t = TfidfVectorizer(token_pattern=r"([a-z]*//[a-z]*)|([a-z.]*)")

輸出

[('', ''), ('', '.'), ('', 'aaa.bb.ccc.d'), ('xxx//xx', '')]

在這種情況下,需要進行一些后期清潔。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM