簡體   English   中英

scikit學習矢量化器詞匯,具有映射到同一索引的多個術語

[英]scikit-learn vectorizer vocabulary with multiple terms mapping to same index

skikit-learn的TfidfVectorizer可以正確地將具有相同字典值的詞匯詞映射到相同的索引,但是,它在輸出中創建的列數與詞匯字典中的條目數一樣多。 有沒有比轉換后剝離多余的列更好的方法了? 也就是說,在下面的示例中,我不希望第三列,因為它始終為零。

from sklearn.feature_extraction.text import TfidfVectorizer
vectorizer=TfidfVectorizer(vocabulary={'surgery':0, 'sx':0, 'radiology':1})
text=['i had surgery','patient sx went well','radiology department']
vectorizer.fit(text)
vectorizer.transform(text).todense()

>>> matrix([[ 1.,  0.,  0.],
            [ 1.,  0.,  0.],
            [ 0.,  1.,  0.]])

sklearn.feature_selection.VarianceThreshold (scikit-learn> = 0.15)將刪除全零特征(更常見的是恆定特征)。

>>> X = np.array([[1, 0, 0], [1, 0, 0], [0, 1, 0]])
>>> VarianceThreshold().fit_transform(X)
array([[1, 0],
       [1, 0],
       [0, 1]])

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM