簡體 English 中英

scikit學習矢量化器詞匯，具有映射到同一索引的多個術語

[英]scikit-learn vectorizer vocabulary with multiple terms mapping to same index

原文 2014-10-01 19:41:58 4 1 python/ scikit-learn

skikit-learn的TfidfVectorizer可以正確地將具有相同字典值的詞匯詞映射到相同的索引，但是，它在輸出中創建的列數與詞匯字典中的條目數一樣多。 有沒有比轉換后剝離多余的列更好的方法了？ 也就是說，在下面的示例中，我不希望第三列，因為它始終為零。

from sklearn.feature_extraction.text import TfidfVectorizer
vectorizer=TfidfVectorizer(vocabulary={'surgery':0, 'sx':0, 'radiology':1})
text=['i had surgery','patient sx went well','radiology department']
vectorizer.fit(text)
vectorizer.transform(text).todense()

>>> matrix([[ 1.,  0.,  0.],
            [ 1.,  0.,  0.],
            [ 0.,  1.,  0.]])

1 個解決方案

sklearn.feature_selection.VarianceThreshold （scikit-learn> = 0.15）將刪除全零特征（更常見的是恆定特征）。

>>> X = np.array([[1, 0, 0], [1, 0, 0], [0, 1, 0]])
>>> VarianceThreshold().fit_transform(X)
array([[1, 0],
       [1, 0],
       [0, 1]])

spaCy 和 scikit-learn 向量化器

[英]spaCy and scikit-learn vectorizer

在scikit-learn中適合詞匯方面的問題嗎？

[英]Problems fitting vocabulary in scikit-learn?

scikit-learn CountVectorizer。詞匯_

[英]scikit-learn CountVectorizer. vocabulary_

在scikit-learn中向文本矢量化器添加新單詞

[英]Adding new words to text vectorizer in scikit-learn

如何告訴scikit-learn vectorizer使用特定功能？

[英]How to tell scikit-learn vectorizer use specific features?

SciKit-Learn 中的 TFIDF 矢量化器僅返回 5 個結果

[英]TFIDF Vectorizer within SciKit-Learn only returning 5 results

scikit-learn 矢量化器如何處理標點符號

[英]how does scikit-learn vectorizer handle punctuation

如何保存使用矢量化器、管道和 GridSearchV 的 scikit-learn 分類器？

[英]How to save a scikit-learn classifier that utilizes a vectorizer, a pipeline and GridSearchV?

Scikit-學習多個目標

[英]Scikit-learn multiple targets

擬合相同 scikit-learn model 的多個實例

[英]Fitting multiple instances of the same scikit-learn model

暫無

暫無

聲明:本站的技術帖子網頁，遵循CC BY-SA 4.0協議，如果您需要轉載，請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

相關問題 spaCy 和 scikit-learn 向量化器在scikit-learn中適合詞匯方面的問題嗎？ scikit-learn CountVectorizer。詞匯_ 在scikit-learn中向文本矢量化器添加新單詞如何告訴scikit-learn vectorizer使用特定功能？ SciKit-Learn 中的 TFIDF 矢量化器僅返回 5 個結果 scikit-learn 矢量化器如何處理標點符號如何保存使用矢量化器、管道和 GridSearchV 的 scikit-learn 分類器？ Scikit-學習多個目標擬合相同 scikit-learn model 的多個實例

相關標簽

粵ICP備18138465號 © 2020-2024 STACKOOM.COM