簡體   English   中英

在scikit-learn中結合獨立功能

[英]combine independent features in scikit-learn

我對不同功能組合的組合提出了一個小問題。

我的情況:

有些文檔帶有標題,一些標簽和文本,可分為“垃圾郵件”或“火腿”。 我正在使用scikit-learn bugtracker中描述的方法從文檔(標題和文本)中提取功能。

在此步驟之后,我可以使用clf.fit(X,Y) ,其中Xfit_transform -operation的結果, Y指示文檔是ham( 0 )還是spam( 1 )。

我的問題:

將標簽也添加為特征進行處理的最佳方法是什么? 我考慮過將FeatureHasher與包含每個功能的標簽作為特征的字典一起使用(例如{"tag1": 1, "tag35":1} )。

您應該看一下在這里看到的FeatureUnion 它允許您創建多個變壓器,並將其所有輸出組合到一個矩陣中。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM