[英]combine independent features in scikit-learn
我對不同功能組合的組合提出了一個小問題。
我的情況:
有些文檔帶有標題,一些標簽和文本,可分為“垃圾郵件”或“火腿”。 我正在使用scikit-learn bugtracker中描述的方法從文檔(標題和文本)中提取功能。
在此步驟之后,我可以使用clf.fit(X,Y)
,其中X
是fit_transform
-operation的結果, Y
指示文檔是ham( 0
)還是spam( 1
)。
我的問題:
將標簽也添加為特征進行處理的最佳方法是什么? 我考慮過將FeatureHasher
與包含每個功能的標簽作為特征的字典一起使用(例如{"tag1": 1, "tag35":1}
)。
您應該看一下在這里看到的FeatureUnion
。 它允許您創建多個變壓器,並將其所有輸出組合到一個矩陣中。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.