簡體   English   中英

如何在python的決策樹中使用分類數據

[英]How to use categorical data in decision tree in python

我有一個數據集,從中提取了12個特征用於使用決策樹進行共參考解析的任務。 這些功能的一些示例是:

  • distance_feature():根據句子數,i和j之間的距離。 輸出:0或1

    • Ispronoun_feature():如果名詞短語是代詞,則此功能設置為true。

    • appositive_feature():此功能檢查j是否在i

創建所有這些功能以從數據集中提取結果后,我不知道如何選擇根節點或如何使用sci-kit學習決策樹算法,因為數據不是結構化的並且是分類的。 我讀過的一篇論文提到了熵和信息增益,但是這兩個屬性的所有示例均基於結構化數據集。

使用一鍵編碼。

df = pd.get_dummies(df, [categorical_columns_you_want_to_encode])

如果最后的列過多,則可以對列進行預處理,以刪除不常見的值-例如,小於1%的列可以避免列過多。

如果您具有不同類別的不同功能,並且不想花時間自己編碼,那么我建議您使用CatBoost框架,該框架也比標准scikit樹實現更快。

檢查此kaggle的實現!

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM