[英]How to use categorical data in decision tree in python
我有一個數據集,從中提取了12個特征用於使用決策樹進行共參考解析的任務。 這些功能的一些示例是:
distance_feature():根據句子數,i和j之間的距離。 輸出:0或1
Ispronoun_feature():如果名詞短語是代詞,則此功能設置為true。
appositive_feature():此功能檢查j
是否在i
。
創建所有這些功能以從數據集中提取結果后,我不知道如何選擇根節點或如何使用sci-kit學習決策樹算法,因為數據不是結構化的並且是分類的。 我讀過的一篇論文提到了熵和信息增益,但是這兩個屬性的所有示例均基於結構化數據集。
使用一鍵編碼。
df = pd.get_dummies(df, [categorical_columns_you_want_to_encode])
如果最后的列過多,則可以對列進行預處理,以刪除不常見的值-例如,小於1%的列可以避免列過多。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.