簡體 English 中英

如何在python的決策樹中使用分類數據

[英]How to use categorical data in decision tree in python

原文 2018-10-30 13:22:28 5 2 python/ machine-learning/ scikit-learn

我有一個數據集，從中提取了12個特征用於使用決策樹進行共參考解析的任務。 這些功能的一些示例是：

distance_feature（）：根據句子數，i和j之間的距離。 輸出：0或1
- Ispronoun_feature（）：如果名詞短語是代詞，則此功能設置為true。
- appositive_feature（）：此功能檢查j是否在i 。

創建所有這些功能以從數據集中提取結果后，我不知道如何選擇根節點或如何使用sci-kit學習決策樹算法，因為數據不是結構化的並且是分類的。 我讀過的一篇論文提到了熵和信息增益，但是這兩個屬性的所有示例均基於結構化數據集。

2 個解決方案

使用一鍵編碼。

df = pd.get_dummies(df, [categorical_columns_you_want_to_encode])

如果最后的列過多，則可以對列進行預處理，以刪除不常見的值-例如，小於1％的列可以避免列過多。

如果您具有不同類別的不同功能，並且不想花時間自己編碼，那么我建議您使用CatBoost框架，該框架也比標准scikit樹實現更快。

檢查此kaggle的實現！

將分類數據傳遞給 Sklearn 決策樹

[英]Passing categorical data to Sklearn Decision Tree

如何使用 Python 決策樹分類器從分類變量中創建描述樹

[英]How to make a descriptive tree out of categorical variables with Python Decision Tree Classifier

在 Python 中創建決策樹，數值和分類變量：“無法強制轉換為系列”

[英]Creating a Decision Tree in Python, Numerical and Categorical Variables: "Unable to coerce to Series"

如何對新數據使用決策樹回歸器？（Python、熊貓、Sklearn）

[英]How do I use Decision Tree Regressor on new data? (Python, Pandas, Sklearn)

如何將混合（分類和數字）特征傳遞給 sklearn 中的決策樹回歸器？

[英]how to pass mixed (categorical and numeric) features to Decision Tree Regressor in sklearn?

如何正確編碼 sklearn 的分類 - 決策樹的 memory 錯誤

[英]How to correctly encode categorical for sklearn - memory error for decision tree

如何重塑決策樹的數據？

[英]How to reshape data for Decision Tree?

如何在 XGBClassifier python 中使用分類數據

[英]How to use categorical data in XGBClassifier python

當我們傳遞分類變量並調用預測 function 時如何處理決策樹中的分類變量

[英]How to deal with categorical variables in decision tree when we are passing categorical variables and calling predict function

將時間定義為決策樹算法中的分類變量

[英]Defining time as categorical variables in decision tree algorithms

暫無

暫無

聲明:本站的技術帖子網頁，遵循CC BY-SA 4.0協議，如果您需要轉載，請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

相關問題 將分類數據傳遞給 Sklearn 決策樹如何使用 Python 決策樹分類器從分類變量中創建描述樹在 Python 中創建決策樹，數值和分類變量：“無法強制轉換為系列” 如何對新數據使用決策樹回歸器？（Python、熊貓、Sklearn）如何將混合（分類和數字）特征傳遞給 sklearn 中的決策樹回歸器？如何正確編碼 sklearn 的分類 - 決策樹的 memory 錯誤如何重塑決策樹的數據？如何在 XGBClassifier python 中使用分類數據當我們傳遞分類變量並調用預測 function 時如何處理決策樹中的分類變量將時間定義為決策樹算法中的分類變量

相關標簽

粵ICP備18138465號 © 2020-2024 STACKOOM.COM