使用不平衡学习库的特征重要性

Question

imblearn库是一个用于不平衡分类的库。 它允许您使用scikit-learn估计器，同时使用各种方法平衡类，从欠采样到过采样再到集成。

然而，我的问题是，在使用BalancedBaggingClassifier或 imblearn 的任何其他采样方法后，如何获得估计器的特征重要性？

from collections import Counter
from sklearn.datasets import make_classification
from sklearn.cross_validation import train_test_split
from sklearn.metrics import confusion_matrix
from imblearn.ensemble import BalancedBaggingClassifier 
from sklearn.tree import DecisionTreeClassifier
X, y = make_classification(n_classes=2, class_sep=2,weights=[0.1, 0.9], n_informative=3, n_redundant=1, flip_y=0, n_features=20, n_clusters_per_class=1, n_samples=1000, random_state=10)
print('Original dataset shape {}'.format(Counter(y)))
X_train, X_test, y_train, y_test = train_test_split(X, y,random_state=0)
bbc = BalancedBaggingClassifier(random_state=42,base_estimator=DecisionTreeClassifier(criterion=criteria_,max_features='sqrt',random_state=1),n_estimators=2000)
bbc.fit(X_train,y_train)

Answer 1

并非sklearn所有估计器sklearn允许您获取特征重要性（例如， BaggingClassifier不允许）。 如果 estimator 是这样，它看起来应该只存储为estimator.feature_importances_ ，因为imblearn包是sklearn类的子类。 我不知道是什么估计器imblearn已经实施了，所以我不知道是否有任何提供feature_importances_ ，但一般而言，您应该看看sklearn 文档为相应对象，以确定它。

在这种情况下，您可以查看BalancedBaggingClassifier每个估计器的特征重要性，如下所示：

for estimator in bbc.estimators_:
    print(estimator.steps[1][1].feature_importances_)

您可以像这样打印估算器的平均重要性：

print(np.mean([est.steps[1][1].feature_importances_ for est in bbc.estimators_], axis=0))

Answer 2

有一个解决这个问题的捷径，但是它不是很有效。 BalancedBaggingClassifier连续使用RandomUnderSampler并在顶部拟合估计器。 带有 RandomUnderSampler 的 for 循环可以是绕过管道方法的一种方式，然后直接调用 Scikit-learn 估计器。 这也将允许查看 feature_importance：

from imblearn.under_sampling import RandomUnderSampler
rus=RandomUnderSampler(random_state=1)

my_list=[]
for i in range(0,10): #random under sampling 10 times
    X_pl,y_pl=rus.sample(X_train,y_train,)
    my_list.append((X_pl,y_pl)) #forming tuples from samples

X_pl=[]
Y_pl=[]
for num in range(0,len(my_list)): #Creating the dataframes for input/output
    X_pl.append(pd.DataFrame(my_list[num][0]))
    Y_pl.append(pd.DataFrame(my_list[num][1]))

X_pl_=pd.concat(X_pl) #Concatenating the DataFrames
Y_pl_=pd.concat(Y_pl)

RF=RandomForestClassifier(n_estimators=2000,criterion='gini',max_features=25,random_state=1)
RF.fit(X_pl_,Y_pl_) 
RF.feature_importances_

Answer 3

根据 scikit learn 文档，您可以在分类上使用基于杂质的特征重要性，而使用某种ForestClassifier则没有自己的特征重要性。 这里我的classifier器没有feature_importances_ ，我直接添加它。

classifier.fit(x_train, y_train)

...
...

forest = ExtraTreesClassifier(n_estimators=classifier.n_estimators,
                              random_state=classifier.random_state)

forest.fit(x_train, y_train)
classifier.feature_importances_ = forest.feature_importances_

使用不平衡学习库的特征重要性

问题描述

3 个解决方案

解决方案1
2 已采纳 2017-09-18 16:54:54

解决方案2
0 2017-09-18 17:01:17

解决方案3
0 2020-07-30 07:41:14

使用不平衡学习库的特征重要性

问题描述

3 个解决方案

解决方案1 2 已采纳 2017-09-18 16:54:54

解决方案2 0 2017-09-18 17:01:17

解决方案3 0 2020-07-30 07:41:14

解决方案1
2 已采纳 2017-09-18 16:54:54

解决方案2
0 2017-09-18 17:01:17

解决方案3
0 2020-07-30 07:41:14