Scikit-learn SequentialFeatureSelector 輸入包含 NaN、無窮大或對於 dtype('float64') 而言太大的值。即使有管道

Question

我正在嘗試使用 SequentialFeatureSelector 並且對於estimator參數，我正在向它傳遞一個管道，其中包含一個輸入缺失值的步驟：

model = Pipeline(steps=[('preprocessing',
                 ColumnTransformer(transformers=[('pipeline-1',
                                                  Pipeline(steps=[('imputing',
                                                                   SimpleImputer(fill_value=-1,
                                                                                 strategy='constant')),
                                                                  ('preprocessing',
                                                                   StandardScaler())]),
                                                  <sklearn.compose._column_transformer.make_column_selector object at 0x1300013d0>),
                                                 ('pipeline-2',
                                                  Pipeline(steps=[('imputing',
                                                                   SimpleImputer(fill_value='missing',
                                                                                 strategy='constant')),
                                                                  ('encoding',
                                                                   OrdinalEncoder(handle_unknown='ignore'))]),
                                                  <sklearn.compose._column_transformer.make_column_selector object at 0x1300015b0>)])),
                ('model',
                 LGBMClassifier(class_weight='balanced', random_state=1,
                                reg_lambda=0.1))])

盡管如此，當將它傳遞給選擇器時，它會顯示一個錯誤，這沒有任何意義，因為我已經安裝並評估了我的 model 並且運行正常

fselector = SequentialFeatureSelector(estimator = model, scoring= "roc_auc", cv = 3, n_jobs= -1, ).fit(X, target)




 _assert_all_finite(X, allow_nan, msg_dtype)
        101                 not allow_nan and not np.isfinite(X).all()):
        102             type_err = 'infinity' if allow_nan else 'NaN, infinity'
    --> 103             raise ValueError(
        104                     msg_err.format
        105                     (type_err,
    
    ValueError: Input contains NaN, infinity or a value too large for dtype('float64').

編輯：

可重現的例子：

from sklearn.feature_selection import SequentialFeatureSelector
from sklearn.linear_model import LogisticRegression
from sklearn.datasets import load_iris
from sklearn.pipeline import Pipeline
from sklearn.impute import SimpleImputer

X, y = load_iris(return_X_y = True)
X[:10,0] = np.NaN

clf = Pipeline([("preprocessing", SimpleImputer(missing_values= np.NaN)),("model",LogisticRegression(random_state = 1))])                                                                        

SequentialFeatureSelector(estimator = clf,
                           scoring= "accuracy",
                           cv = 3).fit(X, y)

它顯示相同的錯誤，盡管clf可以毫無問題地適合

Answer 1

ScikitLearn 的文檔沒有 state 表明 SequentialFeatureSelector 與管道對象一起使用。 它僅說明class 接受不合適的估計器。 鑒於此，您可以從管道中刪除分類器，預處理 X，然后將其與未擬合的分類器一起傳遞以進行特征選擇，如下例所示。

import numpy as np
from sklearn.feature_selection import SequentialFeatureSelector
from sklearn.linear_model import LogisticRegression
from sklearn.datasets import load_iris
from sklearn.pipeline import Pipeline
from sklearn.impute import SimpleImputer
from sklearn.preprocessing import MaxAbsScaler


X, y = load_iris(return_X_y = True)
X[:10,0] = np.NaN

pipe = Pipeline([("preprocessing", SimpleImputer(missing_values= np.NaN)),
                ('scaler', MaxAbsScaler())])


# Preprocess your data
X = pipe.fit_transform(X)

# Run the SequentialFeatureSelector
sfs = SequentialFeatureSelector(estimator = LogisticRegression(),
                           scoring= "accuracy",
                           cv = 3).fit(X, y)

# Check which features are important and transform X
sfs.get_support()
X = sfs.transform(X)

Answer 2

您可以使用來自 mlxtend package https://rasbt.github.io/mlxtend/的 SequentialFeatureSelection

from mlxtend.feature_selection import SequentialFeatureSelector
from sklearn.linear_model import LogisticRegression
from sklearn.datasets import load_iris
from sklearn.pipeline import Pipeline
from sklearn.impute import SimpleImputer
import numpy as np

X, y = load_iris(return_X_y = True)
X[:10,0] = np.NaN

clf = Pipeline([
    ("preprocessing", SimpleImputer(missing_values= np.NaN)),
    ("model",LogisticRegression(random_state = 1))
])

sfs = SequentialFeatureSelector(estimator = clf, 
                                forward = True, 
                                k_features = 'best', 
                                scoring = "accuracy", 
                                cv = 3, n_jobs=-1).fit(X, y)
sfs.k_feature_idx_

>>> (0, 1, 2, 3)

Scikit-learn SequentialFeatureSelector 輸入包含 NaN、無窮大或對於 dtype('float64') 而言太大的值。即使有管道

問題描述

2 個解決方案

解決方案1
3 已采納 2021-02-08 21:16:09

解決方案2
1 2021-04-15 15:33:27

Scikit-learn SequentialFeatureSelector 輸入包含 NaN、無窮大或對於 dtype('float64') 而言太大的值。 即使有管道

問題描述

2 個解決方案

解決方案1 3 已采納 2021-02-08 21:16:09

解決方案2 1 2021-04-15 15:33:27

Scikit-learn SequentialFeatureSelector 輸入包含 NaN、無窮大或對於 dtype('float64') 而言太大的值。即使有管道

解決方案1
3 已采納 2021-02-08 21:16:09

解決方案2
1 2021-04-15 15:33:27