如何在 sklearn 中將 GridSearchCV 與自定義估計器一起使用？

Question

我有一個應該與 sklearn api 兼容的估算器。 我試圖用gridsearchcv擬合這個估計器的一個參數，但我不明白該怎么做。

這是我的代碼：

import numpy as np
import sklearn as sk

from sklearn.linear_model import LinearRegression, LassoLarsCV, RidgeCV
from sklearn.linear_model.base import LinearClassifierMixin, SparseCoefMixin, BaseEstimator


class ELM(BaseEstimator):

    def __init__(self, n_nodes, link='rbf', output_function='lasso', n_jobs=1, c=1):
        self.n_jobs = n_jobs
        self.n_nodes = n_nodes
        self.c = c

        if link == 'rbf':
            self.link = lambda z: np.exp(-z*z)
        elif link == 'sig':
            self.link = lambda z: 1./(1 + np.exp(-z)) 
        elif link == 'id':
            self.link = lambda z: z
        else:
            self.link = link

        if output_function == 'lasso':
            self.output_function = LassoLarsCV(cv=10, n_jobs=self.n_jobs)
        elif output_function == 'lr':
            self.output_function = LinearRegression(n_jobs=self.n_jobs)

        elif output_function == 'ridge':
            self.output_function = RidgeCV(cv=10)

        else:
            self.output_function = output_function

        return 


    def H(self, x):

        n, p = x.shape
        xw = np.dot(x, self.w.T)
        xw = xw + np.ones((n, 1)).dot(self.b.T)
        return self.link(xw)

    def fit(self, x, y, w=None):

        n, p = x.shape
        self.mean_y = y.mean()
        if w == None:
            self.w = np.random.uniform(-self.c, self.c, (self.n_nodes, p))
        else:
            self.w = w

        self.b = np.random.uniform(-self.c, self.c, (self.n_nodes, 1))
        self.h_train = self.H(x)
        self.output_function.fit(self.h_train, y)

        return self

    def predict(self, x):
        self.h_predict = self.H(x)
        return self.output_function.predict(self.h_predict)

    def get_params(self, deep=True):
        return {"n_nodes": self.n_nodes, 
                "link": self.link,
                "output_function": self.output_function,
                "n_jobs": self.n_jobs, 
                "c": self.c}

    def set_params(self, **parameters):
        for parameter, value in parameters.items():
            setattr(self, parameter, value)



### Fit the c parameter ### 
X = np.random.normal(0, 1, (100,5))
y = X[:,1] * X[:,2] + np.random.normal(0, .1, 100) 

gs = sk.grid_search.GridSearchCV(ELM(n_nodes=20, output_function='lr'), 
                                 cv=5, 
                                 param_grid={"c":np.linspace(0.0001,1,10)},
                                 fit_params={})

#gs.fit(X, y) # Error

Answer 1

您的代碼中有兩個問題：

您沒有為GridSearchCV指定scoring參數。 你似乎在做回歸，所以mean_squared_error是一個選項。
您的set_params不會返回對對象本身的引用。 您應該在for循環之后添加return self 。
正如 Andreas 已經提到的，您很少需要在 scikit-learn 中重新定義set_params和get_params 。 僅僅從BaseEstimator繼承就足夠了。

Answer 2

您從 BaseEstimator 繼承。 它應該可以正常工作。 見https://scikit-learn.org/dev/developers/develop.html

僅供參考，這對您來說可能很有趣： https : //github.com/scikit-learn/scikit-learn/pull/3306

如何在 sklearn 中將 GridSearchCV 與自定義估計器一起使用？

問題描述

2 個解決方案

解決方案1
5 已采納 2015-04-01 15:51:56

解決方案2
3 2015-04-01 15:47:52

如何在 sklearn 中將 GridSearchCV 與自定義估計器一起使用？

問題描述

2 個解決方案

解決方案1 5 已采納 2015-04-01 15:51:56

解決方案2 3 2015-04-01 15:47:52

解決方案1
5 已采納 2015-04-01 15:51:56

解決方案2
3 2015-04-01 15:47:52