為什么train_test_split和管道cross_val_score之間的r2_score有很大不同？

Question

我不知道為什么train_test_split和管道cross_val_score之間的r2_score有很大不同？ 我懷疑這是因為模型可以通過管道中的CountVectorizer（）看到未知單詞。 但是基於管道的概念，CountVectorizer（）應該只對由cross_val分割的訓練集起作用嗎？

pipe=Pipeline([('Vect', CountVectorizer()), ('rf', RandomForestRegressor(random_state=1)) ])

X_train, X_test, y_train, y_test=train_test_split(df['X'], df['price'], shuffle= False, test_size=0.5)

reg=pipe.fit(X_train,y_train )
mypred= reg.predict(X_test)
r2_score(mypred, y_test)
# result is -0.2
cross_val_score(pipe,df['X'], df['price'],cv=2)
# result is about 0.3

Answer 1

r2_score(mypred, y_test)

是錯的。

您需要提供真實值作為第一輸入，並提供預測值作為第二輸入。 更正為：

r2_score(y_test, mypred)

然后檢查結果。

為什么train_test_split和管道cross_val_score之間的r2_score有很大不同？

問題描述

1 個解決方案

解決方案1
1 2019-02-18 07:55:26

為什么train_test_split和管道cross_val_score之間的r2_score有很大不同？

問題描述

1 個解決方案

解決方案1 1 2019-02-18 07:55:26

解決方案1
1 2019-02-18 07:55:26