將IMDB數據用於sci-kit回歸模型包，該包在特征變量中具有文本值

Question

我有一個包含IMDB電影收視率數據的csv文件。 該文件具有27個功能和1個目標變量。 我已附上SampleData 。 數據集也可以從KaggleData下載。 我了解到python的sklearn包要求所有數據均為數字。 那么，如何使用這些數據進行回歸分析呢？ 現在，我已經使用了下面的代碼，但是它說“某些導演姓名”不能轉換為浮點數。

import pandas as pd
from sklearn.linear_model import LinearRegression
df = pd.read_csv('D:\Machine Learning\Final\movie_metadata.csv')
feature_cols = [
                 "director_facebook_likes", 
                 "cast_total_facebook_likes",
                 "movie_facebook_likes",
                 "facenumber_in_poster",
                 "gross",
                 "num_critic_for_reviews",
                 "num_voted_users",
                 "num_user_for_reviews",
                 "duration",
                 "title_year",
                 "content_rating",
                 "budget",
                 "director_name"]
X = df[feature_cols]
y = df.imdb_score
lm = LinearRegression()
lm.fit(X, y)
print (lm.intercept_)
print (lm.coef_)

Answer 1

最簡單的是pd.get_dummies（）。 您可能還會遇到一鍵編碼。

將IMDB數據用於sci-kit回歸模型包，該包在特征變量中具有文本值

問題描述

1 個解決方案

解決方案1
0 2016-11-05 20:50:45

將IMDB數據用於sci-kit回歸模型包，該包在特征變量中具有文本值

問題描述

1 個解決方案

解決方案1 0 2016-11-05 20:50:45

解決方案1
0 2016-11-05 20:50:45