[英]Using IMDB data for the sci-kit regression models package which has text values in feature variables
我有一個包含IMDB電影收視率數據的csv文件。 該文件具有27個功能和1個目標變量。 我已附上SampleData 。 數據集也可以從KaggleData下載。 我了解到python的sklearn包要求所有數據均為數字。 那么,如何使用這些數據進行回歸分析呢? 現在,我已經使用了下面的代碼,但是它說“某些導演姓名”不能轉換為浮點數。
import pandas as pd
from sklearn.linear_model import LinearRegression
df = pd.read_csv('D:\Machine Learning\Final\movie_metadata.csv')
feature_cols = [
"director_facebook_likes",
"cast_total_facebook_likes",
"movie_facebook_likes",
"facenumber_in_poster",
"gross",
"num_critic_for_reviews",
"num_voted_users",
"num_user_for_reviews",
"duration",
"title_year",
"content_rating",
"budget",
"director_name"]
X = df[feature_cols]
y = df.imdb_score
lm = LinearRegression()
lm.fit(X, y)
print (lm.intercept_)
print (lm.coef_)
最簡單的是pd.get_dummies()。 您可能還會遇到一鍵編碼。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.