繁体   English   中英

将IMDB数据用于sci-kit回归模型包,该包在特征变量中具有文本值

[英]Using IMDB data for the sci-kit regression models package which has text values in feature variables

我有一个包含IMDB电影收视率数据的csv文件。 该文件具有27个功能和1个目标变量。 我已附上SampleData 数据集也可以从KaggleData下载。 我了解到python的sklearn包要求所有数据均为数字。 那么,如何使用这些数据进行回归分析呢? 现在,我已经使用了下面的代码,但是它说“某些导演姓名”不能转换为浮点数。

import pandas as pd
from sklearn.linear_model import LinearRegression
df = pd.read_csv('D:\Machine Learning\Final\movie_metadata.csv')
feature_cols = [
                 "director_facebook_likes", 
                 "cast_total_facebook_likes",
                 "movie_facebook_likes",
                 "facenumber_in_poster",
                 "gross",
                 "num_critic_for_reviews",
                 "num_voted_users",
                 "num_user_for_reviews",
                 "duration",
                 "title_year",
                 "content_rating",
                 "budget",
                 "director_name"]
X = df[feature_cols]
y = df.imdb_score
lm = LinearRegression()
lm.fit(X, y)
print (lm.intercept_)
print (lm.coef_)

最简单的是pd.get_dummies()。 您可能还会遇到一键编码。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM