![](/img/trans.png)
[英]How can I run a Principal Component Analysis on data I have just accumulated in Python Pandas dataframe?
[英]Do I have enough data to run reliable analysis?
我有一个包含2012-13 / 2016-17赛季比赛数据的NBA游戏数据集,其中包括我一直在构建的带有6000余行的季后赛标记为2013-2017季后赛,看起来像这样。
Date Visitor V_PTS Home \
25 2012-11-03 19:00:00 Sacramento Kings 98 Indiana Pacers
26 2012-11-03 19:00:00 New Orleans Pelicans 89 Chicago Bulls
27 2012-11-03 19:00:00 Boston Celtics 89 Washington Wizards
28 2012-11-03 19:00:00 Portland Trail Blazers 95 Houston Rockets
29 2012-11-03 19:30:00 Toronto Raptors 100 Brooklyn Nets
30 2012-11-03 19:30:00 Charlotte Hornets 99 Dallas Mavericks
31 2012-11-03 19:30:00 Golden State Warriors 114 Los Angeles Clippers
H_PTS Attendance Arena Location \
25 106 18165 Bankers Life Fieldhouse Indianapolis, Indiana
26 82 21758 United Center Chicago, Illinois
27 86 20308 Capital One Arena Washington, D.C.
28 85 18140 Toyota Center Houston, Texas
29 107 17732 Barclays Center Brooklyn, New York
30 126 19490 American Airlines Center Dallas, Texas
31 110 19060 Staples Center Los Angeles, California
Capacity Yr Arena Opened Season H_Allstars V_Allstars V_wins \
25 17923 1999 2012-13 1 0 0
26 20917 1994 2012-13 2 0 1
27 20356 1997 2012-13 0 2 0
28 18055 2003 2012-13 1 1 1
29 17732 2012 2012-13 1 0 0
30 19200 2001 2012-13 0 0 1
31 19060 1999 2012-13 2 1 1
V_losses H_wins H_losses V_WPercent H_WPercent
25 2 1 1 0.0 0.5
26 1 2 0 0.5 1.0
27 2 0 1 0.0 0.0
28 1 2 0 0.5 1.0
29 1 0 0 0.0 0.0
30 0 1 1 1.0 0.5
31 1 2 0 0.5 1.0
我并不是想做任何激烈的事情,而是试图找出对合理的准确性有影响/预测球队出勤率的因素。 您是否建议添加其他任何预测变量? 您将如何建议探索数据以获取见识,以及如果有任何ML软件包可能有用的类型,您将如何建议。 我的第一个个人项目,因此感谢所有建议/示例。
更新:
经过一番快速探索和逐步浏览之后,我遇到了有关容量百分比填充的相关矩阵。 我可能是错的,但是这些数字似乎很低吗? 每个团队是否都太具体了,我可能需要关注那些没有持续售罄的团队,或者我是否应该考虑一些变量,这可能与过去的出勤历史有关?
我会考虑添加一些功能:
家庭和访客超级巨星。 我知道您拥有所有的恒星,但是超级巨星则有些不同。 例如:勒布朗对德玛·德罗赞(Demar Derozan)。 他们俩都是超级巨星,但是更多的人可能会去看勒布朗而不是戴玛。 但是,将所有这些加在一起并确定谁是超级巨星将是非常痛苦的。
您可能要考虑竞争。 由于各支球队的历史,波士顿vs洛杉矶(湖人)一直都是抢购对象。
季票持有者的数量可能会或可能不会影响计数。 我很想看看那是否有分量。
其中一些不太重要。 我会考虑摆脱比赛成绩,因为那是比赛结束时发生的事情,而出勤率与门票销售有关(比赛开始之前)。 看起来您确实有大量的数据可以使用。 显然,它将成为监督模型。 看起来回归将是您想要用于模型的东西。
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.