[英]how to do smart data analysis when you have a lot of variables
我是新来的,我在营销分析方面做了很多工作。 大多数时候,我收到一个包含很多变量( 10 - 15
)的巨大基数,人们问我:对于我们拥有的变量(年龄、性别等),是什么解释了收入的增长或下降?
我通常会查看图表并分析所有可能的情况,但我真的相信有更好的方法来做到这一点。
age sex business_unit year month revenue name
10-20 Male unit_1 2018 1 $100 chloe
20-30 Female unit_2 2019 2 $250 arnold
我在想是否有一种方法可以结合所有可能的变量并为我提供变化,例如:
age revenue
10-20 -$100 year over year
sex revenue
male -$200 year over year
age sex revenue
10-20 male -$50 year over year
以及所有其他可能的组合。 有没有办法做到这一点? 用 Python?
一个很好的工具来可视化每对变量之间的关系是“角”模块。
这允许您绘制每个变量的分布并查看它们如何依赖于其他变量。 例如
https://corner.readthedocs.io/en/latest/pages/custom.html
使用“分位数”关键字,您可以在数据等上绘制第 16 个和第 84 个百分位数。
我建议在您的数据集上使用多元线性回归模型
通过这样做,你会得到应预测公式y
变量(可以说收入)的基础上同所有其他变量y=c1*x1-c2*x2...
系数c
可以告诉你这个变量对y
影响有多大。 所以在revenue = 2*age + -0.5*sex...
年龄对收入有双重影响,而性别有负面影响(比age
重要 4 倍)
如果您想要所有变量之间的所有关系,则必须运行 10 到 15 个模型,在每个模型中, y
将代表年龄、性别、收入等其他一些变量
您可以查看此链接以了解如何使用 python 实现它
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.