繁体   English   中英

当你有很多变量时如何进行智能数据分析

[英]how to do smart data analysis when you have a lot of variables

我是新来的,我在营销分析方面做了很多工作。 大多数时候,我收到一个包含很多变量( 10 - 15 )的巨大基数,人们问我:对于我们拥有的变量(年龄、性别等),是什么解释了收入的增长或下降?

我通常会查看图表并分析所有可能的情况,但我真的相信有更好的方法来做到这一点。

age   sex     business_unit year  month revenue name  
10-20 Male    unit_1       2018    1     $100   chloe  
20-30 Female  unit_2       2019    2     $250   arnold  

我在想是否有一种方法可以结合所有可能的变量并为我提供变化,例如:

age    revenue   
10-20  -$100    year over year  

sex  revenue  
male -$200   year over year  

age   sex   revenue   
10-20 male   -$50   year over year  

以及所有其他可能的组合。 有没有办法做到这一点? 用 Python?

一个很好的工具来可视化每对变量之间的关系是“角”模块。

这允许您绘制每个变量的分布并查看它们如何依赖于其他变量。 例如

https://corner.readthedocs.io/en/latest/pages/custom.html

来自corner.py的示例输出

使用“分位数”关键字,您可以在数据等上绘制第 16 个和第 84 个百分位数。

我建议在您的数据集上使用多元线性回归模型

通过这样做,你会得到应预测公式y变量(可以说收入)的基础上同所有其他变量y=c1*x1-c2*x2...

系数c可以告诉你这个变量对y影响有多大。 所以在revenue = 2*age + -0.5*sex...年龄对收入有双重影响,而性别有负面影响(比age重要 4 倍)

如果您想要所有变量之间的所有关系,则必须运行 10 到 15 个模型,在每个模型中, y将代表年龄、性别、收入等其他一些变量

您可以查看此链接以了解如何使用 python 实现它

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM