簡體   English   中英

當你有很多變量時如何進行智能數據分析

[英]how to do smart data analysis when you have a lot of variables

我是新來的,我在營銷分析方面做了很多工作。 大多數時候,我收到一個包含很多變量( 10 - 15 )的巨大基數,人們問我:對於我們擁有的變量(年齡、性別等),是什么解釋了收入的增長或下降?

我通常會查看圖表並分析所有可能的情況,但我真的相信有更好的方法來做到這一點。

age   sex     business_unit year  month revenue name  
10-20 Male    unit_1       2018    1     $100   chloe  
20-30 Female  unit_2       2019    2     $250   arnold  

我在想是否有一種方法可以結合所有可能的變量並為我提供變化,例如:

age    revenue   
10-20  -$100    year over year  

sex  revenue  
male -$200   year over year  

age   sex   revenue   
10-20 male   -$50   year over year  

以及所有其他可能的組合。 有沒有辦法做到這一點? 用 Python?

一個很好的工具來可視化每對變量之間的關系是“角”模塊。

這允許您繪制每個變量的分布並查看它們如何依賴於其他變量。 例如

https://corner.readthedocs.io/en/latest/pages/custom.html

來自corner.py的示例輸出

使用“分位數”關鍵字,您可以在數據等上繪制第 16 個和第 84 個百分位數。

我建議在您的數據集上使用多元線性回歸模型

通過這樣做,你會得到應預測公式y變量(可以說收入)的基礎上同所有其他變量y=c1*x1-c2*x2...

系數c可以告訴你這個變量對y影響有多大。 所以在revenue = 2*age + -0.5*sex...年齡對收入有雙重影響,而性別有負面影響(比age重要 4 倍)

如果您想要所有變量之間的所有關系,則必須運行 10 到 15 個模型,在每個模型中, y將代表年齡、性別、收入等其他一些變量

您可以查看此鏈接以了解如何使用 python 實現它

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM