[英]how to do smart data analysis when you have a lot of variables
我是新來的,我在營銷分析方面做了很多工作。 大多數時候,我收到一個包含很多變量( 10 - 15
)的巨大基數,人們問我:對於我們擁有的變量(年齡、性別等),是什么解釋了收入的增長或下降?
我通常會查看圖表並分析所有可能的情況,但我真的相信有更好的方法來做到這一點。
age sex business_unit year month revenue name
10-20 Male unit_1 2018 1 $100 chloe
20-30 Female unit_2 2019 2 $250 arnold
我在想是否有一種方法可以結合所有可能的變量並為我提供變化,例如:
age revenue
10-20 -$100 year over year
sex revenue
male -$200 year over year
age sex revenue
10-20 male -$50 year over year
以及所有其他可能的組合。 有沒有辦法做到這一點? 用 Python?
一個很好的工具來可視化每對變量之間的關系是“角”模塊。
這允許您繪制每個變量的分布並查看它們如何依賴於其他變量。 例如
https://corner.readthedocs.io/en/latest/pages/custom.html
使用“分位數”關鍵字,您可以在數據等上繪制第 16 個和第 84 個百分位數。
我建議在您的數據集上使用多元線性回歸模型
通過這樣做,你會得到應預測公式y
變量(可以說收入)的基礎上同所有其他變量y=c1*x1-c2*x2...
系數c
可以告訴你這個變量對y
影響有多大。 所以在revenue = 2*age + -0.5*sex...
年齡對收入有雙重影響,而性別有負面影響(比age
重要 4 倍)
如果您想要所有變量之間的所有關系,則必須運行 10 到 15 個模型,在每個模型中, y
將代表年齡、性別、收入等其他一些變量
您可以查看此鏈接以了解如何使用 python 實現它
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.