簡體   English   中英

指標間相關性的機器學習算法

[英]Machine learning algorithm for correlation between indicators

我有一個數據集,其中包含與某些地理實體相關的多個指標,我想研究影響指標 A(在其他指標中)的因素。我需要確定哪些指標對其影響最大(相關性)我應該使用哪種 ML 算法我想要為我的指標 A 提供一種評分功能以允許其預測

在此處輸入圖像描述

您正在尋找的是相關系數,您有多種選擇,最常見的是:

  • 皮爾遜系數僅測量兩個變量之間的線性關系,請參閱 [Scipy 的實現]
  • 可以顯示非線性關系的斯皮爾曼系數,見Scipy 的實現

您還可以使用z 歸一化對數據進行歸一化,然后進行簡單的線性回歸 回歸系數可以讓您了解每個變量對結果的影響。 但是,這種方法對可能存在的多重共線性非常敏感,特別是如果您的變量是地理變量。

你能提供一個數據集的例子嗎? 離散變量還是連續變量? 你用的是哪個軟件?

無論如何,測試相關性的一種簡單方法(從某種意義上說無需進入 ML 算法)是通過創建數據矩陣來簡單地對選定特征或整個數據集執行 Pearson 或 Spearman 相關系數。 您可以在 Python 中使用 NumPy(請參閱 )或在 R(請參閱)中執行此操作。

您還可以使用簡單的線性回歸或邏輯/多項邏輯回歸(取決於數據的性質)來量化其他特征對目標變量的影響。 請記住,“相關性不是因果關系。看看這里看看一些模型。

然后取決於您的分析對象是聚合所有地理點的所有特征還是為與地理點相關的每個觀測“子集”創建協方差矩陣。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM