簡體   English   中英

如何在 R 中為面板數據生成變量之間的相關矩陣?

[英]How to Generate Correlation Matrix Between Variables in R for Panel Data?

我一直在嘗試確定面板數據中變量之間的相關性。 使用基本 cor() 函數不考慮固定效果。 我的數據采用以下形式(具有更多實體、年份和變量,x 的某些值為 0):

實體 變量1 變量2 變量3
1 2000 X X X
1 2001年 X X X
1 2002年 X X X
2 2000 X X X
2 2001年 X X X
2 2002年 X X X
3 2000 X X X
3 2001年 X X X
3 2002年 X X X

我曾嘗試使用 plm 包和 cortab 函數,但它似乎找到了同一變量的實體組之間的相關性。 我在網上找到的其他解決方案似乎無法正確計算相關性。

輸出應如下所示:

變量1 變量2 變量3
變量1 X X X
變量2 X X X
變量3 X X X

我使用的數據是平衡的,計划是在各種數據集上使用腳本,不同的腳本會刪除非數字值並確保它是這種格式。

簡單方法示例

大多數相關方法只會找到兩個變量列之間的相關性。 但是,這可能會導致我的目的計算錯誤。 在屏幕截圖中,當查看單個實體時,Var1 和 Var2 的相關性為 1。 但是,當使用正態相關方法時,它會返回不同的結果。 我正在使用的數據集之一有 240k 數據點,因此這個問題將導致大樣本中的結果嚴重錯誤。 雖然我可以嘗試計算實體內的每個相關性並將它們平均,但我認為這不是最佳實踐,並且希望為面板數據找到正確的方法。

您可以為此使用modelsummary::datasummary_correlation() ,例如

df %>% select(var1:var3) %>% modelsummary::datasummary_correlation()

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM