[英]How to Generate Correlation Matrix Between Variables in R for Panel Data?
我一直在嘗試確定面板數據中變量之間的相關性。 使用基本 cor() 函數不考慮固定效果。 我的數據采用以下形式(具有更多實體、年份和變量,x 的某些值為 0):
實體 | 年 | 變量1 | 變量2 | 變量3 |
---|---|---|---|---|
1 | 2000 | X | X | X |
1 | 2001年 | X | X | X |
1 | 2002年 | X | X | X |
2 | 2000 | X | X | X |
2 | 2001年 | X | X | X |
2 | 2002年 | X | X | X |
3 | 2000 | X | X | X |
3 | 2001年 | X | X | X |
3 | 2002年 | X | X | X |
我曾嘗試使用 plm 包和 cortab 函數,但它似乎找到了同一變量的實體組之間的相關性。 我在網上找到的其他解決方案似乎無法正確計算相關性。
輸出應如下所示:
變量1 | 變量2 | 變量3 | |
---|---|---|---|
變量1 | X | X | X |
變量2 | X | X | X |
變量3 | X | X | X |
我使用的數據是平衡的,計划是在各種數據集上使用腳本,不同的腳本會刪除非數字值並確保它是這種格式。
大多數相關方法只會找到兩個變量列之間的相關性。 但是,這可能會導致我的目的計算錯誤。 在屏幕截圖中,當查看單個實體時,Var1 和 Var2 的相關性為 1。 但是,當使用正態相關方法時,它會返回不同的結果。 我正在使用的數據集之一有 240k 數據點,因此這個問題將導致大樣本中的結果嚴重錯誤。 雖然我可以嘗試計算實體內的每個相關性並將它們平均,但我認為這不是最佳實踐,並且希望為面板數據找到正確的方法。
您可以為此使用modelsummary::datasummary_correlation()
,例如
df %>% select(var1:var3) %>% modelsummary::datasummary_correlation()
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.