簡體   English   中英

R相關系數獲取困難

[英]R Trouble getting correlation coefficient

我在獲取數據集相關系數的過程中遇到了困難。 我先使用ggpairs ,然后使用cor函數。

聽起來可能缺乏知識,但我沒有意識到我無法為非數字類型的列計算相關性。 例如,我現在想了解一些年齡和城市之間的關系。 對於這種情況,我有什么選擇? 還是我應該做什么數據轉換?

謝謝。

正如thelatemail所說的,有時候圖表所講的不僅僅只是一種統計數據。

cities <- c("Montreal", "Toronto", "New York", "Plattsburgh")
dat <- data.frame(city = sample(cities,size = 200, replace = TRUE), age = rnorm(n = 200, mean = 40, sd = 20))
dat$city <- as.factor(dat$city)
plot(age ~ city, data = dat)

然后,為了進行適當的分析,您有幾種選擇...方差分析,或將城市作為回歸變量(因子)的回歸...盡管您的問題可能對“交叉驗證”有更好的回答!

順便說一句:請只是忽略負面年齡,這已經很快完成了。

在此處輸入圖片說明

我認為您首先需要回答您要做什么的問題。 相關系數(Pearson的r)是可以根據兩個數值(其中二分變量可以視為數值)計算的特定統計量。 它具有一些特殊的特征,包括以-1和1為界,並且沒有因變量或自變量的概念。 同樣,它也不代表所解釋的方差的比例; 您需要對其求平方以得到通常的度量。 它的作用是為您估計兩個變量之間關聯的大小和方向。

這些特性使得在將諸如city這樣的變量作為兩個變量之一的情況下,不宜使用r。 如果您想了解由城市解釋的年齡變化的比例,可以對城市的一組虛擬變量進行年齡回歸,並查看模型的總體R平方。 但是,與r不同,您不會有一個簡單的方向(每個城市都只有一個方向),並且不一定與建立基於年齡的城市預測模型時的方向相同。

關於諸如City之類的定性數據,您可以使用Spearman的相關性。

您可以在此處找到有關此關聯的更多信息

可以通過以下命令在R中簡單地使用它:

cor(x,use =,method =)

因此,如果您想在一個簡單的示例中使用它:

cor(AGE,CITY,method =“ Spearman”)

希望對您有幫助

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM