繁体   English   中英

R相关系数获取困难

[英]R Trouble getting correlation coefficient

我在获取数据集相关系数的过程中遇到了困难。 我先使用ggpairs ,然后使用cor函数。

听起来可能缺乏知识,但我没有意识到我无法为非数字类型的列计算相关性。 例如,我现在想了解一些年龄和城市之间的关系。 对于这种情况,我有什么选择? 还是我应该做什么数据转换?

谢谢。

正如thelatemail所说的,有时候图表所讲的不仅仅只是一种统计数据。

cities <- c("Montreal", "Toronto", "New York", "Plattsburgh")
dat <- data.frame(city = sample(cities,size = 200, replace = TRUE), age = rnorm(n = 200, mean = 40, sd = 20))
dat$city <- as.factor(dat$city)
plot(age ~ city, data = dat)

然后,为了进行适当的分析,您有几种选择...方差分析,或将城市作为回归变量(因子)的回归...尽管您的问题可能对“交叉验证”有更好的回答!

顺便说一句:请只是忽略负面年龄,这已经很快完成了。

在此处输入图片说明

我认为您首先需要回答您要做什么的问题。 相关系数(Pearson的r)是可以根据两个数值(其中二分变量可以视为数值)计算的特定统计量。 它具有一些特殊的特征,包括以-1和1为界,并且没有因变量或自变量的概念。 同样,它也不代表所解释的方差的比例; 您需要对其求平方以得到通常的度量。 它的作用是为您估计两个变量之间关联的大小和方向。

这些特性使得在将诸如city这样的变量作为两个变量之一的情况下,不宜使用r。 如果您想了解由城市解释的年龄变化的比例,可以对城市的一组虚拟变量进行年龄回归,并查看模型的总体R平方。 但是,与r不同,您不会有一个简单的方向(每个城市都只有一个方向),并且不一定与建立基于年龄的城市预测模型时的方向相同。

关于诸如City之类的定性数据,您可以使用Spearman的相关性。

您可以在此处找到有关此关联的更多信息

可以通过以下命令在R中简单地使用它:

cor(x,use =,method =)

因此,如果您想在一个简单的示例中使用它:

cor(AGE,CITY,method =“ Spearman”)

希望对您有帮助

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM