[英]Finding correlation between two data sets in R
更新的數據集2和1結構:抱歉,這次突然更新。 我有兩個數據集。 我的第一個數據集的結構是(當在R
使用print(matr1)
時):
month_year income
[1,] "Jan 2000" "30000"
[2,] "Feb 2000" "12364"
[3,] "Mar 2000" "37485"
[4,] "Apr 2000" "2000"
[5,] "Jun 2000" "7573"
. . .
. . .
因此,第一個數據集 在每年的每個月 都有 一個收入值 。
我的第二個數據集的結構是(當在R
使用print(matr2)
時):
month_year value
[1,] "Jan 2000" "84737476"
[2,] "Jan 2000" "39450334"
[3,] "Jan 2000" "48384943"
[4,] "Feb 2000" "12345678"
[5,] "Feb 2000" "49595340"
. . .
. . .
因此,在第二個數據集中,我每年的每個月都有n
(例如100,但並非始終恆定)。
這兩個數據集在隨后的很多年(例如,對於2000、2001等所有月份)都具有按月計算的值。 現在,我想找到這兩個數據集之間的相關性,但是要逐月而不是整體地。 當我使用R命令cor(as.numeric(matr1[,"income"]),as.numeric(matr2[,"value"]))
我得到了總體相關性,但是我希望每個月都具有相關性,而不是整個。 我想要這樣的關聯:
Jan | Feb | Mar | Apr | May | .....
Correlation x | y | z | p | q | .....
我的問題是:
注意:我不確定我應該在此處還是在Cross Validated
上發布此問題。 我已經針對該數據集發布了一個問題,該問題僅與獲取關聯時發生的錯誤有關,並且已從那里遷移到此處。 因此,如果我將其發布在錯誤的地方,請原諒。
UPDATE1:經過一些建議后,我修改了這篇文章,以指出正確的尺寸。 首先,目前的數據集采用矩陣格式,因此使用引號。 我可以按照一些評論的建議將其轉換為data.frame
,但是現在我一直在通過使用as.numeric
轉換列來計算相關性。
也許您可以嘗試:
dat1 <- structure(list(year = c(2000L, 2000L, 2000L, 2000L, 2000L, 2001L,
2001L, 2001L, 2001L, 2001L), month = c(1L, 2L, 3L, 4L, 5L, 1L,
2L, 3L, 4L, 5L), income = c(30000L, 12364L, 37485L, 2000L, 7573L,
25000L, 14364L, 38485L, 4000L, 7873L)), .Names = c("year", "month",
"income"), class = "data.frame", row.names = c(NA, -10L))
dat2 <- structure(list(month_year = c("Jan 2000", "Feb 2000", "Mar 2000",
"Apr 2000", "May 2000", "Jan 2001", "Feb 2001", "Mar 2001", "Apr 2001",
"May 2001"), value = c(84737476L, 39450334L, 48384943L, 12345678L,
49595340L, 84337476L, 34450334L, 48984943L, 124545678L, 49525340L
)), .Names = c("month_year", "value"), class = "data.frame", row.names = c(NA,
-10L))
dat1$month_year <- paste(month.abb[dat1$month], dat1$year)
dat1$month <- gsub(" \\d+","", dat1$month_year)
dat2$month <- gsub(" \\d+","", dat2$month_year)
dat1$indx <- with(dat1, ave(month, month, FUN=seq_along))
dat2$indx <- with(dat2, ave(month, month, FUN=seq_along))
dat1 <- dat1[,c(2,3,5)]
dat2 <- dat2[,c(3,2,4)]
colnames(dat2)[2] <- "income"
library(reshape2)
dat2C <- dcast(dat2, indx~month, value.var="income")
dat1C <- dcast(dat1, indx~month, value.var="income")
m1 <- as.matrix(dat1C[,-1])
m2 <- as.matrix(dat2C[,-1])
cor(m1,m2)
diag(cor(m1,m2))
# Apr Feb Jan Mar May
#1 -1 1 1 -1
另外,如果您可以將兩個數據集合並在一起,則可以使用data.table
來完成。 使用上面的dput()
數據
library(data.table)
dat1$month_year <- paste(month.abb[dat1$month], dat1$year)
dat1 <- dat1[,c(4,3)]
setDT(dat1)
setDT(dat2)
setkey(dat2, month_year)
dat2[dat1, income := i.income]
dat2[,month:= gsub(" \\d+", "", month_year)][,cor(value, income), by=month]
# month V1
#1: Apr 1
#2: Feb -1
#3: Jan 1
#4: Mar 1
#5: May -1
dat1 <- structure(list(month_year = structure(c(5L, 3L, 8L, 1L, 7L, 6L,
4L, 9L, 2L), .Label = c("Apr 2000", "Apr 2001", "Feb 2000", "Feb 2001",
"Jan 2000", "Jan 2001", "Jun 2000", "Mar 2000", "Mar 2001"), class = "factor"),
income = c(30000, 12364, 37485, 2000, 7573, 42000, 15764,
38465, 5000)), .Names = c("month_year", "income"), row.names = c(NA,
-9L), class = "data.frame")
dat2 <- structure(list(month_year = structure(c(5L, 5L, 5L, 3L, 3L, 7L,
7L, 7L, 1L, 1L, 6L, 6L, 4L, 4L, 8L, 8L, 2L, 2L, 2L, 2L), .Label = c("Apr 2000",
"Apr 2001", "Feb 2000", "Feb 2001", "Jan 2000", "Jan 2001", "Mar 2000",
"Mar 2001"), class = "factor"), value = c(84737476, 39450334,
48384973, 12345678, 49595340, 4534353, 43353325, 84333535, 35343232,
4334353, 3434353, 5355322, 5223345, 4523535, 345353, 32235, 423553,
233553, 423535, 884455)), .Names = c("month_year", "value"), row.names = c(NA,
-20L), class = "data.frame")
datN <- merge(dat1, dat2, all=T)
library(data.table)
DT <- data.table(datN)
DT[, month:= gsub(" \\d+", "", month_year)][,cor(value, income),by=month]
# month V1
#1: Apr -0.7136049
#2: Feb -0.7037676
#3: Jan -0.8637808
#4: Jun NA
#5: Mar -0.6484684
將您的數據放入帶有月份,值和收入列的數據框中。 例如:
d = data.frame(month=rep(1:12,5),value=runif(60,10000000,60000000), income=runif(60,5000,40000))
> head(d)
month value income
1 1 58348424 34478.63
2 2 59512513 16179.46
3 3 21844994 20961.56
4 4 25843593 38502.16
5 5 24805863 12397.32
6 6 24200966 24110.27
然后,就像使用dplyr
進行按月分組並進行匯總一樣簡單:
> require(dplyr)
> d %.% group_by(month) %.% summarize(cor = cor(value, income))
Source: local data frame [12 x 2]
month cor
1 1 0.17774478
2 2 -0.61693145
3 3 -0.05692027
4 4 -0.44966542
5 5 -0.30049386
6 6 0.09447414
7 7 0.67567298
8 8 0.14363810
9 9 -0.71899361
10 10 0.20807679
11 11 -0.42560100
12 12 0.23584150
從日期字符串中獲取月份號在許多其他地方都涉及...但是在這里,我將使用lubridate
軟件包。 對於第二個數據集中的月/年字符串,例如:
require(lubridate)
month(dmy(paste("01",dat2$month_year)))
返回月份號。 請注意在開頭加上“ 01”以使其成為有效日期的技巧。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.