[英]How to apply a function that works with data.frame cells to data.frame columns
這個問題是我認為我以不明確的方式提出的先前問題的改編。 我正在檢查列V1和V2是否按行有共同的代碼。 代碼由正斜杠“/”分隔。 下面的函數應該從V1獲取一個單元格,在同一行上從V2獲取一個單元格,並將其轉換為向量。 向量的每個元素都是一個代碼。 然后該函數應檢查所獲得的兩個向量是否具有共同的元素。 這些元素最初是4位代碼。 如果在兩個向量之間存在任何匹配的4位代碼,則該函數應返回4.如果沒有共同的元素,則該函數應減少每個代碼的位數,然后再次檢查。 每次該函數減少位數時,它也會減少最后返回的分數。 我希望函數返回的值寫在我選擇的列中。
這是我的起始條件
structure(list(ID = c(2630611040, 2696102020, 2696526020), V1 = c("7371/3728",
"2834/2833/2836/5122/8731", "3533/3541/3545/5084"), V2 = c("7379",
"3841", "3533/3532/3531/1389/8711")), .Names = c("ID", "V1",
"V2"), class = "data.frame", row.names = c(NA, 3L))
ID V1 V2
1 2630611040 7371/3728 7379
2 2696102020 2834/2833/2836/5122/8731 3841
3 2696526020 3533/3541/3545/5084 3533/3532/3531/1389/8711
我想得到這個
ID V1 V2 V3
1 2630611040 7371/3728 7379 3
2 2696102020 2834/2833/2836/5122/8731 3841 0
3 2696526020 3533/3541/3545/5084 3533/3532/3531/1389/8711 4
我的功能是這個
coderelat<-function(a, b){
a<-unique(as.integer(unlist(str_split(a, "/")))) #Transforming cells into vectors of codes
b<-unique(as.integer(unlist(str_split(b, "/"))))
a<-a[!is.na(a)]
b<-b[!is.na(b)]
if (length(a)==0 | length(b)==0) { # Check that both cells are not empty
ir=NA
return(ir)
} else {
for (i in 3:1){
diff<-intersect(a, b) # See how many products the shops have in common
if (length(diff)!=0) { #As you find a commonality, give ir the corresponding scoring
ir=i+1
break
} else if (i==1 & length(diff)==0) { #If in the last cycle, there is still no commonality put ir=0
ir=0
break
} else { # If there is no commonality and you are not in the last cycle, reduce the nr. of digits and re-check commonality again
a<- unique(as.integer(substr(as.character(a), 1, i)))
b<- unique(as.integer(substr(as.character(b), 1, i)))
}
}
}
return(ir)
}
當我手動提供單個單元格時,該功能有效。 但是當我寫這樣的東西時,它不起作用:
df$V4<-coderelat(df$V1, df$V2)
我非常感謝任何幫助,因為我不知道如何使這項工作。
提前謝謝了。 里卡多
這是使用data.tables的解決方案。
get.match <-function(a,b) {
A <- unique(strsplit(a,"/",fixed=TRUE)[[1]])
B <- unique(strsplit(b,"/",fixed=TRUE)[[1]])
for (i in 4:1) if(length(intersect(substr(A,1,i),substr(B,1,i)))>0) return(i)
return(0L)
}
library(data.table)
setDT(df)[,V3:=get.match(V1,V2),by=ID]
df
# ID V1 V2 V3
# 1: 2630611040 7371/3728 7379 3
# 2: 2696102020 2834/2833/2836/5122/8731 3841 0
# 3: 2696526020 3533/3541/3545/5084 3533/3532/3531/1389/8711 4
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.