![](/img/trans.png)
[英]R: split a data-frame, apply a function to all row-pairs in each subset
[英]Split a data frame in R and apply function to each part
我有一个包含 5 列和数千行的大数据框。 数据框“d”如下所示:
Material Input_Wt Price
1 10 13
3 6 18
1 9 12
2 12 15
3 4 8
1 14 10
我需要对数据进行回归,以预测每种材料在不同输入权重下的价格。 要应用的回归技术取决于唯一材料编号的记录数。 所以我需要处理与唯一材料编号有关的所有记录。 一起。
所以我根据物料号拆分数据。 进入多个 csv 文件并使用代码将它们保存在工作目录中:
SPLIT.DATA <- split(d, d$Material, drop = FALSE)
lapply(names(SPLIT.DATA), function(nm)
write.csv(SPLIT.DATA[[nm]], paste0(nm, ".csv"), row.names = FALSE, quote = FALSE))
这些文件看起来像:
Material Input_Wt Price
1 10 13
1 9 12
1 14 10
Material Input_Wt Price
2 12 15
Material Input_Wt Price
3 6 18
3 4 8
然后,我使用以下命令将所有这些文件调用到列表中的 R 上:
fileNames <- Sys.glob("*.csv")
并分别对它们每个应用 function 并将 output 附加在单个文件中:
for (fileName in fileNames){
inp = read.csv(fileName,header = TRUE,sep = ",")
if (nrow(inp)==3){
print(RandomForest())
}else if (nrow(inp)==2){
print(KNN())
}else if (nrow(inp)==1){
print("Insufficient Data")
}
}
'KNN' 和 'RandomForest' 是我定义的独立函数。
我最终得到了所需的 output 为:
Material Input_Wt Price Predicted_Price
1 10 13 14.5
1 9 12 13.8
1 14 10 9.2
2 12 15 16.1
3 6 18 17.5
3 4 8 9.7
这里的问题是这种方式效率不高。 我首先必须将数据帧拆分并写入多个 csv 文件,然后将它们一个一个调用到 R 以再次处理它们。
有没有办法可以直接完成整个过程而无需将数据帧写入 csv 文件并再次调用它们?
您的标题是by
(面向对象的tapply
包装器)的基本定义,与split
不同,它维护一个 function 参数。 考虑定义一个接收数据帧作为参数的 function 并使用by
调用它。
my_func <- function(inp){
if (nrow(inp)==3){
obj <- RandomForest()
}else if (nrow(inp)==2){
obj <- KNN()
}else if (nrow(inp)==1){
obj <- "Insufficient Data"
}
print(obj)
return(obj)
}
obj_list <- by(df, df$Material, my_func)
不要拆分您的 dataframe,只需使用子集语句:
df[df$Material == 1,]
subset(df, df$Material == 1)
或使用 package dplyr
:
df %>%
filter(Material == 1)
如果您想根据每组的条目数应用 function 尝试类似
df %>%
group_by(Material) %>%
mutate(Predicated_Price=case_when(n() == 3 ~ "RandomForest()",
n() == 2 ~ "KNN()",
n() == 1 ~ "Insufficient Data"))
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.