繁体   English   中英

在 R 中拆分一个数据帧并将 function 应用于每个部分

[英]Split a data frame in R and apply function to each part

我有一个包含 5 列和数千行的大数据框。 数据框“d”如下所示:

Material  Input_Wt  Price
   1        10       13
   3         6       18
   1         9       12
   2        12       15
   3         4        8
   1        14       10

我需要对数据进行回归,以预测每种材料在不同输入权重下的价格。 要应用的回归技术取决于唯一材料编号的记录数。 所以我需要处理与唯一材料编号有关的所有记录。 一起。

所以我根据物料号拆分数据。 进入多个 csv 文件并使用代码将它们保存在工作目录中:

SPLIT.DATA <- split(d, d$Material, drop = FALSE)

lapply(names(SPLIT.DATA), function(nm)
write.csv(SPLIT.DATA[[nm]], paste0(nm, ".csv"), row.names = FALSE, quote = FALSE))

这些文件看起来像:

Material  Input_Wt  Price
   1         10       13
   1          9       12
   1         14       10

Material  Input_Wt  Price
   2         12       15 

Material  Input_Wt  Price
   3         6        18
   3         4         8

然后,我使用以下命令将所有这些文件调用到列表中的 R 上:

fileNames <- Sys.glob("*.csv")

并分别对它们每个应用 function 并将 output 附加在单个文件中:

for (fileName in fileNames){
  inp = read.csv(fileName,header = TRUE,sep = ",")
  if (nrow(inp)==3){
    print(RandomForest())
  }else if (nrow(inp)==2){
    print(KNN())
  }else if (nrow(inp)==1){
    print("Insufficient Data")
  }
}

'KNN' 和 'RandomForest' 是我定义的独立函数。

我最终得到了所需的 output 为:

Material  Input_Wt  Price Predicted_Price
   1         10       13       14.5
   1          9       12       13.8
   1         14       10        9.2
   2         12       15       16.1
   3         6        18       17.5
   3         4         8        9.7

这里的问题是这种方式效率不高。 我首先必须将数据帧拆分并写入多个 csv 文件,然后将它们一个一个调用到 R 以再次处理它们。

有没有办法可以直接完成整个过程而无需将数据帧写入 csv 文件并再次调用它们?

您的标题是by (面向对象的tapply包装器)的基本定义,与split不同,它维护一个 function 参数。 考虑定义一个接收数据帧作为参数的 function 并使用by调用它。

my_func <- function(inp){
  if (nrow(inp)==3){
    obj <- RandomForest()
  }else if (nrow(inp)==2){
    obj <- KNN()
  }else if (nrow(inp)==1){
    obj <- "Insufficient Data"
  }
  print(obj)

  return(obj)
}

obj_list <- by(df, df$Material, my_func)

不要拆分您的 dataframe,只需使用子集语句:

df[df$Material == 1,]
subset(df, df$Material == 1)

或使用 package dplyr

df %>%
  filter(Material == 1)

如果您想根据每组的条目数应用 function 尝试类似

df %>%
  group_by(Material) %>%
  mutate(Predicated_Price=case_when(n() == 3 ~ "RandomForest()",
                                    n() == 2 ~ "KNN()",
                                    n() == 1 ~ "Insufficient Data"))

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM