在 R 中拆分一个数据帧并将 function 应用于每个部分

Question

我有一个包含 5 列和数千行的大数据框。 数据框“d”如下所示：

Material  Input_Wt  Price
   1        10       13
   3         6       18
   1         9       12
   2        12       15
   3         4        8
   1        14       10

我需要对数据进行回归，以预测每种材料在不同输入权重下的价格。 要应用的回归技术取决于唯一材料编号的记录数。 所以我需要处理与唯一材料编号有关的所有记录。 一起。

所以我根据物料号拆分数据。 进入多个 csv 文件并使用代码将它们保存在工作目录中：

SPLIT.DATA <- split(d, d$Material, drop = FALSE)

lapply(names(SPLIT.DATA), function(nm)
write.csv(SPLIT.DATA[[nm]], paste0(nm, ".csv"), row.names = FALSE, quote = FALSE))

这些文件看起来像：

Material  Input_Wt  Price
   1         10       13
   1          9       12
   1         14       10

Material  Input_Wt  Price
   2         12       15 

Material  Input_Wt  Price
   3         6        18
   3         4         8

然后，我使用以下命令将所有这些文件调用到列表中的 R 上：

fileNames <- Sys.glob("*.csv")

并分别对它们每个应用 function 并将 output 附加在单个文件中：

for (fileName in fileNames){
  inp = read.csv(fileName,header = TRUE,sep = ",")
  if (nrow(inp)==3){
    print(RandomForest())
  }else if (nrow(inp)==2){
    print(KNN())
  }else if (nrow(inp)==1){
    print("Insufficient Data")
  }
}

'KNN' 和 'RandomForest' 是我定义的独立函数。

我最终得到了所需的 output 为：

Material  Input_Wt  Price Predicted_Price
   1         10       13       14.5
   1          9       12       13.8
   1         14       10        9.2
   2         12       15       16.1
   3         6        18       17.5
   3         4         8        9.7

这里的问题是这种方式效率不高。 我首先必须将数据帧拆分并写入多个 csv 文件，然后将它们一个一个调用到 R 以再次处理它们。

有没有办法可以直接完成整个过程而无需将数据帧写入 csv 文件并再次调用它们？

Answer 1

您的标题是by （面向对象的tapply包装器）的基本定义，与split不同，它维护一个 function 参数。 考虑定义一个接收数据帧作为参数的 function 并使用by调用它。

my_func <- function(inp){
  if (nrow(inp)==3){
    obj <- RandomForest()
  }else if (nrow(inp)==2){
    obj <- KNN()
  }else if (nrow(inp)==1){
    obj <- "Insufficient Data"
  }
  print(obj)

  return(obj)
}

obj_list <- by(df, df$Material, my_func)

Answer 2

不要拆分您的 dataframe，只需使用子集语句：

df[df$Material == 1,]
subset(df, df$Material == 1)

或使用 package dplyr ：

df %>%
  filter(Material == 1)

如果您想根据每组的条目数应用 function 尝试类似

df %>%
  group_by(Material) %>%
  mutate(Predicated_Price=case_when(n() == 3 ~ "RandomForest()",
                                    n() == 2 ~ "KNN()",
                                    n() == 1 ~ "Insufficient Data"))

在 R 中拆分一个数据帧并将 function 应用于每个部分

问题描述

2 个解决方案

解决方案1
1 2020-06-14 00:31:06

解决方案2
0 2020-06-13 23:54:24

在 R 中拆分一个数据帧并将 function 应用于每个部分

问题描述

2 个解决方案

解决方案1 1 2020-06-14 00:31:06

解决方案2 0 2020-06-13 23:54:24

解决方案1
1 2020-06-14 00:31:06

解决方案2
0 2020-06-13 23:54:24