繁体   English   中英

在R中读入多个不同布局的Excel文件

[英]Read in Multiple Excel Files with Different Layouts in R

我收集了十几个 excel 文件,我正在使用以下代码读取 R 中的数据帧列表:

data_path <- "path"
files <- dir(data_path, pattern = "*.xlsx")

data <- files %>%
  map(~readWorkbook(file.path(data_path, .), sheet = "Results"))

这抓住了一切没有问题。 问题是我需要它们都以相同的格式进行进一步操作,并且由于非通用布局,一些是这样导入的:

X1     2016     2017     2018
y       12       12       12

和其他这样的:

Result
y         2016       2017       2018
x          12         12         12

原因是因为一些 excel 文件被转发给我,顶部有一个额外的行,带有字符串字符“结果”

现在我可以通过对每个人进行直接手术来解决这个问题:

names(data) <- rbind(data[1,])
names(data)[1] <- "X1"
data <- data[-c(1),]

但这似乎是一个相当丑陋的黑客解决方案,会导致自动化问题。 有没有办法使用 readWorkbook() function 但指定跳过包含某些值的行?

例如,也许是这样的:

if value equal to 'Result' {
  skipRow()
}

或者在数据框中搜索日期行并将其用作列名?

所以,我能想到的最简单的解决方案是这样的。

首先,使用colNames = FALSE导入xlsx文件,如下所示:

data <- files %>%
  map(~readWorkbook(file.path(getwd(), .), sheet = "Sheet1", colNames = FALSE))

现在您需要做的就是 - 如果第一行在第一列中包含“结果”,则删除第一行- 将每个xlsx文件分配给它自己的数据框(可选) - 为每个文件设置列名(可选)

这可以这样做:

for(i in 1:length(data)){
  data[[i]] %<>% filter(X1 != "Result") #Alternatively data[[i]] <- data[[i]] %>% filter(X1 != "Result")
  assign(paste0("FileName", i), as.data.frame(data[[i]]))
  names(paste0("FileName", i)) <- c("Names", "For", "Your", "Columns")
}

请注意在 for 循环内的第一条语句中使用了反向 pipe %<>% (来自 package magrittr )。

注意:这将删除第一列中包含字符串“Result”的所有行。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM