如何在多個csv文件中獲取每一列的唯一值

Question

我對R比較陌生，請耐心等待。 我有50多個csv文件，希望遍歷每個文件並獲取每一列的唯一值。 它們都被格式化，第一行是標題。

理想的輸出將是一個數據幀，指示每個csv的文件名，列標題和唯一值。 這些是每一列的唯一值，一次是一個，而不是列組合的唯一性。

任何幫助將不勝感激！

這是我如何獲取唯一值的列表，但是我不確定下一步該怎么做：

lapply(files, function(x) {
  t <- read.csv(x, header=TRUE) # load file
  unq <- apply(t, 2, unique)
})

Answer 1

這應該可以解決問題：

do.call(rbind, lapply(files, function(x) {
  dat <- read.csv(x, header=TRUE)
  do.call(rbind, lapply(seq(ncol(dat)), function(idx) {
    data.frame(filename=x, column=colnames(dat)[idx],
               value=unique(dat[,idx]))
  }))
}))

外部lapply為每個文件x返回一個數據幀，內部lapply為x每個編號為idx列返回一個數據幀。

如何在多個csv文件中獲取每一列的唯一值

問題描述

1 個解決方案

解決方案1
2 已采納 2014-05-15 19:45:16

如何在多個csv文件中獲取每一列的唯一值

問題描述

1 個解決方案

解決方案1 2 已采納 2014-05-15 19:45:16

解決方案1
2 已采納 2014-05-15 19:45:16