通過部分匹配R中的rownames來聚合數據框中的值

Question

我正在努力解決以下問題，但不要躲避：

d <- data.frame(value = 1:4, row.names = c("abc", "abcd", "ef", "gh"))
     value
abc      1
abcd     2
ef       3
gh       4

l <- nrow(d)
wordmat <- matrix(rep(NA, l^2), l, l, dimnames = list(row.names(d), row.names(d)))
for (i in 1:ncol(wordmat)) {
   rid <- agrep(colnames(wordmat)[i], rownames(wordmat), max = 0)
   d$matchid[i] <- paste(rid, collapse = ";") 
   }

# desired output:
(d_agg <- data.frame(value = c(3, 3, 4), row.names = c("abc;abcd", "ef", "gh")))
         value
abc;abcd     3
ef           3
gh           4

有這個功能嗎？

Answer 1

這適用於您的示例，但可能需要調整真實的東西：

d <- data.frame(value = 1:4, row.names = c("abc", "abcd", "ef", "gh"))
rowclust <- hclust(as.dist(adist(rownames(d))), method="single")
rowgroups <- cutree(rowclust, h=1.5)
rowagg <- aggregate(d, list(rowgroups), sum)
rowname <- unclass(by(rownames(d), rowgroups, paste, collapse=";"))
rownames(rowagg) <- rowname
rowagg
         Group.1 value
abc;abcd       1     3
ef             2     3
gh             3     4

Answer 2

這是一個可能的解決方案，您可以根據自己的需要進行修改。

一些說明：

我無法弄清楚如何直接處理rownames() ，特別是在最后階段，所以這取決於你將行名稱復制為新變量。
下面的函數“硬編碼”變量名稱，函數等。 也就是說， 它絕不是一個通用函數 ，而是在你進一步研究這個問題時可能有用的函數。

這是功能。

matches <- function(data, ...) {
  temp = vector("list", nrow(data))
  for (i in 1:nrow(data)) {
    temp1 = agrep(data$RowNames[i], data$RowNames, value = TRUE, ...)
    temp[[i]] = data.frame(RowNames = paste(temp1, collapse = "; "),
                           value = sum(data[temp1, "value"]))
  }
  temp = do.call(rbind, temp)
  temp[!duplicated(temp$RowNames), ]
}

請注意，該函數需要一個名為RowNames的列，因此我們將創建該列，然后測試該函數。

d <- data.frame(value = 1:4, row.names = c("abc", "abcd", "ef", "gh"))
d$RowNames <- rownames(d)
matches(d)
#    RowNames value
# 1 abc; abcd     3
# 3        ef     3
# 4        gh     4
matches(d, max.distance = 2)
#            RowNames value
# 1         abc; abcd     3
# 3 abc; abcd; ef; gh    10
matches(d, max.distance = 4)
#            RowNames value
# 1 abc; abcd; ef; gh    10

通過部分匹配R中的rownames來聚合數據框中的值

問題描述

2 個解決方案

解決方案1
1 2012-09-26 17:07:14

解決方案2
1 已采納 2012-09-26 17:32:01

通過部分匹配R中的rownames來聚合數據框中的值

問題描述

2 個解決方案

解決方案1 1 2012-09-26 17:07:14

解決方案2 1 已采納 2012-09-26 17:32:01

解決方案1
1 2012-09-26 17:07:14

解決方案2
1 已采納 2012-09-26 17:32:01