R中分組數據的計算

Question

我堅持R中的以下問題，並希望有人有一個快速的解決方案。

我有兩組數據，A和B，其中A包含控制組的數據，B包含案例組。 我為每個組都有相同變量的度量。 在A和B中是子組 - 並且它們在某些情況下在A和B之間配對 - 假設它們是兄弟姐妹，其中一個或多個可以是一個案例而一個或多個控件。
數據看起來像這樣：

集A：

Source  Area    group   pch pch2    col col2    group2  
R1-1    1983447     1   0     16    1      1    1   
R1-3    1400362     1   0     16    1      1    1
R3-4    2834393     2   1     16    2      2    1
R4-2    2232820     3   2     16    3      3    1   
R4-5    1713796     3   2     16    3      3    1   
R4-6    1525740     3   2     16    3      3    1   
R4-7    1182300     3   2     16    3      3    1

SET B：

Source  Area    group   pch pch2    col col2    group2
R1-2    1246124     1   0     16    1      1    2
R3-1    1627610     2   1     16    2      2    2
R3-2    1401600     2   1     16    2      2    2
R4-1    1367146     3   2     16    3      3    2
R4-3    1764125     3   2     16    3      3    2
R4-4    1299864     3   2     16    3      3    2

來源是ID，區域是感興趣的變量，組是組，其余是此處不感興趣的其他變量。
我想要做的是計算集合B中每個個體的相對面積 - 即，相對於集合A中兄弟姐妹的平均面積。我希望這個值在集合B中顯示為單獨的列（在以下示例中的relArea）。 因此輸出如下所示：

輸出（設定B）：

Source  Area    group   relArea pch pch2    col col2    group2
R1-2    1246124   1 0.736521476   0 16        1    1    2
R3-1    1627610   2 0.574235824   1 16        2    2    2
R3-2    1401600   2 0.494497411   1 16        2    2    2
R4-1    1367146   3 0.821768097   2 16        3    3    2
R4-3    1764125   3 1.06038539    2 16        3    3    2
R4-4    1299864   3 0.781326037   2 16        3    3    2

最后，如果集合B中的個體在集合A中沒有兄弟，那么他的relArea值將是相對於所有控制的平均面積的面積（即，集合A中的所有測量）。

任何有關這方面的幫助將非常感激。

謝謝，
比約恩

Answer 1

您可以使用aggregate計算集合A中每個組的平均面積，然后添加新列：

seta = read.table(text="Source  Area    group   pch pch2    col col2    group2  
  R1-1    1983447     1   0     16    1      1    1   
  R1-3    1400362     1   0     16    1      1    1
  R3-4    2834393     2   1     16    2      2    1
  R4-2    2232820     3   2     16    3      3    1   
  R4-5    1713796     3   2     16    3      3    1   
  R4-6    1525740     3   2     16    3      3    1   
  R4-7    1182300     3   2     16    3      3    1  ", header=T)
setb = read.table(text="Source  Area    group   pch pch2    col col2    group2
  R1-2    1246124     1   0     16    1      1    2
  R3-1    1627610     2   1     16    2      2    2
  R3-2    1401600     2   1     16    2      2    2
  R4-1    1367146     3   2     16    3      3    2
  R4-3    1764125     3   2     16    3      3    2
  R4-4    1299864     3   2     16    3      3    2", header=T)
grouped.area = aggregate(seta$Area, by=list(group=seta$group), mean)
setb$relArea = setb$Area / grouped.area$x[match(setb$group, grouped.area$group)]
setb$relArea
# [1] 0.7365215 0.5742358 0.4944974 0.8217681 1.0603854 0.7813260

R中分組數據的計算

問題描述

1 個解決方案

解決方案1
3 已采納 2014-02-10 17:47:11

R中分組數據的計算

問題描述

1 個解決方案

解決方案1 3 已采納 2014-02-10 17:47:11

解決方案1
3 已采納 2014-02-10 17:47:11