在data.frame列中子集和計數值

Question

我有一個長度為100000的data.frame。現在，我想計算該子集中正負值的不同data.frame長度（水平在0.01到0.99之間）。

> dput(sumDF[1:100])
structure(c(3000, 2000, 5000, 4000, 1000, 4000, 0, 3000, 4000, 
2000, 2000, 3000, 1000, -3000, 2000, 0, 4000, 1000, 1000, 2000, 
2000, 2000, 2000, 1000, 3000, 1000, 4000, 3000, 2000, 3000, 1000, 
1000, 4000, 2000, 0, 1000, 2000, 5000, 3000, 3000, 0, 2000, 2000, 
3000, 1000, -1000, 2000, 1000, 2000, 3000, 2000, 3000, 2000, 
2000, 2000, 2000, 3000, 3000, 3000, 2000, 3000, 3000, 1000, 3000, 
1000, 2000, 1000, -1000, 0, 2000, 2000, 3000, 0, 3000, 2000, 
2000, 5000, 3000, 2000, 1000, 3000, 3000, 4000, 1000, 2000, 2000, 
3000, 0, 3000, 1000, 0, 4000, 4000, 2000, 3000, 0, 2000, 4000, 
0, 0), .Names = c("modelOutcome1", "modelOutcome2", "modelOutcome3", 
"modelOutcome4", "modelOutcome5", "modelOutcome6", "modelOutcome7", 
"modelOutcome8", "modelOutcome9", "modelOutcome10", "modelOutcome11", 
"modelOutcome12", "modelOutcome13", "modelOutcome14", "modelOutcome15", 
"modelOutcome16", "modelOutcome17", "modelOutcome18", "modelOutcome19", 
"modelOutcome20", "modelOutcome21", "modelOutcome22", "modelOutcome23", 
"modelOutcome24", "modelOutcome25", "modelOutcome26", "modelOutcome27", 
"modelOutcome28", "modelOutcome29", "modelOutcome30", "modelOutcome31", 
"modelOutcome32", "modelOutcome33", "modelOutcome34", "modelOutcome35", 
"modelOutcome36", "modelOutcome37", "modelOutcome38", "modelOutcome39", 
"modelOutcome40", "modelOutcome41", "modelOutcome42", "modelOutcome43", 
"modelOutcome44", "modelOutcome45", "modelOutcome46", "modelOutcome47", 
"modelOutcome48", "modelOutcome49", "modelOutcome50", "modelOutcome51", 
"modelOutcome52", "modelOutcome53", "modelOutcome54", "modelOutcome55", 
"modelOutcome56", "modelOutcome57", "modelOutcome58", "modelOutcome59", 
"modelOutcome60", "modelOutcome61", "modelOutcome62", "modelOutcome63", 
"modelOutcome64", "modelOutcome65", "modelOutcome66", "modelOutcome67", 
"modelOutcome68", "modelOutcome69", "modelOutcome70", "modelOutcome71", 
"modelOutcome72", "modelOutcome73", "modelOutcome74", "modelOutcome75", 
"modelOutcome76", "modelOutcome77", "modelOutcome78", "modelOutcome79", 
"modelOutcome80", "modelOutcome81", "modelOutcome82", "modelOutcome83", 
"modelOutcome84", "modelOutcome85", "modelOutcome86", "modelOutcome87", 
"modelOutcome88", "modelOutcome89", "modelOutcome90", "modelOutcome91", 
"modelOutcome92", "modelOutcome93", "modelOutcome94", "modelOutcome95", 
"modelOutcome96", "modelOutcome97", "modelOutcome98", "modelOutcome99", 
"modelOutcome100"))
> levels <- c(0.01, 0.05, 0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9, 0.95, 0.99)
> levelLength <- length(sumDF) * levels
> levelLength
 [1]  1000  5000 10000 20000 30000 40000 50000 60000 70000 80000 90000 95000 99000

我的問題是我得到了“ data.frame”應該多長時間，但是我沒有得到data.frame中“獲勝者”和“失敗者”的數目。 因此，一維data.frame的值大於0（獲勝者），或者小於或等於0（失敗者）。

為了舉例說明，我的data.frame的長度為100000 。 在1％的水平上，它的長度只有1000 。 例如，從這1000個元素中，是800高於0，200低於或等於0。如何獲得800和200 ？

我嘗試了以下方法：

countWin <- length(sumDF[1:levelLength > 0])
Warning message:
In 1:levelLength : numerical expression has 13 elements: only the first used

有什么建議，如何從向量中僅獲取一定數量的元素？

感謝您的答復。

更新

例：

我的data.frame sumDF看起來像這樣：

> sumDF[1:3]
modelOutcome1 modelOutcome2 modelOutcome3 
         3000          2000          5000

我的data.frame sumDF的長度為100000

我想用以下級別長度將我的data.frame sumDF子集化。

> levelLength
 [1]  1000  5000 10000 20000 30000 40000 50000 60000 70000 80000 90000 95000 99000

因此，對於levelLength 1000，我想將sumDF從0子集到1000。

此外，在這個子集中，我想計算所有val >0 ，我的贏家，所有<=0 ，我的輸家。

我的最終data.frame應該看起來像這樣：

"levels" "winners" "losers"
0.01         900      100
0.05         2400     2600
0.10         6000     4000
0.20          .         .
0.30          .         .
0.40         
0.50         
0.60         
0.70         
0.80         
0.90         
0.95         
0.99

Answer 1

dput輸出是一個vector 。 要獲得小於0的值之sum ，

  sum(sumDF<0)
  #[1] 3

我們還可以使用table來獲得失敗者和獲勝者的頻率

  table(sumDF <0)
  #FALSE  TRUE 
  # 97     3

如果我們有一個data.frame或matrix

  colSums(sumDF <0)

不確定我是否了解最近的編輯，也許在cut對象切成不同的容器后，我們會得到'sumDF'的頻率。 使用cut ，我們可以通過指定breaks來獲得這些組。

   levellength <-  c(1, 5, seq(10, 90, by=10), 95, 99)
   tbl <- table(cut(sumDF, breaks=levellength), sumDF)

假設，如果我們需要得到的累計總和為一組，使用cumsum通過與“TBL”的列循環后apply 。

   tbl1 <- apply(tbl, 2, cumsum)

標簽（ rownames ）可以通過更改sub匹配后面的括號（數字( ），與1更換。

   rownames(tbl1) <- sub('(?<=\\()\\d+', '1', rownames(tbl1), perl=TRUE)
   tbl1
   #    sumDF
   #       -3000 -1000 0 1000 2000 3000 4000 5000
   #(1,5]      0     0 0    0    0    0    0    0
   #(1,10]     0     0 0    0    0    0    0    0
   #(1,20]     0     0 0    0    0    0    0    0
   #(1,30]     0     0 0    0    0    0    0    0
   #(1,40]     0     0 0    0    0    0    0    0
   #(1,50]     0     0 0    0    0    0    0    0
   #(1,60]     0     0 0    0    0    0    0    0
   #(1,70]     0     0 0    0    0    0    0    0
   #(1,80]     0     0 0    0    0    0    0    0
   #(1,90]     0     0 0    0    0    0    0    0
   #(1,95]     0     0 0    0    0    0    0    0
   #(1,99]     0     0 0    0    0    0    0    0

注意：根據dput示例，頻率全為0。

我們還可以通過使用labels參數在cut本身內更改labels 。 我們創建一個自定義標簽（'lvls'），並在cut使用它。 除此之外，下面的代碼與上面的類似。

  lvls <- paste0('(', '1,', c(5,seq(10,90, by=10), 95, 99), ']')
  tbl <- table(sumDF, cut(sumDF, breaks=levellength, labels=lvls))
  apply(tbl, 1, cumsum)

在data.frame列中子集和計數值

問題描述

1 個解決方案

解決方案1
1 已采納 2015-08-13 07:35:12

在data.frame列中子集和計數值

問題描述

1 個解決方案

解決方案1 1 已采納 2015-08-13 07:35:12

解決方案1
1 已采納 2015-08-13 07:35:12