簡體 English 中英

隨機選擇R中的組（以及每個組中的所有案例）。

[英]Randomly select groups (and all cases per group) in R?

原文 2012-11-04 00:05:48 4 2 r/ sample

我有一個R數據框，具有兩個數據級別： id和year 。 在由id定義的組中，年份增加（整個數據集每個組具有相同的（數量）年，如下所示：

id    year    var1    var2
11A   2001    ...     ...
11A   2002    ...     ...
11A   2003    ...     ...
11A   2004    ...     ...
13B   2001    ...     ...
13B   2002    ...     ...
13B   2003    ...     ...
13B   2004    ...     ...
22Z   2001    ...     ...

我的數據中有大約20.000個組，因為它們太多了，無法繪制出良好的增長曲線圖。 如何隨機選擇約20個ID？ （因此：還要選擇對應於該ID的所有4行年份嗎？）

2 個解決方案

如果先使用sample再進行索引，這將非常簡單。 這是一個偽造的示例，看起來與您所呈現的相似。 它實際上僅是兩行代碼，如果您願意的話，可以合而為一。

dat <- data.frame(id=paste0(LETTERS[1:8], rep(1:1250, 8)), 
   year=as.factor(as.character(sample(c(1990:2012, 20000, T)))), 
   var1=rnorm(20000), var2=rnorm(20000))

#a look at the data
head(dat)

#sample 20 id's randomly
(ids <- sample(unique(dat$id), 20))

#narrow your data set
dat2 <- dat[dat$id %in% ids, ]

subset(df, id %in% sample(levels(df$id), 20))

假設您的數據幀稱為df ，並且您的id是一個因素（如果不是，則使用unique而不是levels ）

根據 R 中兩列中的條件選擇所有行（每行多個案例）

[英]Select all rows based on conditions in two columns in R (multiple cases per row)

同樣基於同一組的另一個變量的最小值，每組的病例數

[英]Count of cases per group, based on a min value of another variable, also per same groups

從 data.table 開始，隨機 select 每組一行

[英]from data table, randomly select one row per group

在 R 數據框中用 NA 隨機替換每組值的百分比

[英]randomly replacing percentage of values per group with NA in R dataframe

在R中選擇每組的第二次觀察

[英]Select the second observation per group in R

在 R 中的組內排名，每組有多少個唯一變量？

[英]Ranking within groups in R, how many unique variables per group?

來自組的樣本，但 R 中的每個組的 n 不同

[英]Sample from groups, but n varies per group in R

計算每組的完整案例

[英]Count Complete Cases per Group

組合每列數據幀中的所有數據和R中的組

[英]Combining all data in a data frame per column and groups in R

為R中的每個組隨機選擇數字（不重復）

[英]Randomly select number (without repetition) for each group in R

暫無

暫無

聲明:本站的技術帖子網頁，遵循CC BY-SA 4.0協議，如果您需要轉載，請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

相關問題 根據 R 中兩列中的條件選擇所有行（每行多個案例）同樣基於同一組的另一個變量的最小值，每組的病例數從 data.table 開始，隨機 select 每組一行在 R 數據框中用 NA 隨機替換每組值的百分比在R中選擇每組的第二次觀察在 R 中的組內排名，每組有多少個唯一變量？來自組的樣本，但 R 中的每個組的 n 不同計算每組的完整案例組合每列數據幀中的所有數據和R中的組為R中的每個組隨機選擇數字（不重復）

相關標簽

粵ICP備18138465號 © 2020-2024 STACKOOM.COM