[英]R- Subsetting dataframe based on 2 variables (where one is a random number in order to sample the first variable)?
我想創建一個大數據框的子集。 我想根據第2列“隨機數”的最低編號,選擇第1列“類”的每個值的一行。
例如,第1、2和3行在第1列中的值均為2,而我想保留/細分第3行,因為它具有最低的隨機數(3.446456)。 對於此示例,我想對第3、4、7、8、9、10、11行進行子集化。
我的數據集有超過10,000行,那么有沒有辦法對此進行編碼? 我正在使用R studio。
非常感謝,
Class Random_number Score_1 Score_2 Score_3 2 5.575475 0.78464 0.747847 0.6746464 2 7.738382 0.73273 0.747474 0.6734652 2 3.456456 0.78464 0.747847 0.6746464 3 6.939399 0.23363 0.123555 0.6476384 4 10.99993 0.66654 0.565757 0.6565633 4 6.894898 0.54295 0.825264 0.2357674 4 5.575475 0.78464 0.747847 0.6746464 5 3.738382 0.73273 0.747474 0.6734652 6 3.456456 0.78464 0.747847 0.6746464 7 6.932119 0.23363 0.123555 0.6476384 7 17.11993 0.66654 0.565757 0.6565633 8 6.895898 0.54295 0.825264 0.2357674
嘗試按隨機數排序數據集:
data<-data[order(data$Random_number),]
然后通過取出Class的重復值來子集
data<-subset(data, !duplicated(Class))
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.