[英]Count rows dynamically based on some criteria in R/python
我有一個包含250萬數據的數據集,其中包含以下示例數據。
id status count webiste source
1 True 0 www.test.com Accurate
2 True 1 www.true.com Need Test
3 False 2 Null Accurate
4 False 100 Null Need Test
id-唯一值
狀態-正確/錯誤
計數-0-10000
網站-包含網址,否則為null
來源-准確/需要測試
編號范圍為0-1000的其他列也是如此。
我想向用戶顯示數字列的滑塊選項和其他列的下拉列表選項。
我想從用戶的規格中選擇數據子集的計數。
例如:以Status為True進行計數,並包含網站和網站。
這些規格將由用戶給出。 這些需要在R或python中完成嗎?
這是一個入門的示例。 這將計算網站字段不是NA,狀態為TRUE
且行數在30到100之間的行數
nrow(dataset[!is.na(dataset$website) & dataset$status == TRUE & dataset$count >= 30 & dataset$count <= 100, ])
請注意,每個條件實際上僅保留那些滿足條件的行。 但是請注意,如果R不確定行是否符合您的critera(因為它具有NA),則它將返回它。 例如,如果我們知道我們有一些狀態值是NA(並且我們不想計算這些值),那么我們應該對代碼進行如下修改:
nrow(dataset[!is.na(dataset$website) & (dataset$status == TRUE & !is.na(dataset$status)) & dataset$count >= 30 & dataset$count <= 100, ])
另一個提示:不要忘了最后一個方括號前的逗號
現在,要使其動態(即接受用戶輸入),您只需將硬編碼值替換為用戶輸入,如下所示
user_selected_status <- TRUE
user_selected_min_count <- 30
user_selected_max_count <- 100
nrow(dataset[!is.na(dataset$website) & (dataset$status == user_selected_status & !is.na(dataset$status)) & dataset$count >= user_selected_min_count & dataset$count <= user_selected_max_count, ])
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.