簡體   English   中英

根據R / python中的某些條件動態計數行

[英]Count rows dynamically based on some criteria in R/python

我有一個包含250萬數據的數據集,其中包含以下示例數據。

id   status    count    webiste         source
1     True       0     www.test.com      Accurate
2     True       1     www.true.com      Need Test
3     False      2     Null              Accurate
4     False      100   Null              Need Test

id-唯一值

狀態-正確/錯誤

計數-0-10000

網站-包含網址,否則為null

來源-准確/需要測試

編號范圍為0-1000的其他列也是如此。

我想向用戶顯示數字列的滑塊選項和其他列的下拉列表選項。

我想從用戶的規格中選擇數據子集的計數。

例如:以Status為True進行計數,並包含網站和網站。

這些規格將由用戶給出。 這些需要在R或python中完成嗎?

這是一個入門的示例。 這將計算網站字段不是NA,狀態為TRUE且行數在30到100之間的行數

nrow(dataset[!is.na(dataset$website) & dataset$status == TRUE & dataset$count >= 30 & dataset$count <= 100, ])

請注意,每個條件實際上僅保留那些滿足條件的行。 但是請注意,如果R不確定行是否符合您的critera(因為它具有NA),則它將返回它。 例如,如果我們知道我們有一些狀態值是NA(並且我們不想計算這些值),那么我們應該對代碼進行如下修改:

nrow(dataset[!is.na(dataset$website) & (dataset$status == TRUE & !is.na(dataset$status)) & dataset$count >= 30 & dataset$count <= 100, ])

另一個提示:不要忘了最后一個方括號前的逗號

現在,要使其動態(即接受用戶輸入),您只需將硬編碼值替換為用戶輸入,如下所示

user_selected_status <- TRUE
user_selected_min_count <- 30
user_selected_max_count <- 100

nrow(dataset[!is.na(dataset$website) & (dataset$status == user_selected_status & !is.na(dataset$status)) & dataset$count >= user_selected_min_count & dataset$count <= user_selected_max_count, ])

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM