簡體   English   中英

按條件子集一個python數據幀

[英]subset a python dataframe by conditions

我試圖選擇計數> 250的名稱行,這里稱為有效。 所以我們將嘗試找到它的速率的平均值

t3=dfnew.groupby('name')['ratings']
t4=t3.count()
t5=t4[t4.values>250]
t6=t3.mean()
t6[(t6.index==t5.index)]

顯然問題出在我代碼的最后一行。 我想將 t6 的索引與 t5 的索引相匹配的地方。 如果它們匹配,則保存它,否則將其忽略。 這有點像 SQL 中的內部聯接。

我應該怎么做才能修改最后一行?

假設數據框是這樣的

input:
name ratings
    A  1
    A  2
    :
    A  251
    B  1
    B  2
    :
    B  230

所以預期的結果應該是 126 ( (1+251)/2))

Output
A  126
t3=dfnew.groupby('name')['ratings'].agg(['count','mean'])

t5=t3[t3['count']>250]
t5

當我同時聚合兩個函數時,它工作正常。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM