根據兩列過濾一個 pandas dataframe

Question

我正在嘗試基於兩列過濾 pandas dataframe ，以便對於第 1 列中的每個值，只剩下第 2 列是最小值的那些行。 我知道這聽起來很混亂，所以這里有一個例子：

> df = pd.DataFrame([{'a':'anno1', 'ppm':1},{'a':'anno1', 'ppm':2},{'a':'anno2', 'ppm':2},{'a':'anno2', 'ppm':2}])

> df
       a  ppm
0  anno1    1
1  anno1    2
2  anno2    2
3  anno2    2

我想要第 0,2 和 3 行，因為對於anno1 ，最小ppm是1 ，對於anno2 ，最小ppm是2 （保留兩行。）。 所以我從groupby開始：

> grouped_series = df.groupby(['a']).ppm.min()
> grouped_series
a
anno1    1
anno2    2

現在我a最小ppm中的每個值。 但是怎么用這個系列過濾掉原來的dataframe呢？ 或者有沒有更簡單的方法來做到這一點？ 我嘗試了幾種變體：

new_df = df.loc[ df.loc[:,'ppm']==grouped_series.loc[df.loc[:,'a']] , :]

但這給了我一個ValueError: Can only compare identically-labeled Series objects

Answer 1

使用GroupBy.transform將最小值與具有相同大小的Series （如df ）進行比較，因此比較工作得很好，也用於過濾boolean indexing中的loc索引不需要：

new_df = df[df['ppm'] == df.groupby('a').ppm.transform('min')]
print (new_df)
       a  ppm
0  anno1    1
2  anno2    2
3  anno2    2

Answer 2

如果您不介意重置原始索引，這是一種替代方法：

df.merge(df.groupby(['a'])['ppm'].min().reset_index(), how='inner')

Output：

    a   ppm
0   anno1   1
1   anno2   2
2   anno2   2

根據兩列過濾一個 pandas dataframe

問題描述

2 個解決方案

解決方案1
1 已采納 2020-06-02 08:10:42

解決方案2
0 2020-06-02 10:51:28

根據兩列過濾一個 pandas dataframe

問題描述

2 個解決方案

解決方案1 1 已采納 2020-06-02 08:10:42

解決方案2 0 2020-06-02 10:51:28

解決方案1
1 已采納 2020-06-02 08:10:42

解決方案2
0 2020-06-02 10:51:28