根据组比较过滤熊猫数据框组

Question

我正在尝试从熊猫数据框中删除损坏的数据。 我想从值框大于上一个组的值差异的数据框中删除组。 这是一个例子：

   Value
0      1
1      1
2      1
3      2
4      2
5      2
6      8 <- here number of group if I groupby by Value is larger than
7      8    the last groups number by 6, so I want to remove this
8      3    group from dataframe
9      3

预期结果：

编辑：jezrael解决方案很棒，但就我而言，可能会有重复的组值：

对不起，如果我不清楚。

Answer 1

首先删除唯一行的重复项，然后将差异与移位后的值进行比较，最后通过布尔索引进行过滤：

s = df['Value'].drop_duplicates()
v = s[s.diff().gt(s.shift())]

df = df[~df['Value'].isin(v)]
print (df)
   Value
0      1
1      1
2      1
3      2
4      2
5      2
8      3
9      3

Answer 2

也许：

df2 = df.drop_duplicates()
print(df[df['Value'].isin(df2.loc[~df2['Value'].gt(df2['Value'].shift(-1)), 'Value'].tolist())])

输出：

Answer 3

我们可以检查差异是否小于或等于5 或 NaN 。 在检查是否有重复项并保留这些行之后：

s = df[df['Value'].diff().le(5) | df['Value'].diff().isna()]
s[s.duplicated(keep=False)]

根据组比较过滤熊猫数据框组

问题描述

3 个解决方案

解决方案1
3 已采纳 2019-06-21 11:07:35

解决方案2
1 2019-06-21 11:07:37

解决方案3
0 2019-06-21 11:15:11

根据组比较过滤熊猫数据框组

问题描述

3 个解决方案

解决方案1 3 已采纳 2019-06-21 11:07:35

解决方案2 1 2019-06-21 11:07:37

解决方案3 0 2019-06-21 11:15:11

解决方案1
3 已采纳 2019-06-21 11:07:35

解决方案2
1 2019-06-21 11:07:37

解决方案3
0 2019-06-21 11:15:11