Pandas pivot_table 取最近的值，如果最近的值代表某个百分比的值存在

Question

我试图在海量数据集中查找某些 ID 和代码的值，并且我试图通过为每个唯一对获取最近使用的值来获取这些值。 我目前只是使用下面的代码获取最近使用的代码

data.head()
    ID      Code    value
15  13513   X2784   30.0
16  12665   X2744   65.0
17  16543   X2744   65.0
19  15761   X2100   29.0
21  14265   X2750   48.0

df = data.pivot_table(index='ID', columns='Code', values='value', aggfunc = 'first')

df.head()
ID      X2784   X2744   X2100   X2750
13271   30.0    65.0    29.0    35.0
16343   30.0    65.0    29.0    35.0
19342   30.0    65.0    29.0    35.0
15437   30.0    65.0    29.0    35.0
14359   30.0    65.0    29.0    48.0

问题是由于数据异常，其中一些值是错误的。 想法是查看最近的值，确定它是否代表该对的所有值的某个百分比，然后分配它。 这个问题的一个例子是这样的：

data[(data['ID'] == '14359') & (data['Code'] == 'X2750')]['value'].value_counts()
35.0     2530
48.0        2

29.0 的值是最近发生的，但它发生的次数非常少，应该被视为异常。 有什么方法可以将 pivot_table aggfunc “first”与某种出现的阈值结合起来？

Answer 1

如果您确定多数始终是您希望的值，您可以使用中值聚合来获得“中间”或“50% 分位数”值。 这将切断所有异常。

试试这个 function：

df = data.pivot_table(index='ID', columns='Code', values='value', aggfunc = 'first', aggfunc=np.median)

Answer 2

我能够使用 aggfunc 的 lambda function 弄清楚

aggfunc = lambda x: x.iloc[0] if x.value_counts()[x.iloc[0]]/x.value_counts().sum() > .25 else x.mode(dropna = False).iat[0]

感谢大家的帮助！

Pandas pivot_table 取最近的值，如果最近的值代表某个百分比的值存在

问题描述

2 个解决方案

解决方案1
0 2020-07-13 17:46:33

解决方案2
0 2020-07-13 21:55:04

Pandas pivot_table 取最近的值，如果最近的值代表某个百分比的值存在

问题描述

2 个解决方案

解决方案1 0 2020-07-13 17:46:33

解决方案2 0 2020-07-13 21:55:04

解决方案1
0 2020-07-13 17:46:33

解决方案2
0 2020-07-13 21:55:04