如何在 pandas dataframe 中制作相同数量的观察值？

Question

我正在尝试在 dataframe 中创建一列，描述观察所属的组或bin 。 这个想法是根据某个列对 dataframe 进行排序，然后开发另一列来表示该观察属于哪个 bin。 如果我想要十分位数，那么我应该能够告诉 function 我想要 10 个相等（或接近相等）的组。

我尝试了pandas qcut但这只是给出了箱的上限和下限的元组。 我只想要 1,2,3,4....等。 以以下为例

import numpy as np
import pandas as pd

x = [1,2,3,4,5,6,7,8,5,45,64545,65,6456,564]
y = np.random.rand(len(x))

df_dict = {'x': x, 'y': y}
df = pd.DataFrame(df_dict)

这给出了 14 个观察值的 df。 我怎样才能得到 5 个相等的垃圾箱组？

期望的结果如下：

        x         y  group
0       1  0.926273      1
1       2  0.678101      1
2       3  0.636875      1
3       4  0.802590      2
4       5  0.494553      2
5       6  0.874876      2
6       7  0.607902      3
7       8  0.028737      3
8       5  0.493545      3
9      45  0.498140      4
10  64545  0.938377      4
11     65  0.613015      4
12   6456  0.288266      5
13    564  0.917817      5

Answer 1

按N行分组，找到ngroup

df['group']=df.groupby(np.arange(len(df.index))//3,axis=0).ngroup()+1



     x      y        group
0       1  0.548801      1
1       2  0.096620      1
2       3  0.713771      1
3       4  0.922987      2
4       5  0.283689      2
5       6  0.807755      2
6       7  0.592864      3
7       8  0.670315      3
8       5  0.034549      3
9      45  0.355274      4
10  64545  0.239373      4
11     65  0.156208      4
12   6456  0.419990      5
13    564  0.248278      5

Answer 2

您可以使用np.array_split()均匀拆分，分配组，然后使用pd.concat()重新组合：

bins = 5
splits = np.array_split(df, bins)

for i in range(len(splits)):
    splits[i]['group'] = i + 1

df = pd.concat(splits)

或者作为使用assign()的单线：

df = pd.concat([d.assign(group=i+1) for i, d in enumerate(np.array_split(df, bins))])

        x         y  group
0       1  0.145781      1
1       2  0.262097      1
2       3  0.114799      1
3       4  0.275054      2
4       5  0.841606      2
5       6  0.187210      2
6       7  0.582487      3
7       8  0.019881      3
8       5  0.847115      3
9      45  0.755606      4
10  64545  0.196705      4
11     65  0.688639      4
12   6456  0.275884      5
13    564  0.579946      5

Answer 3

通过从near_split生成索引列表的另一种选择：

def near_split(base, num_bins):
    quotient, remainder = divmod(base, num_bins)
    return [quotient + 1] * remainder + [quotient] * (num_bins - remainder)


bins = 5
df['group'] = [i + 1 for i, v in enumerate(near_split(len(df), bins)) for _ in range(v)]
print(df)

Output：

        x         y  group
0       1  0.313614      1
1       2  0.765079      1
2       3  0.153851      1
3       4  0.792098      2
4       5  0.123700      2
5       6  0.239107      2
6       7  0.133665      3
7       8  0.979318      3
8       5  0.781948      3
9      45  0.264344      4
10  64545  0.495561      4
11     65  0.504734      4
12   6456  0.766627      5
13    564  0.428423      5

Answer 4

这是一种根据请求的bins数量“手动”计算 bin 范围的方法：

bins = 5

l = len(df)
minbinlen = l // bins
remainder = l % bins
repeats = np.repeat(minbinlen, bins)
repeats[:remainder] += 1
group = np.repeat(range(bins), repeats) + 1

df['group'] = group

结果：

        x         y  group
0       1  0.205168      1
1       2  0.105466      1
2       3  0.545794      1
3       4  0.639346      2
4       5  0.758056      2
5       6  0.982090      2
6       7  0.942849      3
7       8  0.284520      3
8       5  0.491151      3
9      45  0.731265      4
10  64545  0.072668      4
11     65  0.601416      4
12   6456  0.239454      5
13    564  0.345006      5

这似乎遵循np.array_split的拆分逻辑（即尝试均匀拆分 bin，但如果不可能，则添加到较早的 bin）。

虽然代码不太简洁，但它不使用任何循环，因此理论上它应该更快地处理大量数据。

只是因为我很好奇，所以要把这个perfplot测试留在这里......

import numpy as np
import pandas as pd
import perfplot

def make_data(n):
    x = np.random.rand(n)
    y = np.random.rand(n)
    df_dict = {'x': x, 'y': y}
    df = pd.DataFrame(df_dict)

    return df

def repeat(df, bins=5):
    l = len(df)
    minbinlen = l // bins
    remainder = l % bins
    repeats = np.repeat(minbinlen, bins)
    repeats[:remainder] += 1
    group = np.repeat(range(bins), repeats) + 1

    return group

def near_split(base, num_bins):
    quotient, remainder = divmod(base, num_bins)
    return [quotient + 1] * remainder + [quotient] * (num_bins - remainder)

def array_split(df, bins=5):
    splits = np.array_split(df, bins)

    for i in range(len(splits)):
        splits[i]['group'] = i + 1

    return pd.concat(splits)

perfplot.show(
    setup = lambda n : make_data(n),
    kernels = [
        lambda df: repeat(df),
        lambda df: [i + 1 for i, v in enumerate(near_split(len(df), 5)) for _ in range(v)],
        lambda df: df.groupby(np.arange(len(df.index))//3,axis=0).ngroup()+1,
        lambda df: array_split(df)
        ],
    labels=['repeat', 'near_split', 'groupby', 'array_split'],
    n_range=[2 ** k for k in range(25)],
    equality_check=None)

如何在 pandas dataframe 中制作相同数量的观察值？

问题描述

4 个解决方案

解决方案1
3 已采纳 2021-05-06 19:36:11

解决方案2
2 2021-05-06 19:33:55

解决方案3
2 2021-05-06 19:43:34

解决方案4
1 2021-05-06 20:25:30

如何在 pandas dataframe 中制作相同数量的观察值？

问题描述

4 个解决方案

解决方案1 3 已采纳 2021-05-06 19:36:11

解决方案2 2 2021-05-06 19:33:55

解决方案3 2 2021-05-06 19:43:34

解决方案4 1 2021-05-06 20:25:30

解决方案1
3 已采纳 2021-05-06 19:36:11

解决方案2
2 2021-05-06 19:33:55

解决方案3
2 2021-05-06 19:43:34

解决方案4
1 2021-05-06 20:25:30