按间隔合并两个pandas数据帧

Question

我有两个pandas数据帧，格式如下：

df_ts = pd.DataFrame([
        [10, 20, 1,  'id1'],
        [11, 22, 5,  'id1'],
        [20, 54, 5,  'id2'],
        [22, 53, 7,  'id2'],
        [15, 24, 8,  'id1'],
        [16, 25, 10, 'id1']
    ], columns = ['x', 'y', 'ts', 'id'])


df_statechange = pd.DataFrame([
        ['id1', 2, 'ok'],
        ['id2', 4, 'not ok'],
        ['id1', 9, 'not ok']
    ], columns = ['id', 'ts', 'state'])

我想把它变成格式，例如：

df_out = pd.DataFrame([
        [10, 20, 1,  'id1', None    ],
        [11, 22, 5,  'id1', 'ok'    ],
        [20, 54, 5,  'id2', 'not ok'],
        [22, 53, 7,  'id2', 'not ok'],
        [15, 24, 8,  'id1', 'ok'    ],
        [16, 25, 10, 'id1', 'not ok']
    ], columns = ['x', 'y', 'ts', 'id', 'state'])

我理解如何通过按ID分组迭代完成它，然后遍历每一行并在出现时更改状态。 有没有一个pandas内置更可扩展的方式来做到这一点？

Answer 1

不幸的是，pandas merge仅支持相等的连接。 在以下线程中查看更多详细信息：合并pandas数据框，其中一个值介于两个其他值之间，如果要按间隔合并，则需要克服该问题，例如在合并后添加另一个过滤器：

joined = a.merge(b,on='id')
joined = joined[joined.ts.between(joined.ts1,joined.ts2)]

Answer 2

您可以在两列上合并pandas数据框：

pd.merge(df_ts,df_statechange, how='left',on=['id','ts'])

在您在此处共享的df_statechange ，两个数据帧中的ts上没有共同的值。 显然你刚刚在这里复制了不完整的数据框。 所以我得到了这个输出：

    x   y  ts   id state
0  10  20   1  id1   NaN
1  11  22   5  id1   NaN
2  20  54   5  id2   NaN
3  22  53   7  id2   NaN
4  15  24   8  id1   NaN
5  16  25  10  id1   NaN

但实际上，如果数据帧中有共同的ts ，它将具有您想要的输出。 例如：

df_statechange = pd.DataFrame([
        ['id1', 5, 'ok'],
        ['id1', 8, 'ok'],
        ['id2', 5, 'not ok'],
        ['id2',7, 'not ok'],
        ['id1', 9, 'not ok']
    ], columns = ['id', 'ts', 'state'])

输出：

  x   y  ts   id   state
0  10  20   1  id1     NaN
1  11  22   5  id1      ok
2  20  54   5  id2  not ok
3  22  53   7  id2  not ok
4  15  24   8  id1      ok
5  16  25  10  id1     NaN

按间隔合并两个pandas数据帧

问题描述

2 个解决方案

解决方案1
2 2017-05-22 10:22:35

解决方案2
1 2017-05-22 08:57:01

按间隔合并两个pandas数据帧

问题描述

2 个解决方案

解决方案1 2 2017-05-22 10:22:35

解决方案2 1 2017-05-22 08:57:01

解决方案1
2 2017-05-22 10:22:35

解决方案2
1 2017-05-22 08:57:01