繁体   English   中英

如何根据字典键和值过滤熊猫数据框行?

[英]How to filter pandas dataframe rows based on dictionary keys and values?

我在 Python 中有一个数据框和一个字典,如下所示,我需要根据字典过滤数据框。 如您所见,字典的键和值是数据框的两列。 我想要一个数据框的子集,其中包含字典的键和值以及其他列。

df:

顾客ID 类别 类型 送货
40275 真的
40275 软件 错误的
40275 电子游戏 错误的
40275 手机 错误的
39900 CD/DVD 真的
39900 真的
39900 软件 真的
35886 手机 错误的
35886 电子游戏 错误的
35886 CD/DVD 错误的
35886 软件 错误的
40350 软件 真的
28129 软件 错误的

字典是:

d = {
 40275: ['Book','Software'],
 39900: ['Book'],
 35886: ['Software'],
 40350: ['Software'],
 28129: ['Software']
 }

我需要以下数据框:

顾客ID 类别 类型 送货
40275 真的
40275 软件 错误的
39900 真的
35886 软件 错误的
40350 软件 真的
28129 软件 错误的

我们可以set_indexCustomer_IDCategory列,然后从字典d构建元组列表并reindex DataFrame 以仅包含与元组列表匹配的行,然后reset_index恢复列:

new_df = df.set_index(['Customer_ID', 'Category']).reindex(
    [(k, v) for k, lst in d.items() for v in lst]
).reset_index()

new_df

   Customer_ID  Category  Type  Delivery
0        40275      Book   Buy      True
1        40275  Software  Sell     False
2        39900      Book   Buy      True
3        35886  Software  Sell     False
4        40350  Software  Sell      True
5        28129  Software   Buy     False

*请注意,这只适用于 MultiIndex 是唯一的(如所示示例)。 如果字典不代表 DataFrame 的 MultiIndex 的子集(这可能是也可能不是所需的行为),它也会添加行。


设置:

import pandas as pd

d = {
    40275: ['Book', 'Software'],
    39900: ['Book'],
    35886: ['Software'],
    40350: ['Software'],
    28129: ['Software']
}

df = pd.DataFrame({
    'Customer_ID': [40275, 40275, 40275, 40275, 39900, 39900, 39900, 35886,
                    35886, 35886, 35886, 40350, 28129],
    'Category': ['Book', 'Software', 'Video Game', 'Cell Phone', 'CD/DVD',
                 'Book', 'Software', 'Cell Phone', 'Video Game', 'CD/DVD',
                 'Software', 'Software', 'Software'],
    'Type': ['Buy', 'Sell', 'Sell', 'Sell', 'Sell', 'Buy', 'Sell', 'Sell',
             'Buy', 'Sell', 'Sell', 'Sell', 'Buy'],
    'Delivery': [True, False, False, False, True, True, True, False, False,
                 False, False, True, False]
})

您可以将df.mergedf.append df.merge使用:

In [444]: df1 = pd.DataFrame.from_dict(d, orient='index', columns=['Cat1', 'Cat2']).reset_index()

In [449]: res = df.merge(df1[['index', 'Cat1']], left_on=['Customer_ID', 'Category'], right_on=['index', 'Cat1']).drop(['index', 'Cat1'], 1)

In [462]: res = res.append(df.merge(df1[['index', 'Cat2']], left_on=['Customer_ID', 'Category'], right_on=['index', 'Cat2']).drop(['index', 'Cat2'], 1)).sort_values('Customer_ID', ascending=False)

In [463]: res
Out[463]: 
   Customer_ID  Category  Type  Delivery
3        40350  Software  Sell      True
0        40275      Book   Buy      True
0        40275  Software  Sell     False
1        39900      Book   Buy      True
2        35886  Software  Sell     False
4        28129  Software   Buy     False

展平字典并创建一个新的数据帧,然后将df与新的数据帧进行内部合并

df.merge(pd.DataFrame([{'Customer_ID': k, 'Category': i} 
                       for k, v in d.items() for i in v]))

   Customer_ID  Category  Type  Delivery
0        40275      Book   Buy      True
1        40275  Software  Sell     False
2        39900      Book   Buy      True
3        35886  Software  Sell     False
4        40350  Software  Sell      True
5        28129  Software   Buy     False

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM