将一系列dict和concat转换为dataframe

Question

我的 dataframe

                             Items  Count  ScannedCount  
0  {'comp': {'S': '2019-08-02'}...   1032          1032 
1  {'comp': {'S': '2019-08-27'}...   1032          1032

项目系列看起来像这样

{'comp': {'S': '2019-08-02T16:54:55.035196+03:00'}, 'ID': {'S': '336'}, 'dID': {'S': '1763523'}, 'fname': {'S': '558012'}}

使用这篇文章的第二个答案，我可以将系列转换为 dataframe。 问题是如何扩展该操作，因为它发生在每一行，

目前的做法：

循环遍历每一行并将它们连接成一个系列（非常慢）

item_df = pd.DataFrame(df['Items'].iloc[i]) for i in range(df.shape[0])]).reset_index(drop=True), df], axis=1)

将结果与原始 dataframe 连接起来

df = pd.concat([temp, df], axis=1)

我相信第一部分的for循环是瓶颈。 有没有更快的方法将系列转换为 dataframe 并将其连接回原始 dataframe。

预期 output：

                 comp   ID  dID      fname   Count  ScannedCount  
0  2019-08-02T16:54:55  336 1763523  548012  1032   1032
1  2019-09-01T14:52:24  336 1763523  528012  1032   1032

Answer 1

试试这个更柱状的解决方案。 它假设字典中总是有“S”键。

df_tmp = df['Items'].apply(pd.Series)
for c in df_tmp.columns:
    df[c] = df_tmp[c].apply(lambda x: x.get('S'))
df = df.drop(columns='Items')

Answer 2

看起来迭代所有 df 是不可避免的。 我不确定它是否更好，但我知道 pandas 这样做的方法是使用iterrows() 。

在文档中，他们还提到了针对特定用例的itertuples() ，但同样，我在这里不是专家。

希望这可以帮助！

Answer 3

测试数据：

import pandas as pd
test_data = {'item' : [{'comp': {'S': '2019-08-02T16:54:55.035196+03:00'}, 'ID': {'S': '336'}, 'dID': {'S': '1763523'}, 'fname': {'S': '558012'}}, {'comp': {'S': '2019-09-02T16:54:55.035196+03:00'}, 'ID': {'S': '336'}, 'dID': {'S': '1763523'}, 'fname': {'S': '558012'}}], 'Count': [1032,1032], 'ScannedCount':[1032,1032]}

df = pd.DataFrame.from_dict(test_data)

Out[64]:  
                                                    item  Count  ScannedCount
    0  {'comp': {'S': '2019-08-02T16:54:55.035196+03:...   1032          1032
    1  {'comp': {'S': '2019-09-02T16:54:55.035196+03:...   1032          1032

据我了解，你试图得到这样的东西：

def extract(row):

    item_series = pd.Series({k:v for k,v in row['item'].items()})
    result = row.append(item_series)

    return result

df = df.apply(extract, axis = 1)

这给了你：

Out[67]: 
                                            comp            ID               dID  \
    0  {'S': '2019-08-02T16:54:55.035196+03:00'}  {'S': '336'}  {'S': '1763523'}   
    1  {'S': '2019-09-02T16:54:55.035196+03:00'}  {'S': '336'}  {'S': '1763523'}   

             fname  
    0  {'S': '558012'}  
    1  {'S': '558012'}  

## skipped some columns for clarity

将一系列dict和concat转换为dataframe

问题描述

3 个解决方案

解决方案1
1 已采纳 2019-10-15 06:51:08

解决方案2
0 2019-10-14 20:59:23

解决方案3
0 2019-10-14 21:37:21

将一系列dict和concat转换为dataframe

问题描述

3 个解决方案

解决方案1 1 已采纳 2019-10-15 06:51:08

解决方案2 0 2019-10-14 20:59:23

解决方案3 0 2019-10-14 21:37:21

解决方案1
1 已采纳 2019-10-15 06:51:08

解决方案2
0 2019-10-14 20:59:23

解决方案3
0 2019-10-14 21:37:21