如何加快访问pandas dataframe列中的dicts列表？

Question

这可能听起来像是一种疯狂的数据存储方式，但我正在处理稀疏的数据，为了节省空间，我创建了数据帧，其中一列是可变长度的dicts列表（从1到十几个dicts）每个都有三个元素）。 我正在尝试访问每个dict中的第二个元素，并使用这些第二个元素的列表创建一个新列。 我实际上无法粘贴我的数据，但是我可以提供一个非常接近它的示例。

想象一下，我有一个关于猫，狗和仓鼠属性的数据框，我有3只猫，1只狗和1只仓鼠，每种都有颜色和毛发长度数据。 我基本上试图访问每种动物类型的特定属性列表。 现在下面的代码工作得很好。 但是，如果将其扩展到超过22,000行，则非常慢。 这可能是由于for循环。

df = pd.DataFrame({'name':['cats','dogs','hamsters'],'attributes':[[{'color':'white','fur':'short'},{'color':'black','fur':'long'},{'color':'gray','fur':'long'}],[{'color':'brown','fur':'short'}],[{'color':'brown','fur':'short'}]]})


df['colors']=''
for i in range(len(df)):
  attributes = df.attributes.iloc[i]
  df.loc[i,['colors']] = [list(map(lambda x: x['color'],attributes))]

df之前：

       name                                         attributes
0      cats  [{'color': 'white', 'fur': 'short'}, {'color':...
1      dogs               [{'color': 'brown', 'fur': 'short'}]
2  hamsters               [{'color': 'brown', 'fur': 'short'}]

df之后：

       name  ...                colors
0      cats  ...  [white, black, gray]
1      dogs  ...               [brown]
2  hamsters  ...               [brown]

我正在寻找一种加速这个过程的方法，可能还有一个lambda函数？ 不确定，但几乎总有一种方法可以放弃for循环，但是我只是无法看到它。

Answer 1

试试吧

l=[[y['color'] for y in x] for x in df.attributes]
l
Out[321]: [['white', 'black', 'gray'], ['brown'], ['brown']]
df['color']=l

Answer 2

首先使用函数（如果需要，可以很容易地成为lambda）和dataframe.apply（）方法。

def extract_colors(x): 
    return list(map(lambda a: a["color"], x)) 

df["colors"] = df.attributes.apply(extract_colors)

如果有任何内容，则应该具有较低的内存占用，因为该功能是在数据帧/系列中广播的，并且不会创建大的中间列表。

如何加快访问pandas dataframe列中的dicts列表？

问题描述

2 个解决方案

解决方案1
2 2019-05-30 20:15:33

解决方案2
1 2019-05-30 20:25:14

如何加快访问pandas dataframe列中的dicts列表？

问题描述

2 个解决方案

解决方案1 2 2019-05-30 20:15:33

解决方案2 1 2019-05-30 20:25:14

解决方案1
2 2019-05-30 20:15:33

解决方案2
1 2019-05-30 20:25:14