基於兩列值有效地從熊貓數據框中提取信息

Question

我正在嘗試從由 productId 和 customerId 索引的數據框中提取信息。 我有大量（數百萬）（productId，customerId）對，並且有興趣找到最有效的方法來做到這一點。

我有兩個數據幀，df1 包含我感興趣的 customerId、productId 對，第二個幀 df2 包含感興趣的信息，由 customerId、productId 對索引。

到目前為止，我已經嘗試過類似的事情：

def f(x, y):
    return(df2.col[(df2.customerId == x) & (df2.productId == y)].sum())

values = df1.apply(lambda x: f(x.customerId, x.productId), axis = 1)

工作正常，但速度很慢。

有什么改進建議嗎？

Answer 1

您可以嘗試列表理解：

values = [df2.loc[df2[['customerId', 'productId']].eq(i).all(), 'col'].sum() for i in df1.values]

基於兩列值有效地從熊貓數據框中提取信息

問題描述

1 個解決方案

解決方案1
0 2020-01-27 09:58:54

基於兩列值有效地從熊貓數據框中提取信息

問題描述

1 個解決方案

解決方案1 0 2020-01-27 09:58:54

解決方案1
0 2020-01-27 09:58:54