[英]merging large data sets using Pandas
我正在尝试合并两个大型DataFrame:
myTable
,形状:( myTable
)。 第一个包含几个客户代码(1列)的交易数据(12列) Referential
,形状(75546,1)。 第二个表包含一个引用表,在第1列中包含客户端代码作为索引和客户端名称。 我想合并两个表以在myTable中使用可用的名称。
我试图合并两个表,但是仍然出现memory error
,我想知道是否有更优化的方法来做到这一点:
myTable
客户端代码之前,我是否应该尝试过滤referential
表? 我试图用以下代码为每一行寻找clientName:
myTable["clientName"]=myTable.clientCode.apply(lambda x:
referential.loc[x]["clientName"])
它可以正常工作,但是有点长。
提前致谢
假设您的Referential
DF如下所示:
clientName
0 name1
1 name2
2 name3
如果索引对应于ClientCode
,则可以使用map()方法:
myTable["clientName"] = myTable.clientCode.map(Referential['clientName'])
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.