繁体   English   中英

使用Pandas合并大型数据集

[英]merging large data sets using Pandas

我正在尝试合并两个大型DataFrame:

  • myTable ,形状:( myTable )。 第一个包含几个客户代码(1列)的交易数据(12列)
  • Referential ,形状(75546,1)。 第二个表包含一个引用表,在第1列中包含客户端代码作为索引和客户端名称。

我想合并两个表以在myTable中使用可用的名称。

我试图合并两个表,但是仍然出现memory error ,我想知道是否有更优化的方法来做到这一点:

  • 使用索引进行合并是否更好?
  • 我应该在合并之前对表格进行排序吗?
  • 在合并以排除未出现在myTable客户端代码之前,我是否应该尝试过滤referential表?
  • 有没有更有效的方式来编写此合并?
  • 这样的简单操作可以避免合并吗?

我试图用以下代码为每一行寻找clientName:

myTable["clientName"]=myTable.clientCode.apply(lambda x:
  referential.loc[x]["clientName"])

它可以正常工作,但是有点长。

提前致谢

假设您的Referential DF如下所示:

   clientName
0       name1
1       name2
2       name3

如果索引对应于ClientCode ,则可以使用map()方法:

myTable["clientName"] = myTable.clientCode.map(Referential['clientName'])

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM