繁体   English   中英

使用Informatica BDM的Sqoop增量负载

[英]Sqoop incremental load using Informatica BDM

我是Informatica BDM的新手,我有一个用例,每天必须将RDBMS的数据(100个表)以增量方式导入到Hive中。 有人可以指导我采用最好的方法来实现这一目标吗?

谢谢Sumit

Hadoop是一次写入多次读取(WORM)的方法,而增量负载并非易事。 您可以遵循以下准则,并验证您当前的要求

  1. 如果表是小/中型并且没有太多记录,则最好刷新整个表
  2. 如果表太大,并且增量负载具有添加/更新/删除操作,则可以考虑暂存增量并执行联接操作以重新创建数据集。
  3. 对于大表和大增量,可以为所有最新记录创建一个版本号,并且每个增量都可以进入新目录,并且应创建一个视图以获取最新版本以进行进一步处理。 这避免了繁重的合并操作。

如果删除操作不是更改,那么您还需要考虑如何操作,在这种情况下,您需要进行完全刷新。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM