簡體   English   中英

Sqoop增量加載到分區配置單元表中

[英]Sqoop incremental loading into partitioned hive table

如何將增量數據加載到分區的配置單元表中

我有帶有以下列的“用戶”表,我已經基於created_on字段創建了配置單元分區

id bigint,
name string,
created_on string(yyyy-MM-dd),
updated_on string

我創建了一個sqoop作業,以根據上次修改日期增量導入

sqoop job --create users -- import --connect jdbc:mysql://<ip>/product  --driver com.mysql.jdbc.Driver --username <> -P --table users --incremental lastmodified --check-column updated_on --last-value "2016-11-15"--hive-table users --hive-import --hive-partition-key created_on --hive-partition-value "2016-11-15" --m 1

如果您觀察上述工作,它將基於上次修改的值進行提取並將其插入錯誤的分區中

有沒有解決此問題的方法

您在1列上的分區中加載,並希望基於其他列進行寫入? 那簡直就是“不匹配”。

解決的辦法似乎是使負載和分區對齊。

因此,如果您要寫入所有created_on等於2016-11-15的記錄,那么還要確保完全加載這些記錄。 (我想您在這種情況下不應該使用標准的增量功能)。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM