簡體   English   中英

增加到HIVE表的數量

[英]incremental sqoop to HIVE table

眾所周知,增量sqoop導入開關不適用於通過SQOOP導入HIVE。 但是,解決方法是什么?

1)我可以彌補的一件事是,我們可以創建一個HIVE表,並通過SQOOP將增量數據引入HDFS,然后手動加載它們。 但是,如果我們這樣做,每次加載該數據時,數據都會被覆蓋。 如果我錯了,請糾正我。

2)將數據壓縮到HIVE時--query的效果如何?

謝謝

您可以將sqoop增量添加到配置單元表中,但是沒有直接的選擇,下面是實現它的一種方法。

將增量表存儲為Hive中的外部表。 自上次更新數據以來,導入增量更改更常見,然后將其合並。在以下示例中,--check-column用於獲取比last_import_date更新的記錄,后者是上一次增量數據更新的日期。 :

sqoop import --connect jdbc:teradata://{host name}/Database=retail —connection manager org.apache.sqoop.teradata.TeradataConnManager --username dbc -password dbc --table SOURCE_TBL --target-dir /user/hive/incremental_table -m 1 --check-column modified_date --incremental lastmodified --last-value {last_import_date}

問題的第二部分

查詢也是您可以在swoop導入中利用的一個非常有用的參數,它將為您提供rdbms表上基本聯接的靈活性以及與日期和時間格式一起使用的靈活性。 如果我願意,可以使用查詢以所需的方式導入數據,然后將其追加到原始表中,然后從臨時表加載到主表時,我可以使用更多數據。 如果更新不是太頻繁,我建議使用查詢。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM