簡體   English   中英

如何將 Hive 分區列和值插入數據(鑲木地板)文件?

[英]How to insert Hive partition column and value into data (parquet) file?

請求:-在將數據插入Hive/Impala表時,如何將分區鍵對插入每個parquet文件。

Hive 表 DDL [創建外部表 db.tbl_name (col1 string, col2 string) Partitioned BY (date_col string) STORED AS parquet LOCATION 'hdfs_path/db/tbl_name']

讓我們將數據插入到這個 hive 表中。

插入 db.tbl_name 分區 (date_col=2020-07-26) 值 ('test1_col1','test1_col2')

插入記錄后,讓我們使用 parquet-tools 或任何其他工具將數據查看到 parquet 文件中。

parquet-tool cat hdfs_path/db/tbl_name/date_col=2020-07-26/parquet_file.parquet

下面將是視圖。

**********************
col1 = test1_col1 
col2 = test1_col2
**********************

但是,如果我在 Hive/Impala 上執行 HQL 查詢,那么它將從元數據中讀取分區值。

**Query**- select * from db.tbl_name
**Result** -
col1        col2        date_col
test1_col1  test1_col2  2020-07-26

問題- 有什么方法可以在 parquet 文件中查看分區列名稱和值,如下所示。


col1 = test1_col1 
col2 = test1_col2 
date_col = 2020-07-26

請使用這個 -
INSERT INTO db.tbl_name PARTITION (date_col) VALUES ('test1_col1','test1_col2','2020-07-26');

總是在上面的括號()中提到分區名稱。 然后在 values/select 子句中,最后對分區列進行排序。
這就是您需要插入到 hive/impala 分區表中的所有內容。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM