如何将 Hive 分区列和值插入数据（镶木地板）文件？

Question

请求：-在将数据插入Hive/Impala表时，如何将分区键对插入每个parquet文件。

Hive 表 DDL [创建外部表 db.tbl_name (col1 string, col2 string) Partitioned BY (date_col string) STORED AS parquet LOCATION 'hdfs_path/db/tbl_name']

让我们将数据插入到这个 hive 表中。

插入 db.tbl_name 分区 (date_col=2020-07-26) 值 ('test1_col1','test1_col2')

插入记录后，让我们使用 parquet-tools 或任何其他工具将数据查看到 parquet 文件中。

parquet-tool cat hdfs_path/db/tbl_name/date_col=2020-07-26/parquet_file.parquet

下面将是视图。

**********************
col1 = test1_col1 
col2 = test1_col2
**********************

但是，如果我在 Hive/Impala 上执行 HQL 查询，那么它将从元数据中读取分区值。

**Query**- select * from db.tbl_name
**Result** -
col1        col2        date_col
test1_col1  test1_col2  2020-07-26

问题- 有什么方法可以在 parquet 文件中查看分区列名称和值，如下所示。

col1 = test1_col1 
col2 = test1_col2 
date_col = 2020-07-26

Answer 1

请使用这个 -
INSERT INTO db.tbl_name PARTITION (date_col) VALUES ('test1_col1','test1_col2','2020-07-26');

总是在上面的括号（）中提到分区名称。 然后在 values/select 子句中，最后对分区列进行排序。
这就是您需要插入到 hive/impala 分区表中的所有内容。