Tez上的Hive 0.14：即使使用hive.merge，每个插入也可以包含一个文件。活性

Question

每隔15分钟，我需要将数据插入存储为ORC的不同表中并汇总值。 那些INSERT使用动态分区。 每个INSERT都会在分区中创建一个新文件，这会减慢聚合查询的速度。 我在网上搜索，发现了与此案有关的一些主题。

所以我在hive-site.xml上添加了这些设置：

hive.merge.mapfiles =true;
hive.merge.mapredfiles =true;
hive.merge.tezfiles = true
hive.merge.smallfiles.avgsize=256000000;

但是即使有这些设置，每个插入也会在每个分区上创建一个新文件，并且文件不会合并。

有人对我如何解决此问题有想法吗？

我的群集是Azure HDInsight群集3.2，具有Hive 0.14，Tez 0.5.2。 我的插入查询是这样的：

INSERT INTO TABLE measures PARTITION(year, month, day)
SELECT  area,
    device,
    date,
    val,
    year,
    month,
    day
FROM stagingmeasures
DISTRIBUTE BY year, month, day;

提前致谢

Answer 1

为目标表创建一个交换表（如下所示），以便将所有小文件合并为一个文件。 删除原始表，然后将交换表重命名为原始表。

每天执行一次。

CREATE TABLE swap_measures SELECT * FROM measures;
DROP TABLE measures;
ALTER TABLE swap_measures RENAME TO measures;

Answer 2

如果您的目标是使用ORC格式直接流式传输到Hive，请查看下面的链接以了解有关Hive流式API的更多信息

https://cwiki.apache.org/confluence/display/Hive/Streaming+Data+Ingest

希望这可以帮助。

Tez上的Hive 0.14：即使使用hive.merge，每个插入也可以包含一个文件。活性

问题描述

2 个解决方案

解决方案1
2 已采纳 2015-10-05 18:30:16

解决方案2
0 2015-09-14 20:44:30

Tez上的Hive 0.14：即使使用hive.merge，每个插入也可以包含一个文件。 活性

问题描述

2 个解决方案

解决方案1 2 已采纳 2015-10-05 18:30:16

解决方案2 0 2015-09-14 20:44:30

Tez上的Hive 0.14：即使使用hive.merge，每个插入也可以包含一个文件。活性

解决方案1
2 已采纳 2015-10-05 18:30:16

解决方案2
0 2015-09-14 20:44:30