按现有字段分区 Hive 表？

Question

我可以在通过现有字段插入时对 Hive 表进行分区吗？

我有一个 10 GB 的文件，其中包含一个日期字段和一个小时字段。 我可以将此文件加载到表中，然后插入覆盖到另一个使用这些字段作为分区的分区表中吗？ 会像以下工作吗？

INSERT OVERWRITE TABLE tealeaf_event  PARTITION(dt=evt.datestring,hour=evt.hour) 
SELECT * FROM staging_event evt;

谢谢！

特拉维斯

Answer 1

我刚刚遇到这个试图回答同样的问题，它很有帮助，但并不完整。 简短的回答是肯定的，类似问题中的查询会起作用，但语法不太正确。

假设您有三个使用以下语句创建的表：

CREATE TABLE staging_unpartitioned (datestring string, hour int, a int, b int);

CREATE TABLE staging_partitioned (a int, b int) 
    PARTITIONED BY (datestring string, hour int);

CREATE TABLE production_partitioned (a int, b int) 
    PARTITIONED BY (dt string, hour int);

a列和b列只是一些示例列。 dt和hour是我们想要在它到达生产表后对其进行分区的值。 将 staging 数据从staging_unpartitioned和staging_partitioned移至生产环境看起来完全一样。

INSERT OVERWRITE TABLE production_partitioned PARTITION (dt, hour)
    SELECT a, b, datestring, hour FROM staging_unpartitioned;

INSERT OVERWRITE TABLE production_partitioned PARTITION (dt, hour)
    SELECT a, b, datestring, hour FROM staging_partitioned;

这使用了一个称为动态分区的过程，您可以在此处阅读。 需要注意的重要一点是，哪些列与哪些分区相关联是由 SELECT 顺序决定的。 所有动态分区必须按顺序最后选择。

当您尝试运行上面的代码时，很有可能会因为您设置的属性而遇到错误。 首先，如果您禁用了动态分区，它将无法工作，因此请确保：

set hive.exec.dynamic.partition=true;

如果您在动态分区之前没有在至少一个 static 分区上进行分区，那么您可能会遇到错误。 当您打算用动态分区覆盖其子分区时，此限制将避免您意外删除根分区。 以我的经验，这种行为从来没有帮助过，而且经常很烦人，但你的里程可能会有所不同。 无论如何，很容易改变：

set hive.exec.dynamic.partition.mode=nonstrict;

那应该这样做。

Answer 2

也许这已经被回答了......但是是的，你可以完全按照你所说的去做。 我已经做过很多次了。 显然，您的新表需要与原始表类似地定义，但没有分区列，并且具有分区规范。 另外，我不记得是否必须明确列出原始表中的列，或者星号是否足够。

Answer 3

我对此不太确定，但这样的事情可能会奏效

INSERT OVERWRITE TABLE tealeaf_event
SELECT col1 as tealeaf_col1, ..., datestring as ds;

Answer 4

不可以。您必须删除该字段，或者至少重命名它。

按现有字段分区 Hive 表？

问题描述

4 个解决方案

解决方案1
13 2013-03-07 19:34:30

解决方案2
1 2012-01-17 18:11:38

解决方案3
0 2011-09-23 15:56:55

解决方案4
-1 2011-07-09 02:27:42

按现有字段分区 Hive 表？

问题描述

4 个解决方案

解决方案1 13 2013-03-07 19:34:30

解决方案2 1 2012-01-17 18:11:38

解决方案3 0 2011-09-23 15:56:55

解决方案4 -1 2011-07-09 02:27:42

解决方案1
13 2013-03-07 19:34:30

解决方案2
1 2012-01-17 18:11:38

解决方案3
0 2011-09-23 15:56:55

解决方案4
-1 2011-07-09 02:27:42