繁体   English   中英

蜂巢中具有分区的外部表

[英]external table with partitions in hive

我在HDFS中的目录结构中有一堆tsv文件,该目录结构遵循分区约定,其中event_dt是分区。

some_path/event_dt=2017-04-30
some_path/event_dt=2017-05-01

等等。

问题是event_dt也是列之一。 特别是第二个。 但是我无法指定,因为event_dt不能出现在表模式和PARTITIONED BY语句中。 触发:

 Column repeated in partitioning columns

除了使用不同的名称之外,还有其他方法吗? 毕竟,它是相同的信息。

3个选项,如果您不想重命名列。

  1. 如果event_dt是csv中的最后一列,则创建不包含此列的表。
  2. 在提取过程中,请排除数据的此信息,然后将数据从一个位置转换到另一个位置,在该位置,目标表由even_dt分区(这不是最有效的方式)
  3. 在您的表格顶部创建一个视图(不包括其中一列),否则原始表格将需要重命名。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM