繁体   English   中英

将数据加载到Impala分区表中

[英]load data into impala partitioned table

我在以下目录结构的HDFS中有数据:

/exported/2014/07/01/00/SEARCHES/part-m-00000.bz2
                                 part-m-00001.bz2
/exported/2014/07/01/02/SEARCHES/part-m-00000.bz2
                                 part-m-00001.bz2
                                 part-m-00003.bz2
.
.
.
.
/exported/2014/08/01/09/SEARCHES/part-m-00005 .bz2

每个子目录中都有多个零件文件。

我想将此数据集加载到impala表中,因此请使用以下查询创建表:

CREATE EXTERNAL TABLE search(time_stamp TIMESTAMP,..... url STRING,domain STRING)分区依据(年INT,月INT,天INT。小时INT)行格式,以'\\ t'终止;

然后

ALTER TABLE search ADD PARTITION (year=2014, month=08, day=01) LOCATION '/data/jobs/exported/2014/08/01/*/SEARCHES/';

但是它无法加载,并显示以下错误:

ERROR: AnalysisException: Failed to load metadata for table: magneticbi.search_mmx
CAUSED BY: TableLoadingException: Failed to load metadata for table: search_mmx
CAUSED BY: RuntimeException: Compressed text files are not supported: part-m-00000.bz2

不确定执行此操作的正确方法是什么。

任何人都可以帮忙吗?

谢谢

这是指向Cloudera的表格链接,该表格描述了您的选项。 总结一下:

Impala支持以下压缩编解码器:

  • 快活 建议在压缩比和减压速度之间达到有效平衡。 快速压缩非常快,但是GZIP可以节省更多空间。 文本文件不支持。
  • GZIP。 当需要达到最高压缩水平(因此可以最大程度地节省磁盘空间)时,建议使用此方法。 文本文件不支持。 放气。 文本文件不支持。
  • BZIP2。 文本文件不支持。
  • LZO,仅适用于文本文件。 Impala可以查询LZO压缩的Text表,但当前无法创建它们或将数据插入其中。 在Hive中执行这些操作。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM