簡體   English   中英

在Apache Pig中讀取Snappy壓縮的Hive RCFile

[英]Read Snappy compressed Hive RCFile in Apache Pig

嘗試使用http://pig.apache.org/docs/r0.8.1/api/org/apache/pig/piggybank/storage/HiveColumnarLoader.html讀取Pig中的Hive文件

Fies的開頭有RCFSnappyCodechive.io.rcfile.column.number字,它們是二進制文件。 此外,它們被划分為多個目錄(例如/day=20140701 )。

但是,加載,分組和計數行的簡單腳本不會輸出任何內容。 如果我嘗試添加“ ILLUSTRATE”,如下所示:

rows = LOAD ... using HiveColumnarLoader ...;
ILLUSTRATE rows;

我收到這樣的錯誤:

2014-07-17 14:16:43,086 [main] ERROR org.apache.pig.pen.AugmentBaseDataVisitor - No (valid) input data found!
java.lang.RuntimeException: No (valid) input data found!
    at org.apache.pig.pen.AugmentBaseDataVisitor.visit(AugmentBaseDataVisitor.java:583)
    at org.apache.pig.newplan.logical.relational.LOLoad.accept(LOLoad.java:229)
    at org.apache.pig.pen.util.PreOrderDepthFirstWalker.depthFirst(PreOrderDepthFirstWalker.java:82)
    at org.apache.pig.pen.util.PreOrderDepthFirstWalker.walk(PreOrderDepthFirstWalker.java:66)
    at org.apache.pig.newplan.PlanVisitor.visit(PlanVisitor.java:52)
    at org.apache.pig.pen.ExampleGenerator.getExamples(ExampleGenerator.java:180)
    at org.apache.pig.PigServer.getExamples(PigServer.java:1180)
...

我不確定是由於Snappy壓縮還是由於指定架構而遇到的麻煩(我是從hive中復制它的describe table)。

任何人都可以確認HiveColumnarLoader是否可以處理快速壓縮的文件或提出其他方法嗎?

提前致謝!

您是否嘗試過HCatLoader?

rows =使用org.apache.hcatalog.pig.HCatLoader()加載“表名”;

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM