[英]Read Snappy compressed Hive RCFile in Apache Pig
嘗試使用http://pig.apache.org/docs/r0.8.1/api/org/apache/pig/piggybank/storage/HiveColumnarLoader.html
讀取Pig中的Hive
文件
Fies的開頭有RCF
, SnappyCodec
和hive.io.rcfile.column.number
字,它們是二進制文件。 此外,它們被划分為多個目錄(例如/day=20140701
)。
但是,加載,分組和計數行的簡單腳本不會輸出任何內容。 如果我嘗試添加“ ILLUSTRATE”,如下所示:
rows = LOAD ... using HiveColumnarLoader ...;
ILLUSTRATE rows;
我收到這樣的錯誤:
2014-07-17 14:16:43,086 [main] ERROR org.apache.pig.pen.AugmentBaseDataVisitor - No (valid) input data found!
java.lang.RuntimeException: No (valid) input data found!
at org.apache.pig.pen.AugmentBaseDataVisitor.visit(AugmentBaseDataVisitor.java:583)
at org.apache.pig.newplan.logical.relational.LOLoad.accept(LOLoad.java:229)
at org.apache.pig.pen.util.PreOrderDepthFirstWalker.depthFirst(PreOrderDepthFirstWalker.java:82)
at org.apache.pig.pen.util.PreOrderDepthFirstWalker.walk(PreOrderDepthFirstWalker.java:66)
at org.apache.pig.newplan.PlanVisitor.visit(PlanVisitor.java:52)
at org.apache.pig.pen.ExampleGenerator.getExamples(ExampleGenerator.java:180)
at org.apache.pig.PigServer.getExamples(PigServer.java:1180)
...
我不確定是由於Snappy壓縮還是由於指定架構而遇到的麻煩(我是從hive中復制它的describe table)。
任何人都可以確認HiveColumnarLoader是否可以處理快速壓縮的文件或提出其他方法嗎?
提前致謝!
您是否嘗試過HCatLoader?
rows =使用org.apache.hcatalog.pig.HCatLoader()加載“表名”;
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.