簡體   English   中英

如何使用Pig中的HCatlog對Hive Metastore使用壓縮技術?

[英]How to use compression techniques for hive metastore using HCatlog in Pig?

我有一些Pig腳本,可以使用PigStorage()從普通文本文件中輸入內容。 我想從hive metastore加載和存儲數據,因為我已經使用了Hcatalog的HcatLoader()和HcatStorage()。 有人可以告訴我如何在Pig中存儲和加載壓縮蜂巢數據。

Pig通常知道如何使用gzip或bzip2壓縮的數據自動加載壓縮數據。 對於LZO,您必須在群集上啟用該功能。

要以壓縮形式存儲數據,可以將其放在腳本中:

SET mapred.output.compress true;
SET mapred.output.compression.codec org.apache.hadoop.io.compress.GzipCodec;

這將導致您的輸出使用gzip壓縮。

HCatalog章程的一部分是讓消費者完全不了解存儲問題(例如壓縮或格式)。 如果基礎存儲首先是未壓縮的,然后再壓縮,則不必重寫腳本來確保您正在讀取壓縮的數據。

話雖如此……我認為HCatalog中尚未實現壓縮支持。 HCatalog路線圖 -很久以前寫的...但是在預期的將來功能中具有“壓縮”作用。

我的猜測是,您將不得不使用HiveStorage類而不是HCatalog。

免責聲明:我對此也可能完全誤認為,但是我已經找到的所有證據似乎都表明HCatalog中未實現壓縮。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM