如何使用Pig中的HCatlog對Hive Metastore使用壓縮技術？

Question

我有一些Pig腳本，可以使用PigStorage（）從普通文本文件中輸入內容。 我想從hive metastore加載和存儲數據，因為我已經使用了Hcatalog的HcatLoader（）和HcatStorage（）。 有人可以告訴我如何在Pig中存儲和加載壓縮蜂巢數據。

Answer 1

Pig通常知道如何使用gzip或bzip2壓縮的數據自動加載壓縮數據。 對於LZO，您必須在群集上啟用該功能。

要以壓縮形式存儲數據，可以將其放在腳本中：

SET mapred.output.compress true;
SET mapred.output.compression.codec org.apache.hadoop.io.compress.GzipCodec;

這將導致您的輸出使用gzip壓縮。

Answer 2

HCatalog章程的一部分是讓消費者完全不了解存儲問題（例如壓縮或格式）。 如果基礎存儲首先是未壓縮的，然后再壓縮，則不必重寫腳本來確保您正在讀取壓縮的數據。

話雖如此……我認為HCatalog中尚未實現壓縮支持。 HCatalog路線圖 -很久以前寫的...但是在預期的將來功能中具有“壓縮”作用。

我的猜測是，您將不得不使用HiveStorage類而不是HCatalog。

免責聲明：我對此也可能完全誤認為，但是我已經找到的所有證據似乎都表明HCatalog中未實現壓縮。