[英]How to use compression techniques for hive metastore using HCatlog in Pig?
我有一些Pig腳本,可以使用PigStorage()從普通文本文件中輸入內容。 我想從hive metastore加載和存儲數據,因為我已經使用了Hcatalog的HcatLoader()和HcatStorage()。 有人可以告訴我如何在Pig中存儲和加載壓縮蜂巢數據。
Pig通常知道如何使用gzip或bzip2壓縮的數據自動加載壓縮數據。 對於LZO,您必須在群集上啟用該功能。
要以壓縮形式存儲數據,可以將其放在腳本中:
SET mapred.output.compress true;
SET mapred.output.compression.codec org.apache.hadoop.io.compress.GzipCodec;
這將導致您的輸出使用gzip壓縮。
HCatalog章程的一部分是讓消費者完全不了解存儲問題(例如壓縮或格式)。 如果基礎存儲首先是未壓縮的,然后再壓縮,則不必重寫腳本來確保您正在讀取壓縮的數據。
話雖如此……我認為HCatalog中尚未實現壓縮支持。 HCatalog路線圖 -很久以前寫的...但是在預期的將來功能中具有“壓縮”作用。
我的猜測是,您將不得不使用HiveStorage類而不是HCatalog。
免責聲明:我對此也可能完全誤認為,但是我已經找到的所有證據似乎都表明HCatalog中未實現壓縮。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.