Hadoop tmp目錄變得巨大

Question

我的問題是我有5個節點的Hadoop集群，集群上的文件需要350 GB。 我正在運行一個Pig腳本，該腳本連接了三個不同的文件並將它們連接在一起。 作業每次運行少於30分鍾即可完成所有地圖任務，然后運行6個小時才能完成還原任務，在最佳情況下，所有這些還原任務最終都會失敗。 在最壞的情況下，我的Hadoop卡住了，這是由於進入安全模式的namenode引起的，因為它沒有足夠的空間（超過了配額）。

由tmp目錄占用大廳可用空間（7TB !!）引起的問題。 我的腳本如下所示：

info_file = LOAD '$info' as (name, size, type,generation,streamId);
chunks_file = LOAD '$chunk' as (fp, size);
relation_file = LOAD '$relation' as (fp, filename);

chunks_relation = JOIN chunks_file BY fp, relation_file BY fp;
 chunks_files= JOIN chunks_relation BY $3, info_file BY $0;

result = FOREACH chunks_files  GENERATE  $0,$1,$3,$5,$6,$7,$8;
STORE  result INTO '$out';

任何想法？？

Answer 1

您的腳本看起來不錯。 您要加入的文件大小是多少？

在任何地方，Join都是昂貴的運算符。 您可以通過使用Pig中的復制，偏斜，合並聯接來優化聯接。 仔細閱讀這些聯接文檔，然后根據您的文件大小和要求進行應用。

https://bluewatersql.wordpress.com/category/Pig/

Hadoop tmp目錄變得巨大

問題描述

1 個解決方案

解決方案1
0 2015-01-30 19:07:14

Hadoop tmp目錄變得巨大

問題描述

1 個解決方案

解決方案1 0 2015-01-30 19:07:14

解決方案1
0 2015-01-30 19:07:14