簡體   English   中英

Hadoop tmp目錄變得巨大

[英]Hadoop tmp directory gets huge

我的問題是我有5個節點的Hadoop集群,集群上的文件需要350 GB。 我正在運行一個Pig腳本,該腳本連接了三個不同的文件並將它們連接在一起。 作業每次運行少於30分鍾即可完成所有地圖任務,然后運行6個小時才能完成還原任務,在最佳情況下,所有這些還原任務最終都會失敗。 在最壞的情況下,我的Hadoop卡住了,這是由於進入安全模式的namenode引起的,因為它沒有足夠的空間(超過了配額)。

由tmp目錄占用大廳可用空間(7TB !!)引起的問題。 我的腳本如下所示:

info_file = LOAD '$info' as (name, size, type,generation,streamId);
chunks_file = LOAD '$chunk' as (fp, size);
relation_file = LOAD '$relation' as (fp, filename);

chunks_relation = JOIN chunks_file BY fp, relation_file BY fp;
 chunks_files= JOIN chunks_relation BY $3, info_file BY $0;

result = FOREACH chunks_files  GENERATE  $0,$1,$3,$5,$6,$7,$8;
STORE  result INTO '$out';

任何想法 ??

您的腳本看起來不錯。 您要加入的文件大小是多少?

在任何地方,Join都是昂貴的運算符。 您可以通過使用Pig中的復制,偏斜,合並聯接來優化聯接。 仔細閱讀這些聯接文檔,然后根據您的文件大小和要求進行應用。

https://bluewatersql.wordpress.com/category/Pig/

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM