[英]order mismatch while Loading part files as input in pig script
當我嘗試以其他豬腳本的順序加載豬腳本的輸出時,加載的數據正在更改
我的Pig script-1輸出中有5個零件文件
part-r-00000
part-r-00001
part-r-00002
part-r-00003
part-r-00004
我要在零件腳本中加載Pig腳本1的輸出時按零件文件名的順序在另一個腳本中加載此零件文件,而加載的Pig腳本2數據不是按零件文件的順序進行,我按以下方式加載此輸出
SET default_parallel 5;
A = LOAD 'Output' USING PigStorage(‘,’) AS (f1:int, f2:int, f3:int);
Dump A;
DATA in part-r-00000
DATA in part-r-00001
DATA in part-r-00004
DATA in part-r-00003
DATA in part-r-00002
並且每次加載數據的順序都在變化
有什么解決方案可以按零件文件名的順序加載數據?
我想不出任何但任何幫助將不勝感激。
您可以使用以下命令加載所有零件文件
xyz = LOAD 'output_path/part-*' using PigStorage() AS (f1:int, f2:int, f3:int);
但這不能保證您將按順序加載所有零件文件,這里我們只是指定要加載所有零件文件。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.