簡體   English   中英

在Pig腳本中輸入零件文件作為輸入時,訂單不匹配

[英]order mismatch while Loading part files as input in pig script

當我嘗試以其他豬腳本的順序加載豬腳本的輸出時,加載的數據正在更改

我的Pig script-1輸出中有5個零件文件

part-r-00000
part-r-00001
part-r-00002
part-r-00003
part-r-00004

我要在零件腳本中加載Pig腳本1的輸出時按零件文件名的順序在另一個腳本中加載此零件文件,而加載的Pig腳本2數據不是按零件文件的順序進行,我按以下方式加載此輸出

SET default_parallel 5;
A = LOAD 'Output' USING PigStorage(‘,’) AS (f1:int, f2:int, f3:int);

Dump A;

DATA in part-r-00000
DATA in part-r-00001
DATA in part-r-00004
DATA in part-r-00003
DATA in part-r-00002

並且每次加載數據的順序都在變化

有什么解決方案可以按零件文件名的順序加載數據?

我想不出任何但任何幫助將不勝感激。

您可以使用以下命令加載所有零件文件

xyz = LOAD 'output_path/part-*' using PigStorage() AS (f1:int, f2:int, f3:int);

但這不能保證您將按順序加載所有零件文件,這里我們只是指定要加載所有零件文件。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM