繁体   English   中英

猪加载多个顺序文件

[英]Pig load multiple sequential files

假设一个目录中有多个文件,如果将目录传递给Pig Load A = LOAD '/SomeDir/' ,它将一次加载所有文件(我想以任何顺序。我不确定)。 但是考虑到文件名是否是动态的并且是否也按顺序排列(例如根据日期),一个调用Pig的顺序如何? 或者可以使用ls来使用unix list directory命令?

/SomeDir$ls

20150101.csv
20150102.csv
20150104.csv
.......

#Pig load files at once while keeping the order 

Pig LOAD语句用于从指定位置读取输入数据。 假设您的pig命令是:

A = load '/data/examples/file.txt';

这意味着您要指定从file.txt中读取数据,该文件位于/data/examples/

假设您的pig命令为: A = load '/data/examples/'; 在目录中有多个文件,例如

20150101.csv
20150102.csv
20150104.csv

这意味着您指定要从以下目录中读取数据: /data/examples/在这种情况下,Pig将在您指定的目录下找到所有文件,并将它们用作该load语句的输入,并按顺序进行读取,开始从第一个文件开始。

如果您指定的目录还有其他目录,则这些目录中的文件也将包括在内。

以下链接将有助于深入了解LOAD功能。

http://pig.apache.org/docs/r0.8.1/udf.html#Load+Functions

http://chimera.labs.oreilly.com/books/1234000001811/ch05.html#pl_load

http://pig.apache.org/docs/r0.8.1/piglatin_ref2.html#LOAD

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM