[英]Pig load multiple sequential files
假设一个目录中有多个文件,如果将目录传递给Pig Load A = LOAD '/SomeDir/'
,它将一次加载所有文件(我想以任何顺序。我不确定)。 但是考虑到文件名是否是动态的并且是否也按顺序排列(例如根据日期),一个调用Pig的顺序如何? 或者可以使用ls
来使用unix list directory命令?
/SomeDir$ls
20150101.csv
20150102.csv
20150104.csv
.......
#Pig load files at once while keeping the order
Pig LOAD语句用于从指定位置读取输入数据。 假设您的pig命令是:
A = load '/data/examples/file.txt';
这意味着您要指定从file.txt中读取数据,该文件位于/data/examples/
假设您的pig命令为: A = load '/data/examples/';
在目录中有多个文件,例如
20150101.csv
20150102.csv
20150104.csv
这意味着您指定要从以下目录中读取数据: /data/examples/
在这种情况下,Pig将在您指定的目录下找到所有文件,并将它们用作该load语句的输入,并按顺序进行读取,开始从第一个文件开始。
如果您指定的目录还有其他目录,则这些目录中的文件也将包括在内。
以下链接将有助于深入了解LOAD
功能。
http://pig.apache.org/docs/r0.8.1/udf.html#Load+Functions
http://chimera.labs.oreilly.com/books/1234000001811/ch05.html#pl_load
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.