繁体   English   中英

从多个目录加载多个文件到 Pig

[英]Load multiple files from multiple directory into Pig

你好,我有一个类似于a1,a2,..a8.子目录的目录a1,a2,..a8. 并且每个目录都有多个文件,例如

  bat-a1-0-0
  bat-a1-0-1
  bat-a1-1-0
  bat-a1-1-1
  ...
  bat-a1-31-0
  bat-a1-31-1

和子目录 a2 类似

bat-a2-0-0
bat-a2-0-1
bat-a2-1-0
bat-a2-1-1
...
bat-a2-31-0
bat-a2-31-1

为了不使事情复杂化,我决定做的是使用多个 LOAD 语句来加载每个目录并找到一种方法 UNION 来获取所有内容。 但我不知道如何使用Apache Pig version 0.10.0-cdh4.2.1加载每个目录中的文件,因为它们似乎不遵循简单的模式。 需要帮助谢谢。

事实上,这可能比你想象的要简单。 如果你在 pig 中加载文件,你可以简单地指向一个目录,pig 将递归加载所有文件。 甚至那些可能嵌套很深的。

所以解决方案是:确保您的所有数据都在 1 个(或几个)目录下,并将它们加载进来。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM