繁体   English   中英

从目录中读取文件以创建 ZIP hadoop

[英]Read files from directory to create a ZIP hadoop

我正在寻找 Hadoop 示例,比 wordcount 示例更复杂。

我想做的是读取Hadoop中目录中的文件并获取zip,所以我想收集map类中的所有文件并在reduce类中创建zip文件。

谁能给我一个教程或示例的链接来帮助我构建它?

我不希望任何人为我做这件事,我要求提供一个比 wordaccount 更好的例子的链接。

我几乎明白了,如果你需要它: https : //github.com/flopezluis/testing-hadoop

如果您的目标是规范化记录中的结构化数据,来自多个输入,然后对其进行处理。 基于它,我认为你真的需要看看这篇过去对我有帮助的文章 它包括如何使用 Hadoop/MapReduce 规范化数据并提供基于 Java 的源代码如下:

  • 步骤 1:从原始数据中提取列值对。
  • 步骤 2:提取不在主 ID 文件中的列值对
  • 步骤 3:计算主文件中每列的最大 ID
  • 步骤 4:为不匹配的值计算新 ID
  • 第 5 步:将新 ID 与现有主 ID 合并
  • 步骤 6:用 ID 替换原始数据中的值

还有另一个关于使用 JAVA 中新的 Writable 和 InputFormat 类读取和写入通用记录结构的方法的示例。 看看这里

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM