繁体 English 中英

从目录中读取文件以创建 ZIP hadoop

[英]Read files from directory to create a ZIP hadoop

原文 2012-06-01 13:22:49 8 1 hadoop/ mapreduce/ zip

我正在寻找 Hadoop 示例，比 wordcount 示例更复杂。

我想做的是读取Hadoop中目录中的文件并获取zip，所以我想收集map类中的所有文件并在reduce类中创建zip文件。

谁能给我一个教程或示例的链接来帮助我构建它？

我不希望任何人为我做这件事，我要求提供一个比 wordaccount 更好的例子的链接。

我几乎明白了，如果你需要它： https : //github.com/flopezluis/testing-hadoop

1 个解决方案

如果您的目标是规范化记录中的结构化数据，来自多个输入，然后对其进行处理。 基于它，我认为你真的需要看看这篇过去对我有帮助的文章。 它包括如何使用 Hadoop/MapReduce 规范化数据并提供基于 Java 的源代码如下：

步骤 1：从原始数据中提取列值对。
步骤 2：提取不在主 ID 文件中的列值对
步骤 3：计算主文件中每列的最大 ID
步骤 4：为不匹配的值计算新 ID
第 5 步：将新 ID 与现有主 ID 合并
步骤 6：用 ID 替换原始数据中的值

还有另一个关于使用 JAVA 中新的 Writable 和 InputFormat 类读取和写入通用记录结构的方法的示例。 看看这里。

如何使用 Spark 从目录中递归读取 Hadoop 文件？

[英]How to recursively read Hadoop files from directory using Spark?

Hadoop-解压缩的zip文件

[英]Hadoop - Decompressed zip files

带有索引，数据和Bloom文件的Hadoop seq目录-如何读取？

[英]Hadoop seq directory with index, data and bloom files — how to read?

在Hadoop映射中处理Zip文件

[英]Process Zip files in Hadoop map

带有zip输入文件的Hadoop流

[英]Hadoop streaming with zip input files

Hadoop Pig或流和Zip文件

[英]Hadoop Pig or Streaming and Zip Files

在hadoop中添加对Zip文件的支持

[英]Adding support for Zip files in hadoop

如何在Hadoop中创建和读取目录-Mapreduce Job工作目录

[英]How to create and read directories in Hadoop - Mapreduce Job working directory

在hadoop文件系统中创建目录

[英]Create directory in hadoop filesystem

从包含hadoop中许多文件的目录中读取特定文件

[英]Reading from a specific file from a directory containing many files in hadoop

暂无

暂无

声明:本站的技术帖子网页，遵循CC BY-SA 4.0协议，如果您需要转载，请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

相关问题 如何使用 Spark 从目录中递归读取 Hadoop 文件？ Hadoop-解压缩的zip文件带有索引，数据和Bloom文件的Hadoop seq目录-如何读取？在Hadoop映射中处理Zip文件带有zip输入文件的Hadoop流 Hadoop Pig或流和Zip文件在hadoop中添加对Zip文件的支持如何在Hadoop中创建和读取目录-Mapreduce Job工作目录在hadoop文件系统中创建目录从包含hadoop中许多文件的目录中读取特定文件

相关标签

粤ICP备18138465号 © 2020-2024 STACKOOM.COM