繁体   English   中英

Hadoop如何处理没有key-value结构的文件

[英]How does Hadoop deals with files with no key-value structure

我是 Hadoop 的新手,我正在学习 Map Reduce 范式。 在我遵循的教程中,据说 map reduce 方法倾向于根据文件的 Key-Value 应用两个操作(map 和 reduce)。 我知道 hadoop 也处理非结构化数据,所以我想知道在非结构化数据的情况下它如何处理 map reduce。

以文字为例

Hello
World

有两行文本,但自然有一个键和一个值,文件偏移量和行本身。 如果您对文件进行十六进制转储,您会看到类似这样的内容

0x0 Hello
0x6 World

这就是 HDFS 知道如何将纯文本文件拆分为块的方式,因此可以使用 mapreduce(和其他运行时引擎)来读取该数据。

如果您要存储视频、图像、音频、pdf 文档等,那么您必须实现自己的 InputFormat 阅读器来确定文件的字节应如何结构化和并行化(如果有的话)

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM