繁体   English   中英

Hadoop序列化和反序列化

[英]Hadoop Serialization and De-Serialization

我有要处理的文件以二进制流格式存储在HDFS中。 现在,我必须使用map-reduce对文件进行一些处理。 输入文件被拆分为任何块(到达输入块时,文件为原始格式)我的问题是何时反序列化发生? 我的代码中实现了可写接口,它具有两个方法,即readFields和write。 这些方法是否负责对HDFS中存储的实际数据进行反序列化和序列化? 如果是,请您解释一下数据流吗? 我整日都坚持这个概念,请帮忙。

序列化在映射器阶段对Context对象执行write方法期间发生。 在编写context.write(key,value {own_object})的代码中,序列化开始。 将映射输出写入本地磁盘后,SS就会出现。 在此阶段,中间输出将由框架处理。 这是反序列化(使用read())。 您可以在映射器之后看到序列化的数据。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM