繁体   English   中英

不论模式如何,在地图中读取avro文件记录都会减少

[英]Read avro file records in map reduce irrespective of schema

我需要编写一个map reduce程序来从整个hdfs文件中读取avro文件。我的映射器代码输入将是具有不同架构的不同avro文件。 在代码的映射器部分,无论文件模式如何,我都需要读取文件的整个记录​​。 谁能告诉我我们如何才能从avro中读取整个记录。

提前致谢。

一般来说,我认为这是可行的。 不确定您要实现的目标,但是可以说您想对由相同架构支持的记录做些什么。

在您的映射器中,读取字节并获取架构json。 这是如何获取模式的示例: http : //www.programcreek.com/java-api-examples/index.php ?api=org.apache.avro.generic.GenericDatumReader映射器中的键是模式json字符串,值将是记录(字节)。 然后在化简器中,您将拥有所有相同的架构,并且您将能够使用GenericRecord使用提供的架构反序列化数据,并执行您想要的任何事情。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM