簡體   English   中英

不論模式如何,在地圖中讀取avro文件記錄都會減少

[英]Read avro file records in map reduce irrespective of schema

我需要編寫一個map reduce程序來從整個hdfs文件中讀取avro文件。我的映射器代碼輸入將是具有不同架構的不同avro文件。 在代碼的映射器部分,無論文件模式如何,我都需要讀取文件的整個記錄​​。 誰能告訴我我們如何才能從avro中讀取整個記錄。

提前致謝。

一般來說,我認為這是可行的。 不確定您要實現的目標,但是可以說您想對由相同架構支持的記錄做些什么。

在您的映射器中,讀取字節並獲取架構json。 這是如何獲取模式的示例: http : //www.programcreek.com/java-api-examples/index.php ?api=org.apache.avro.generic.GenericDatumReader映射器中的鍵是模式json字符串,值將是記錄(字節)。 然后在化簡器中,您將擁有所有相同的架構,並且您將能夠使用GenericRecord使用提供的架構反序列化數據,並執行您想要的任何事情。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM