簡體   English   中英

如何在Avro模式中避免Map of Map

[英]How to avoid Map of Map of Map of Map in Avro schema

我的應用程序中需要為Map of Map(4級嵌套地圖)的Map Map定義Avro Schema。 除了最后一張地圖(最終內部地圖),我在每個級別上都使用鍵。 我想知道該架構的優缺點。 性能有問題嗎?

始終避免使用嵌套地圖。

AVRO文件格式是基於架構的。 如果使用嵌套映射,將很難設計架構。 Avro也基於序列化技術工作。 如果要使用“字符串”,它將很好用,但不適用於其他數據類型。

查看Schema Map >>的選擇,這意味着對於給定的鍵,您具有很多值。

當您應該開始尋找像鑲木地板這樣的柱狀數據存儲時,這是一種經典情況。

將AVRO與鑲木地板混合,並展平Avro模式。

由於鑲木地板是Columnar數據格式,因此不會多次存儲重復的數據,而只會存儲一次。

使用ORC,您將得到一個簡單的AVRO模式

http://bytepadding.com/big-data/spark/read-write-parquet-files-using-spark/

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM