簡體   English   中英

如何在 spark 數據幀中加載 avro 時合並模式?

[英]How to merge schema while loading avro in spark dataframe?

我正在嘗試使用https://github.com/databricks/spark-avro讀取 avro 文件,並且 avro 模式隨着時間的推移而演變。 我這樣閱讀,將 mergeSchema 選項設置為true ,希望它會合並架構本身,但它沒有用。

sqlContext.read.format("com.databricks.spark.avro").option("mergeSchema", "true").load('s3://xxxx/d=2015-10-27/h=*/')

解決方法是什么?

spark 中的 avro 文件未實現合並模式,並且沒有簡單的解決方法。 一種解決方案是將您的 avro 數據逐個文件(或逐個分區)作為單獨的數據集讀取,然后合並這些數據集。 但這可能非常慢。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM