[英]How to merge schema while loading avro in spark dataframe?
我正在嘗試使用https://github.com/databricks/spark-avro讀取 avro 文件,並且 avro 模式隨着時間的推移而演變。 我這樣閱讀,將 mergeSchema 選項設置為true
,希望它會合並架構本身,但它沒有用。
sqlContext.read.format("com.databricks.spark.avro").option("mergeSchema", "true").load('s3://xxxx/d=2015-10-27/h=*/')
解決方法是什么?
spark 中的 avro 文件未實現合並模式,並且沒有簡單的解決方法。 一種解決方案是將您的 avro 數據逐個文件(或逐個分區)作為單獨的數據集讀取,然后合並這些數據集。 但這可能非常慢。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.