[英]How to add extra metadata when writing to parquet files using spark
Looks like spark by default write "org.apache.spark.sql.parquet.row.metadata" to parquet file footer.看起来像 spark 默认情况下将“org.apache.spark.sql.parquet.row.metadata”写入 parquet 文件页脚。 However, what if I want to write some random metadata(such as version=123) to a parquet file produced by spark?
但是,如果我想将一些随机元数据(例如 version=123)写入 spark 生成的 parquet 文件怎么办?
This does NOT work:这不起作用:
df.write().option("version","123").parquet("somefile.parquet");
And I'm using spark version 1.6.2我使用的是 spark 版本 1.6.2
Column level metadata, yes see my comment.列级元数据,是的,请参阅我的评论。
Table level comments/user metadata: See https://issues.apache.org/jira/browse/SPARK-10803表级评论/用户元数据:见https://issues.apache.org/jira/browse/SPARK-10803
Sadly, not yet可惜还没有
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.