使用 spark 写入镶木地板文件时如何添加额外的元数据

Question

Looks like spark by default write "org.apache.spark.sql.parquet.row.metadata" to parquet file footer.看起来像 spark 默认情况下将“org.apache.spark.sql.parquet.row.metadata”写入 parquet 文件页脚。 However, what if I want to write some random metadata(such as version=123) to a parquet file produced by spark?但是，如果我想将一些随机元数据（例如 version=123）写入 spark 生成的 parquet 文件怎么办？

This does NOT work:这不起作用：

df.write().option("version","123").parquet("somefile.parquet");

And I'm using spark version 1.6.2我使用的是 spark 版本 1.6.2

Answer 1

Column level metadata, yes see my comment.列级元数据，是的，请参阅我的评论。

Table level comments/user metadata: See https://issues.apache.org/jira/browse/SPARK-10803表级评论/用户元数据：见https://issues.apache.org/jira/browse/SPARK-10803

Sadly, not yet可惜还没有

使用 spark 写入镶木地板文件时如何添加额外的元数据

问题描述

1 个解决方案

解决方案1
2 已采纳 2017-02-24 18:43:17

使用 spark 写入镶木地板文件时如何添加额外的元数据

问题描述

1 个解决方案

解决方案1 2 已采纳 2017-02-24 18:43:17

解决方案1
2 已采纳 2017-02-24 18:43:17