简体   繁体   English

使用 spark 写入镶木地板文件时如何添加额外的元数据

[英]How to add extra metadata when writing to parquet files using spark

Looks like spark by default write "org.apache.spark.sql.parquet.row.metadata" to parquet file footer.看起来像 spark 默认情况下将“org.apache.spark.sql.parquet.row.metadata”写入 parquet 文件页脚。 However, what if I want to write some random metadata(such as version=123) to a parquet file produced by spark?但是,如果我想将一些随机元数据(例如 version=123)写入 spark 生成的 parquet 文件怎么办?

This does NOT work:这不起作用:

df.write().option("version","123").parquet("somefile.parquet");

And I'm using spark version 1.6.2我使用的是 spark 版本 1.6.2

Column level metadata, yes see my comment.列级元数据,是的,请参阅我的评论。

Table level comments/user metadata: See https://issues.apache.org/jira/browse/SPARK-10803表级评论/用户元数据:见https://issues.apache.org/jira/browse/SPARK-10803

Sadly, not yet可惜还没有

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

相关问题 将 Dataframe 写入 Spark Job 中的 parquet 文件时容器 OOM 问题 - Issue of container OOM when writing Dataframe to parquet files in Spark Job 在 Spark 中的 HDFS 上写入 csv/parquet 时如何“强制”显示 CRC 文件 - How to “force” CRC files to appear when writing csv/parquet on HDFS in Spark 从 Spark 将许多文件写入镶木地板 - 缺少一些镶木地板文件 - Writing many files to parquet from Spark - Missing some parquet files 从 Spark 写入 parquet 时如何处理空值 - How to handle null values when writing to parquet from Spark 如何使用 SPARK 将多个镶木地板文件转换为 TFrecord 文件? - How to convert multiple parquet files into TFrecord files using SPARK? 在 Rust 中使用 Polars 编写 Parquet 文件时控制压缩级别 - Control the compression level when writing Parquet files using Polars in Rust 有没有办法为Spark数据帧添加额外的元数据? - Is there a way to add extra metadata for Spark dataframes? 当有过滤器和效率建议时,Spark 如何处理 parquet 文件 - How does Spark process parquet files when there are filters and recommendations for efficiency 使用 Scala 为 spark 编写 Parquet 文件而无需 spark 作为依赖项 - Writing Parquet files with Scala for spark without spark as dependency 读取时,Spark中的排序文件是否忽略了实木复合地板摘要文件(_metadata)? - parquet summary file (_metadata) ignored for sorted files in Spark while reading?
 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM