繁体   English   中英

使用 Apache Beam Java SDK 读取 Parquet 文件而不提供架构

[英]Read Parquet file using Apache Beam Java SDK without providing schema

似乎org.apache.beam.sdk.io.parquet.ParquetIO.readFiles方法需要传入一个架构。

  • 有没有办法避免传递模式的需要?
  • Parquet 文件中不包含架构吗?
  • 如果我尝试读取具有不同架构的多个 Parquet 文件怎么办?

请找到我的内联回复

  • 有没有办法避免传递模式的需要? 目前没有机制可以避免传递镶木地板文件的架构

  • Parquet 文件中不包含架构吗? 是的,这是正确的,标头中的元数据作为文件的架构定义。 请参阅BEAM-8344 ,这是一个支持推断模式的开放功能请求

  • 如果我尝试读取具有不同架构的多个 Parquet 文件怎么办? 您可以执行以下操作,其中您可以传递文件模式和路径并指定不同的模式。

  PCollection<FileIO.ReadableFile> files = pipeline
    .apply(FileIO.match().filepattern(options.getInputFilepattern())
    .apply(FileIO.readMatches());

  PCollection<GenericRecord> output = files.apply(ParquetIO.readFiles(SCHEMA));

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM