如何有效地读写Parquet文件？

Question

我正在使用一种实用程序，该实用程序可以一次读取多个镶木地板文件并将它们写入一个输出文件中。 实现非常简单。 该实用程序从目录中读取实木复合地板文件，从所有文件中读取Group并将它们放入列表中。然后使用ParquetWrite将所有这些组写入单个文件中。
读取600mb后，它将抛出Java堆空间的内存不足错误。 读取和写入500mb的数据也需要15-20分钟。

有没有办法使此操作更有效？

读取方法如下所示：

ParquetFileReader reader = new ParquetFileReader(conf, path, ParquetMetadataConverter.NO_FILTER);
          ParquetMetadata readFooter = reader.getFooter();
          MessageType schema = readFooter.getFileMetaData().getSchema();
          ParquetFileReader r = new ParquetFileReader(conf, path, readFooter);
          reader.close();
          PageReadStore pages = null;
          try {
            while (null != (pages = r.readNextRowGroup())) {
              long rows = pages.getRowCount();
              System.out.println("Number of rows: " + pages.getRowCount());

              MessageColumnIO columnIO = new ColumnIOFactory().getColumnIO(schema);
              RecordReader<Group> recordReader = columnIO.getRecordReader(pages, new GroupRecordConverter(schema));
              for (int i = 0; i < rows; i++) {
                Group g = (Group) recordReader.read();
                //printGroup(g);
                groups.add(g);
              }
            }
          } finally {
            System.out.println("close the reader");

            r.close();
          }

写方法是这样的：

for(Path file : files){
            groups.addAll(readData(file));
        }

        System.out.println("Number of groups from the parquet files "+groups.size());

        Configuration configuration = new Configuration();
        Map<String, String> meta = new HashMap<String, String>();
        meta.put("startkey", "1");
        meta.put("endkey", "2");
        GroupWriteSupport.setSchema(schema, configuration);
        ParquetWriter<Group> writer = new ParquetWriter<Group>(
                new Path(outputFile),
                new GroupWriteSupport(),
                CompressionCodecName.SNAPPY,
                2147483647,
                268435456,
                134217728,
                true,
                false,
                ParquetProperties.WriterVersion.PARQUET_2_0,
                configuration);
        System.out.println("Number of groups to write:"+groups.size());
        for(Group g : groups) {
            writer.write(g);
        }
        writer.close();

Answer 1

我使用这些功能来合并镶木地板文件，但它在Scala中。 无论如何，这可能会为您提供一个良好的起点。

import java.util

import org.apache.hadoop.conf.Configuration
import org.apache.hadoop.fs.Path
import org.apache.parquet.hadoop.{ParquetFileReader, ParquetFileWriter}
import org.apache.parquet.hadoop.util.{HadoopInputFile, HadoopOutputFile}
import org.apache.parquet.schema.MessageType

import scala.collection.JavaConverters._

object ParquetFileMerger {
    def mergeFiles(inputFiles: Seq[Path], outputFile: Path): Unit = {
        val conf = new Configuration()
        val mergedMeta = ParquetFileWriter.mergeMetadataFiles(inputFiles.asJava, conf).getFileMetaData
        val writer = new ParquetFileWriter(conf, mergedMeta.getSchema, outputFile, ParquetFileWriter.Mode.OVERWRITE)

        writer.start()
        inputFiles.foreach(input => writer.appendFile(HadoopInputFile.fromPath(input, conf)))
        writer.end(mergedMeta.getKeyValueMetaData)
    }

    def mergeBlocks(inputFiles: Seq[Path], outputFile: Path): Unit = {
        val conf = new Configuration()
        val parquetFileReaders = inputFiles.map(getParquetFileReader)
        val mergedSchema: MessageType =
            parquetFileReaders.
              map(_.getFooter.getFileMetaData.getSchema).
              reduce((a, b) => a.union(b))

        val writer = new ParquetFileWriter(HadoopOutputFile.fromPath(outputFile, conf), mergedSchema, ParquetFileWriter.Mode.OVERWRITE, 64*1024*1024, 8388608)

        writer.start()
        parquetFileReaders.foreach(_.appendTo(writer))
        writer.end(new util.HashMap[String, String]())
    }

    def getParquetFileReader(file: Path): ParquetFileReader = {
        ParquetFileReader.open(HadoopInputFile.fromPath(file, new Configuration()))
    }
}

Answer 2

您可以使用parquet-tools的merge命令来实现目标。 但是，不建议合并小文件，因为它实际上并不合并行组，而只是将它们一个接一个地放置（正是您在问题中的描述方式）。 生成的文件可能具有不良的性能特征。

如果您仍然想自己实现它，则可以增加堆大小，也可以修改代码，以便在写入新文件之前不将所有文件读入内存，而是逐个读取（甚至最好按行组逐行），然后立即将它们写入新文件。 这样，您只需要在内存中保留一个文件或行组即可。

Answer 3

我面临着同样的问题。 在不是很大的文件（最大100兆字节）上，写入时间可能长达20分钟。 尝试使用kite-sdk api。 我知道它看起来好像被遗弃了，但其中的某些事情却非常有效地完成了。 另外，如果您喜欢Spring，则可以尝试spring-data-hadoop（这是kite-sdk-api的一种包装）。 以我为例，使用该库可将写入时间减少到2分钟。

例如，您可以用以下方式在Parquet中编写（使用spring-data-hadoop，但使用kite-sdk-api看起来很相似）：

final DatasetRepositoryFactory repositoryFactory = new DatasetRepositoryFactory();
repositoryFactory.setBasePath(basePath);
repositoryFactory.setConf(configuration);
repositoryFactory.setNamespace("my-parquet-file");

DatasetDefinition datasetDefinition = new DatasetDefinition(targetClass, true, Formats.PARQUET.getName());
try (DataStoreWriter<T> writer = new ParquetDatasetStoreWriter<>(clazz, datasetRepositoryFactory, datasetDefinition)) {
     for (T record : records) {
        writer.write(record);
     }
     writer.flush();
}

当然，您需要向项目中添加一些依赖项（在我的情况下，这是spring-data-hadoop）：

     <dependency>
        <groupId>org.springframework.data</groupId>
        <artifactId>spring-data-hadoop</artifactId>
        <version>${spring.hadoop.version}</version>
    </dependency>
    <dependency>
        <groupId>org.springframework.data</groupId>
        <artifactId>spring-data-hadoop-boot</artifactId>
        <version>${spring.hadoop.version}</version>
    </dependency>
    <dependency>
        <groupId>org.springframework.data</groupId>
        <artifactId>spring-data-hadoop-config</artifactId>
        <version>${spring.hadoop.version}</version>
    </dependency>
    <dependency>
        <groupId>org.springframework.data</groupId>
        <artifactId>spring-data-hadoop-store</artifactId>
        <version>${spring.hadoop.version}</version>
    </dependency>

如果您绝对希望仅使用本机hadoop api来执行此操作，则在任何情况下查看这些库的源代码都是很有用的，以便有效地执行镶木地板文件的编写。

Answer 4

我已经使用pyspark脚本使用Spark实现了某种解决方案，以下是相同的示例代码，这里从目录位置加载多个Parquet文件，如果Parquet文件架构在文件中的差异不大，我们也将其合并。

from pyspark.sql import SparkSession

spark = SparkSession.builder \
        .appName("App_name") \
        .getOrCreate() 

dataset_DF = spark.read.option("mergeSchema", "true").load("/dir/parquet_files/")

dataset_DF.write.parquet("file_name.parquet")

希望这将是短期解决方案。

如何有效地读写Parquet文件？

问题描述

4 个解决方案

解决方案1
2 2019-02-05 14:04:44

解决方案2
1 2018-07-20 10:02:41

解决方案3
1 2018-12-18 13:42:47

解决方案4
0 2019-02-05 17:16:11

如何有效地读写Parquet文件？

问题描述

4 个解决方案

解决方案1 2 2019-02-05 14:04:44

解决方案2 1 2018-07-20 10:02:41

解决方案3 1 2018-12-18 13:42:47

解决方案4 0 2019-02-05 17:16:11

解决方案1
2 2019-02-05 14:04:44

解决方案2
1 2018-07-20 10:02:41

解决方案3
1 2018-12-18 13:42:47

解决方案4
0 2019-02-05 17:16:11