在 Pyspark 中使用结构化流读取数据并希望写入文件大小为 100MB 的数据

Question

希望你们一切都好。 我正在使用结构化流从目录中读取文件

schema = StructType([
    StructField("RowNo", StringType()),
    StructField("InvoiceNo", StringType()),
    StructField("StockCode", StringType()),
    StructField("Description", StringType()),
    StructField("Quantity", StringType()),
    StructField("InvoiceDate", StringType()),
    StructField("UnitPrice", StringType()),
    StructField("CustomerId", StringType()),
    StructField("Country", StringType()),
    StructField("InvoiceTimestamp", StringType())
])

data = spark.readStream.format("orc").schema(schema).option("header", "true").option("path", "<path_here>").load()

应用一些转换后，我喜欢保存大小为 100MB 的 output 文件。

Answer 1

您应该覆盖默认的 HDFS 块大小。

block_size = str(1024 * 1024 * 100)

sc._jsc.hadoopConfiguration().set("dfs.block.size", block_size)

参考：如何在 pyspark 中更改 hdfs 块大小？

在 Pyspark 中使用结构化流读取数据并希望写入文件大小为 100MB 的数据

问题描述

1 个解决方案

解决方案1
0 2020-07-13 06:03:41

在 Pyspark 中使用结构化流读取数据并希望写入文件大小为 100MB 的数据

问题描述

1 个解决方案

解决方案1 0 2020-07-13 06:03:41

解决方案1
0 2020-07-13 06:03:41