Spark结构化流中的镶木地板数据和分区问题

Question

我正在使用Spark结构化流； 我的DataFrame具有以下架构

root 
 |-- data: struct (nullable = true) 
 |    |-- zoneId: string (nullable = true) 
 |    |-- deviceId: string (nullable = true) 
 |    |-- timeSinceLast: long (nullable = true) 
 |-- date: date (nullable = true)

如何做一个Parquet格式的writeStream并写入数据（包含zoneId，deviceId，timeSinceLast；除日期外的所有内容）并按日期对数据进行分区？ 我尝试了以下代码，但partition by子句不起作用

val query1 = df1 
  .writeStream 
  .format("parquet") 
  .option("path", "/Users/abc/hb_parquet/data") 
  .option("checkpointLocation", "/Users/abc/hb_parquet/checkpoint") 
  .partitionBy("data.zoneId") 
  .start()

Answer 1

如果要按日期分区，则必须在partitionBy()方法中使用它。

val query1 = df1 
  .writeStream 
  .format("parquet") 
  .option("path", "/Users/abc/hb_parquet/data") 
  .option("checkpointLocation", "/Users/abc/hb_parquet/checkpoint") 
  .partitionBy("date") 
  .start()

如果要对<year>/<month>/<day>构成的数据进行分区，则应确保date DateType类型，然后创建适当格式的列：

val df = dataset.withColumn("date", dataset.col("date").cast(DataTypes.DateType))

df.withColumn("year", functions.date_format(df.col("date"), "YYYY"))
  .withColumn("month", functions.date_format(df.col("date"), "MM"))
  .withColumn("day", functions.date_format(df.col("date"), "dd"))
  .writeStream 
  .format("parquet") 
  .option("path", "/Users/abc/hb_parquet/data") 
  .option("checkpointLocation", "/Users/abc/hb_parquet/checkpoint") 
  .partitionBy("year", "month", "day")
  .start()

Answer 2

我认为您应该尝试可以采用两种参数的方法repartition ：

栏名
所需分区的数量。

我建议使用repartition("date")按日期对数据进行分区。

关于这个主题的绝佳链接： https : //hackernoon.com/managing-spark-partitions-with-coalesce-and-repartition-4050c57ad5c4

Spark结构化流中的镶木地板数据和分区问题

问题描述

2 个解决方案

解决方案1
2 2018-03-05 00:09:25

解决方案2
1 2018-03-03 20:21:41

Spark结构化流中的镶木地板数据和分区问题

问题描述

2 个解决方案

解决方案1 2 2018-03-05 00:09:25

解决方案2 1 2018-03-03 20:21:41

解决方案1
2 2018-03-05 00:09:25

解决方案2
1 2018-03-03 20:21:41