使用 BigQuery Spark 连接器保存分区表

Question

我想使用来自 pyspark 的以下两个选项（partition by 和 require filter）创建一个表，但我看不到使用 bigquery 连接器执行此操作的选项

这就是我在 BigQuery 中的做法

CREATE dataset.table AS SELECT XXXX 
PARTITION BY
  DATE_TRUNC(collection_date, DAY) OPTIONS ( require_partition_filter = TRUE)

这是我通常做的

    dataframe
        .write
        .format("bigquery")
        .mode(mode)
        .save(f"{dataset}.{table_name}")

Answer 1

您可以使用partitionField 、 datePartition 、 partitionType

对于集群使用 - clusteredFields

查看更多选项：