选择需要对分区列进行过滤的 Bigquery 表的最新分区

Question

我一直在使用以下查询

    SELECT DISTINCT
      *
    FROM
      `project.dataset.table` t
    WHERE DATE(_PARTITIONTIME) >= DATE_SUB(CURRENT_DATE(), INTERVAL 1 DAY)

这并不理想，因为分区可能由于延迟而无法使用。因此我尝试了以下查询

    SELECT DISTINCT
      *
    FROM
      `project.dataset.table` t
    WHERE DATE(_PARTITIONTIME) IN 
    (
       SELECT 
         MAX(DATE(_PARTITIONTIME)) AS max_partition
       FROM `project.dataset.table`
       WHERE DATE(_PARTITIONTIME) >= DATE_SUB(CURRENT_DATE(), INTERVAL 30 DAY)
    )

也

    SELECT DISTINCT
      *
    FROM
      `project.dataset.table` t
    WHERE TIMESTAMP(DATE(_PARTITIONTIME)) IN 
    (
      SELECT parse_timestamp("%Y%m%d", MAX(partition_id))
      FROM `project.dataset.INFORMATION_SCHEMA.PARTITIONS`
      WHERE table_name = 'table'
    )

他们都没有工作，因为

如果不过滤可用于分区消除的列“_PARTITION_LOAD_TIME”、“_PARTITIONDATE”、“_PARTITIONTIME”，则无法查询表“project.dataset.table”。

Answer 1

在您的两个解决方案中，分区列的限制过滤器都是在查询期间计算的。 这导致全表扫描。

因此，您需要为分区列添加一个过滤器，该过滤器在查询运行开始时始终是已知的。

SELECT DISTINCT
      *
    FROM
      `project.dataset.table` t
    WHERE DATE(_PARTITIONTIME) IN 
    (
       SELECT 
         MAX(DATE(_PARTITIONTIME)) AS max_partition
       FROM `project.dataset.table`
       WHERE DATE(_PARTITIONTIME) >= DATE_SUB(CURRENT_DATE(), INTERVAL 30 DAY)
    )
AND DATE(_PARTITIONTIME) >= DATE_SUB(CURRENT_DATE(), INTERVAL 30 DAY)

如果最后一个分区日期可能是几个月前，这是一个更好的解决方案：


Declare max_date date;

execute immediate
"""
SELECT max(date(_PARTITIONTIME)) FROM `project.dataset.table`
WHERE DATE(_PARTITIONTIME) > "2000-12-15"  
""" into max_date;

execute immediate
"""
Select * from `project.dataset.table`  where date(_PARTITIONTIME)= date('"""  || max_date || "')"

选择需要对分区列进行过滤的 Bigquery 表的最新分区

问题描述

1 个解决方案

解决方案1
1 已采纳 2022-12-15 15:14:27

选择需要对分区列进行过滤的 Bigquery 表的最新分区

问题描述

1 个解决方案

解决方案1 1 已采纳 2022-12-15 15:14:27

解决方案1
1 已采纳 2022-12-15 15:14:27