Azure Data Explorer 外部表分區有什么用？

Question

向外部表定義添加分區對分區查詢沒有幫助。

斑點路徑示例

/data/1234/2021/12/02/9483D.parquet
/data/1235/2021/12/02/12345.parquet

分區（偽語法不是真正的語法）：'/data/'uniqueid'/yyyy/MM/dd/'

因此存儲路徑中只有兩個 uniqueids 值。 路徑中不同日期的文件總數約為 100 萬

所以我定義了 2 個分區作為虛擬列：

唯一身份
約會時間

對 uniqueid 執行查詢，例如： table | summarize by uniqueid table | summarize by uniqueid出於某種原因遍歷 blob 存儲中的所有文件。

由於 uniqueid 是一個分區和虛擬列，查詢不應該超快，因為我們在它的路徑中只有 2 個值嗎？ 我完全錯過了分區的重點嗎？

編輯添加樣本：

.create external table ['sensordata'] (['timestamp']:long,['value']:real)
    kind = adl
partition by (['uniqueid']:string ,['datecreated']:datetime )
pathformat = (['uniqueid']  '/' datetime_pattern("yyyy/MM/dd", ['daterecorded']))
    dataformat = parquet
    (
        h@'abfss://XXXXXX@YYYYYYYY.dfs.core.windows.net/histdata;impersonate'
    )
    with (FileExtension='.parquet')

查詢示例：

sensordata
| summarize by uniqueid

Answer 1

感謝您的輸入，@user998888。

我們對分區外部表有很多優化，並且我們投入大量精力來添加越來越多的優化。 但是我們仍然沒有像您提供的那樣優化查詢類型。 它在我們的名單上。

Azure Data Explorer 外部表分區有什么用？

問題描述

1 個解決方案

解決方案1
0 2022-02-28 14:05:42

Azure Data Explorer 外部表分區有什么用？

問題描述

1 個解決方案

解決方案1 0 2022-02-28 14:05:42

解決方案1
0 2022-02-28 14:05:42