使用 AWS Athena 中的 serde 格式提取 json 文件中的数组和嵌套数组

Question

我正在一个数组和嵌套数组中一一提取数据，但我想用一个像“SELECT *”这样的语句从数组中提取所有数据，它是这样的：

而不是写作

customerdata.data.balances[8].data.balances[2].date date_29,
customerdata.data.balances[8].data.balances[3].date date_29

等等

我想知道有没有办法从 .data.balances 数组中获取所有值，例如 .data.balances[*]

Answer 1

不确定您的实际数据类型是什么，但您可以尝试对每一层嵌套数据使用 unnest。 像这样的东西：

WITH dataset (id, nested) AS (
    VALUES (
            1,
            CAST(
                ROW(
                    1,
                    ARRAY [ 
                        ROW(11, ARRAY [ ROW(111, '1') ]),
                        ROW(12, ARRAY [ ROW(121, '2') ]) 
                    ]
                ) as ROW(id INTEGER, data ARRAY(ROW(id INTEGER, data ARRAY(ROW (id INTEGER, str VARCHAR)))))
            )
        )
)

SELECT id, t.row.id nested_id, tt.row.id as double_nested_id, tt.row.str
FROM dataset
CROSS JOIN UNNEST(nested.data) AS t (row)
CROSS JOIN UNNEST(t.row.data) AS tt (row);

输出：

ID	嵌套 ID	double_nested_id	字符串
1	11	111	1
1	12	121	2

请注意，以这种方式分解数据可能会产生一些性能影响。

使用 AWS Athena 中的 serde 格式提取 json 文件中的数组和嵌套数组

问题描述

1 个解决方案

解决方案1
0 2021-11-03 13:02:54

使用 AWS Athena 中的 serde 格式提取 json 文件中的数组和嵌套数组

问题描述

1 个解决方案

解决方案1 0 2021-11-03 13:02:54

解决方案1
0 2021-11-03 13:02:54