如何在 Amazon Athena 中轉換數據

Question

我在 S3 位置有一些數據，格式為 json。 它有 4 列val 、 time__stamp 、 name和type 。 我想通過下面給出的一些轉換從這些數據創建一個外部 Athena 表：

timestamp ：timestamp 應該從 unix 紀元轉換為 UTC，這是我使用 timestamp 數據類型完成的。
name ：名稱應使用以下 sql 邏輯進行過濾：
name not in ('abc','cdf','fgh') and name not like '%operator%'
type ：類型不應具有標記為counter的值
我想添加兩個分區列date和hour應該從 time__stamp 列派生

我從以下開始：

CREATE EXTERNAL TABLE `airflow_cluster_data`(
  `val` string COMMENT 'from deserializer', 
  `time__stamp` timestamp COMMENT 'from deserializer', 
  `name` string COMMENT 'from deserializer', 
  `type` string COMMENT 'from deserializer')
PARTITIONED BY ( 
  date,
  hour)
ROW FORMAT SERDE 
  'org.openx.data.jsonserde.JsonSerDe' 
WITH SERDEPROPERTIES ( 
  'mapping.time_stamp'='@timestamp') 
STORED AS INPUTFORMAT 
  'org.apache.hadoop.mapred.TextInputFormat' 
OUTPUTFORMAT 
  'org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat'
LOCATION
  's3://bucket1/raw/airflow_data'

我嘗試了各種方法，但無法弄清楚語法。 使用 spark 本來可以更容易，但我不想每小時為小型數據集運行 Amazon EMR。 如果可能的話，我更喜歡在雅典娜做。

請看一些示例數據：

1533,1636674330000,abc,counter
1533,1636674330000,xyz,timer
1,1636674330000,cde,counter
41,1636674330000,cde,timer
1,1636674330000,fgh,counter
231,1636674330000,xyz,timer
1,1636674330000,abc,counter
2431,1636674330000,cde,counter
42,1636674330000,efg,timer

Answer 1

您可以創建自己的 UDF 進行轉換並在 Athena 中使用它。 https://docs.aws.amazon.com/athena/latest/ug/querying-udf.html

Answer 2

可能最簡單的方法是創建一個 View ：

CREATE VIEW foo AS
SELECT
  val,
  cast(from_unixtime(time__stamp / 1000) as timestamp) as timestamp,
  cast(from_unixtime(time__stamp / 1000) as date) as date,
  hour(cast(from_unixtime(time__stamp / 1000) as timestamp)) as hour,
  name,
  type
FROM airflow_cluster_data
WHERE name not in ('abc','cdf','fgh')
  AND name not like '%operator%'
  AND type != 'counter'

如何在 Amazon Athena 中轉換數據

問題描述

2 個解決方案

解決方案1
0 2022-04-07 10:14:06

解決方案2
0 已采納 2022-04-07 22:01:27

如何在 Amazon Athena 中轉換數據

問題描述

2 個解決方案

解決方案1 0 2022-04-07 10:14:06

解決方案2 0 已采納 2022-04-07 22:01:27

解決方案1
0 2022-04-07 10:14:06

解決方案2
0 已采納 2022-04-07 22:01:27