Scala：Spark sqlContext查詢

Question

我的文件中只有3個事件（第3列）01、02、03。

639393604950|1001|01|2015-05-12 10:00:18|||
639393604950|1002|01|2015-05-12 10:04:18|||
639393604950|1003|01|2015-05-12 10:05:18|||
639393604950|1001|02||2015-05-12 10:40:18||
639393604950|1001|03|||2015-05-12 19:30:18|
639393604950|1002|02|2015-05-12 10:04:18|||

在sqlContext中，如何按ID合並數據？ 我期望它的ID為1001：

639393604950|1001|01|2015-05-12 10:00:18|2015-05-12 10:40:18|2015-05-12 19:30:18|

這是我需要調整的查詢：

val events = sqlContext.sql("SELECT id, max(date1), max(date2), max(date3) " +
  "FROM parquetFile group by id, date1, date2, date3")
events.collect().foreach(println)

Answer 1

SELECT id, max(date1), max(date2), max(date3) FROM parquetFile group by id

Answer 2

數據的生成方式看起來像文件中的架構令人困惑。 問題是所有日期都填充在date1字段中，且具有不同的事件類型。 因此，我們需要修復它。

select id, ts, max(d1),max(d2),max(d3)
   from (select id, ts,
                case when eventtype='01' then date1 else null end d1,
                case when eventtype='02' then date1 else null end d2,
                case when eventtype='03' then date1 else null end d3
             from table1
         ) x group by id,ts

當然，正如答案中所期望的，這會將id和ts組合在一起。

Scala：Spark sqlContext查詢

問題描述

2 個解決方案

解決方案1
2 已采納 2015-05-21 07:17:36

解決方案2
0 2015-05-21 13:40:44

Scala：Spark sqlContext查詢

問題描述

2 個解決方案

解決方案1 2 已采納 2015-05-21 07:17:36

解決方案2 0 2015-05-21 13:40:44

解決方案1
2 已采納 2015-05-21 07:17:36

解決方案2
0 2015-05-21 13:40:44