Scala: Spark sqlContext query

Question

I only have 3 events (3rd column) 01, 02, 03 in my file.

639393604950|1001|01|2015-05-12 10:00:18|||
639393604950|1002|01|2015-05-12 10:04:18|||
639393604950|1003|01|2015-05-12 10:05:18|||
639393604950|1001|02||2015-05-12 10:40:18||
639393604950|1001|03|||2015-05-12 19:30:18|
639393604950|1002|02|2015-05-12 10:04:18|||

in sqlContext, how do I merge the data by ID? I am expecting this for id 1001:

639393604950|1001|01|2015-05-12 10:00:18|2015-05-12 10:40:18|2015-05-12 19:30:18|

Here's my query that needs to be adjusted:

val events = sqlContext.sql("SELECT id, max(date1), max(date2), max(date3) " +
  "FROM parquetFile group by id, date1, date2, date3")
events.collect().foreach(println)

kostya · Accepted Answer

SELECT id, max(date1), max(date2), max(date3) FROM parquetFile group by id

Scala: Spark sqlContext query

Answers (2)

Related Questions