Add Int values of RDD[String,Array[String,Int]]

Question

I have a RDD[String,Array[String,Int]],

    ["abc",[("asd",1),("asd",3),("cvd",2),("cvd",2),("xyz",1)]]

I want to turn it into-

     ["abc",[("asd",4),("cvd",4),("xyz",1)]]

I tried-

     val y=hashedRdd.map(f=> (f._1,f._2.map(_._2).reduce((a,b)=>a+b)))

But this returns RDD[String,Int] I want the return in RDD[String,Array[String,Int]]

koiralo · Accepted Answer

You can group the Array and calculate the sum of values.

// Raw rdd
val hashedRdd = spark.sparkContext.parallelize(Seq(
  ("abc",Array(("asd",1),("asd",3),("cvd",2),("cvd",2),("xyz",1)))
))

//Group by first value and calculate the sum
val y = hashedRdd.map(x => {
  (x._1, x._2.groupBy(_._1).mapValues(_.map(_._2).sum))
})

Output:

y.foreach(println)
(abc,Map(xyz -> 1, asd -> 4, cvd -> 4))

Hope this helps!

Add Int values of RDD[String,Array[String,Int]]

Answers (2)

Related Questions