Concatenate and replace strings after groupBy in spark dataframe

Question

I am having below dataframe df, I need to groupby based on constraint column and concatenate status column values.

   +--------------------+-----_-+                                          
   |          constraint|status |
   +--------------------+-------+
   |Test1               |Success|
   |Test1               |Success|
   |Test2               |Failure|
   |Test2               |Success|
   |Test3               |Success|
   |Test3               |Success|
   |Test4               |Failure|
   |Test4               |Success|
   +--------------------+-------+

Expected Output:

Success, Success -> Success

Success, Failure -> Failure

+--------------------+-------+
|          constraint|status |
+--------------------+-------+
|Test1               |Success|
|Test2               |Failure|
|Test3               |Success|
|Test4               |Failure|
+--------------------+-------+

I tried below to groupBy constraint column. Then remove duplicate words and replace 'Success Failure' to Failure

Please let me know for optimised way of getting expected output.

Code:

val result_group = df.groupBy(col1 = "constraint").agg(concat_ws(" ", 
collect_list("constraint_status")) as "combined_status")
val distinct :String => String = _.split(" ").toSet.mkString(",")
val validation_status = udf (distinct)
result_group.select('constraint,validation_status('combined_status).as("distinct")).show

Ranvir Mohanlal · Accepted Answer

This should work efficiently:

val df = spark
.read
.option("header","true")
.option("delimiter","|")
.csv("tmp.csv")
.withColumn("status_code", when($"status"==="Success", 0)
.otherwise(1))
.groupBy("constraint")
.agg(max("status_code").as("status_code"))
.withColumn("status", when($"status_code"===0, "Success")
.otherwise("Failure"))

Output:

df.show()

+----------+-----------+-------+
|constraint|status_code| status|
+----------+-----------+-------+
|     Test2|          1|Failure|
|     Test1|          0|Success|
|     Test3|          1|Failure|
+----------+-----------+-------+

Format of the input csv I used:

constraint|status
Test1|Success
Test1|Success
Test1|Success
Test1|Success
Test2|Success
Test2|Success
Test2|Failure
Test2|Success
Test3|Success
Test3|Failure

Concatenate and replace strings after groupBy in spark dataframe

Answers (2)

Related Questions