How to perform count by value operation on spark's Dataset without grouping values?

Question

I have a table represented by spark Dataset< Row >

origin.show();

+------+
|Origin|
+------+
|   USA|
| Japan|
|   USA|
|   USA|
| Japan|
|Europe|
+------+

I want to build additional "countByValue" column to get table like

+------+-----+
|Origin|Count|
+------+-----+
|Europe|    1|
|   USA|    3|
|   USA|    3|
|   USA|    3|
| Japan|    2|
| Japan|    2|
+------+-----+

I found solution but it seems very inefficient. I group origin dataset and use count function.

Dataset grouped = origin.groupBy(originCol).agg(functions.count(originCol));
grouped.show();

+------+-----+
|Origin|Count|
+------+-----+
|Europe|    1|
|   USA|    3|
| Japan|    2|
+------+-----+

Then I just join result table with origin dataset.

Dataset finalDs = origin.join(grouped, originCol);

Is there any other more efficiant way to perform such operation?

T. Gawęda · Accepted Answer

You can write query with Window:

origin.withColumn("cnt", count('Origin).over(Window.partitionBy('Origin)))

Remember to import org.apache.spark.sql.functions._ and org.apache.spark.sql.expressions.Window

How to perform count by value operation on spark's Dataset without grouping values?

Answers (2)

Related Questions

How to perform count by value operation on spark&#39;s Dataset without grouping values?

Answers (2)

Related Questions

How to perform count by value operation on spark's Dataset without grouping values?