pyspark - TypeError: count() takes exactly 1 argument (2 given)

Question

I am concatenating a bunch of columns and counting them.I can't count on an alias?

df.select(F.col("_c21"),F.concat(F.col("id1"),F.lit("|"),F.col("id2"),F.lit("|"),F.col("id3"),F.lit("|"),F.col("id4").alias("ids")))
df.repartition(col("_c21"])).count("ids").over(Window.partitionBy("_c21"))

Data looks like this

+--------------------+--------------------------------------------+
|                _c21|concat(id1, |, id2, |, id3, |, id4 AS `ids`)|
+--------------------+--------------------------------------------+
|roBMSlo...|                                  US|WA|98115|Centu...|
|3Vzlfim...|                                  FR|56|56130|SFR.....|
|rgBdftS...|                                  CA|NB|E1A|Bell Ca...|

mck · Accepted Answer

Use F.count, not the count method of dataframe (which counts total number of rows). Also no need to repartition because the window will do the partitioning anyway. And you also misplaced a bracket for the alias.

import pyspark.sql.functions as F

df1 = df.select(
    F.col("_c21"),
    F.concat(
        F.col("id1"),F.lit("|"),F.col("id2"),F.lit("|"),F.col("id3"),F.lit("|"),F.col("id4")
    ).alias("ids")    # misplaced close bracket here
)

df2 = df1.select(F.count("ids").over(Window.partitionBy("_c21")))

# or if you want an additional column, use 
df2 = df1.withColumn("count_id", F.count("ids").over(Window.partitionBy("_c21")))

In fact, concat_ws is more appropriate:

df1 = df.select(
    F.col("_c21"),
    F.concat_ws(
        "|",
        F.col("id1"), F.col("id2"), F.col("id3"), F.col("id4")
    ).alias("ids")
)

pyspark - TypeError: count() takes exactly 1 argument (2 given)

Answers (2)

Related Questions