Spark dataframe: Merged data with python results in a very large number of rows

Question

Pyspark: A merged data (using Left join) rusults in a very large number of rows. Why are there too many resulting rows after merger? Is there anything seriously wrong with my code? Both dataframes have one common key 'Region'.

1st dataframe (df1): 47,972 rows
2nd dataframe (df2): 852,747 rows
Merged_df: 10,836,925,792 rows

merged_df = df1.join(df2, on=['Region'] , how = 'left')
merged_df = df1.join(df2, on=['Region'] , how = 'left')

I am expecting more rows but in billions.

Spark dataframe: Merged data with python results in a very large number of rows

Answers (1)

Related Questions