Dask worse performance than Pandas

Question

I am running the same functionality using Pandas API and Dask API. I expected Dask API to be faster, but it is not.

Functionality

I cross joint 2 dataframes (pandas and dask respectively) by a 'grouping' column and then, on every single pair I compute the Levensthein distance between 2 strings.
The results is the expected, but I am concerned about the performance.

Pandas

@timeit
def pd_fuzzy_comparison(df1:DF, df2:DF, group_col:str, compare):

    df = df1.merge(df2, on=bubble_col, suffixes=('_internal', '_external'))

    df['score'] = df.apply(lambda d: 
            comp(d.company_norm_internal, d.company_norm_external), axis=1)
    return df

Dask

@timeit
def dd_fuzzy_comparison(dd1:dd, dd2:dd, group_col:str, compare):

    ddf = dd1.merge(dd2, on='city_norm', suffixes=('_internal', '_external'))   
    ddf['score'] = ddf.apply(
            lambda d: ratio(d.company_norm_internal, d.company_norm_external), axis=1)

    return ddf.compute()

Main

import multiprocessing
CORES = multiprocessing.cpu_count()

results = pd_fuzzy_comparison(
                df1=internal_bubbles.copy(), 
                df2=external_bubbles.copy(), 
                bubble_col='city_norm',
                compare=ratio ) 

ddata1 = dd.from_pandas(internal_bubbles.copy(), npartitions=CORES)
ddata2 = dd.from_pandas(external_bubbles.copy(), npartitions=CORES)

ddresults = dd_fuzzy_comparison(
                dd1=ddata1.copy(), dd2=ddata2.copy(), 
                bubble_col='city-norm',                 
                compare=ratio)

Output

'pd_fuzzy_comparison'  1122.39 ms
'dd_fuzzy_comparison'  1717.83 ms

What am I missing?
Thanks!

Dask worse performance than Pandas

Answers (1)

Related Questions