Why are simple operations on pandas.DataFrames so slow compared to the same operations on numpy.ndarrays?

Question

Why are operations on pandas.DataFrames so slow? Look at the following examples.

The I measure the time of the following operations

Summing over numpy.ndarrays is much faster than operating on pandas.DataFrames.
This is even true, if the pd.DataFrame does not contain only floating point numbers and has nothing special attached (MultiIndex or whatever).
Operations on numpy.ndarray are about 7 to 10 times faster.

import numpy as np
import pandas as pd

n = 50000
m = 5000
array = np.random.uniform(0, 1, (n, m))
dataframe = pd.DataFrame(array)

%%timeit
array.sum(axis=0)

206 ms ± 3.78 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)

%%timeit
array.sum(axis=1)

233 ms ± 33.9 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)

%%timeit
dataframe.sum(axis=0)

1.65 s ± 14.9 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)

%%timeit
dataframe.sum(axis=1)

1.74 s ± 15.5 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)

Let's operate on the values alone ...

%%timeit
dataframe.values.sum(axis=0)

206 ms ± 7.13 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)

%%timeit
dataframe.values.sum(axis=1)

181 ms ± 1.66 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)

Answers (1)