How to compress pandas dataframe

Question

Below I am showing few entries of my dataframe. My (each) dataframe has millions row.

import pandas as pd

data = [{'stamp':'12/31/2020 9:35:42 AM', 'value': 21.99, 'trigger': True}, 
        {'stamp':'12/31/2020 10:35:42 AM', 'value': 22.443, 'trigger': False}, 
        {'stamp':'12/31/2020 11:35:42 AM', 'value': 19.00, 'trigger': False}, 
        {'stamp':'12/31/2020 9:45:42 AM', 'value': 45.02, 'trigger': False}, 
        {'stamp':'12/31/2020 9:55:42 AM', 'value': 48, 'trigger': False}, 
        {'stamp':'12/31/2020 11:35:42 AM', 'value': 48.99, 'trigger': False}]
df = pd.DataFrame(data)

Below is how few ways I can save:

df.to_parquet('df.parquet', compression = 'gzip')
df.to_csv('df.csv')

I don't see much improvement in to_parquet as compared to to_csv. I wish to minimize the file size on hard drive. Is there any way out?

How to compress pandas dataframe

Answers (1)

Related Questions