Dask read_parquet adds an extra column dir0

Question

I have a multiple parquet files in difference directories

paths = ['adl://entrofi/shift/20190725_060500_20190928_060500/*.parquet',
'adl://entrofi/shift/20190726_060500_20190928_060500/*.parquet',
'adl://entrofi/shift/20190727_060500_20190928_060500/*.parquet',
'adl://entrofi/shift/20190728_060500_20190928_060500/*.parquet',
'adl://entrofi/shift/20190820_060500_20190920_060500/*.parquet',
'adl://entrofi/shift/20190828_060500_20190928_060500/*.parquet']

Each file contains columns A,B,C

I wanna read all this files so I do a

ddf = dd.read_parquet(paths).drop_duplicates()

However, ddf contains columns A,B, C and dir0. dir0 contains names of the folders from which each path in paths was read.

Reading each individual file in paths contains no dir0 columns.

How do I avoid the addition of dir0 automatically to my ddf?

Dask read_parquet adds an extra column dir0

Answers (1)

Related Questions