Subset multiindex dataframe keeps original index value

Question

I found subsetting multi-index dataframe will keep original index values behind. Here is the sample code for test.

level_one = ["foo","bar","baz"]
level_two = ["a","b","c"]
df_index = pd.MultiIndex.from_product((level_one,level_two))
df = pd.DataFrame(range(9), index = df_index, columns=["number"])
df

Above code will show dataframe like this.

       number
foo a       0
    b       1
    c       2
bar a       3
    b       4
    c       5
baz a       6
    b       7
    c       8

Code below subset the dataframe to contain only 'a' and 'b' for index level 1.

df_subset = df.query("(number%3) <=1")
df_subset

       number
foo a       0
    b       1
bar a       3
    b       4
baz a       6
    b       7

The dataframe itself is expected result. BUT index level of it is still containing the original index level, which is NOT expected.

#Following code is still returnning index 'c'
df_subset.index.levels[1]

#Result
Index(['a', 'b', 'c'], dtype='object')

My first question is how can I remove the 'original' index after subsetting? The Second question is this is expected behavior for pandas?

Thanks

mozway · Accepted Answer

Yes, this is expected, it can allow you to access the missing levels after filtering. You can remove the unused levels with remove_unused_levels:

df_subset.index = df_subset.index.remove_unused_levels()

print(df_subset.index.levels[1])

Output:

Index(['a', 'b'], dtype='object')

Subset multiindex dataframe keeps original index value

Answers (2)

Related Questions