Filter out data between two percentiles in python pandas

Question

I have pandas Dataframe, i want to eliminate extreme values for a column. eg: I have pandas data frame called df, and have column called percentage in it. I want to filter out the data frame based on the following condition, eliminate first 10 percentile and last 10 percentile based on values in percentage column.

I want to filter it to 10th to 90th percentile.

I thought of the following,

df[(df.percentage > np.percentile(df.percentage, 10 )) & (df.percentage < np.percentile(df.percentage, 90 ))]

Is it the right approach ? or can someone recommend faster approach if any ?

ResidentSleeper · Accepted Answer

Try .quantile

p_10 = df.percentage.quantile(0.1)
p_90 = df.percentage.quantile(0.9)
df[df.percentage.gt(p_10) & df.percentage.lt(p_90)]

Filter out data between two percentiles in python pandas

Answers (2)

Related Questions