Looking for smarter way to handle multiple version of a value in Python Pandas dataframe

Question

I am working on Python data manipulation, and have a column with a variety of values that represent same value.

I did checked the uniques values and they are as array(['Male', 'male', 'm', 'FEMALE', 'female', 'F', 'M', 'Female'], dtype=object)

Please suggest how can i replace it to one version.

Below is the code I did try, but there are more such fields, so looking for smart way.

df['Gender'] = df['Gender'].replace(to_replace =["Male", "male", "m", "M"], value ="Male")
#similar code for Female value.

Another approach I am using is

df['Gender'] = np.where(df['Gender'].str.lower() == 'male', 'Male', df.Gender)
df['Gender'] = np.where(df['Gender'].str.lower() == 'm', 'Male', df.Gender)
df['Gender'] = np.where(df['Gender'].str.lower() == 'female', 'Female', df.Gender)
df['Gender'] = np.where(df['Gender'].str.lower() == 'f', 'Female', df.Gender)

Scott Boston · Accepted Answer

You can use just 'm' and 'f':

pd.Series(['Male','male', 'm', 'Female', 'female', 'f']).str[0].str.lower()

Output:

0    m
1    m
2    m
3    f
4    f
5    f
dtype: object

Like this with your column:

df['Gender'] = df['Gender'].str[0].str.lower()

Looking for smarter way to handle multiple version of a value in Python Pandas dataframe

Answers (2)

Related Questions