Flag difference in panda dataframe

Question

I have pandas dataset and want to create a column that would flag the difference

i.e Column B should have the same values for each value in column A and vice versa. If it's not then flag it as 1

column A	Column B	New Column
Atlanta	GA	0
Atlanta	GA	0
Newyork	NY	1
Newyork	YN	1
company1	Com	1
company	Com	1
company	Com	1

Odhian · Accepted Answer

Since the question is updated, here is a way of doing it. I use this data :

df = pd.DataFrame({"column A": ["Atlanta", "Atlanta", "New York", "New York"], "column B": ["AT", "AT", "YN", "NY"]})
df
    column A    column B
0   Atlanta     AT
1   Atlanta     AT
2   New York    YN
3   New York    NY

With pd.groupby :

df_gb = df.groupby("column A", as_index=False).nunique()

condition = [df_gb["column B"] == 1]
value = [0]
df_gb["difference"] = np.select(condition, value, default=1)
df_gb = df_gb[["column A", "difference"]]

Output[0] :

df_gb

    column A    difference
0   Atlanta     0
1   New York    1

Then finally :

df = df.merge(df_gb, on="column A", how="left")

Output[1] :

df

    column A    column B    difference
0   Atlanta     AT          0
1   Atlanta     AT          0
2   New York    YN          1
3   New York    NY          1

Flag difference in panda dataframe

Answers (2)

Related Questions