How to create correlation based on different columns in pandas?

Question

I have data like this:

Users_id        My_Fav         Bro_Fav          Friend_Fav
User0             BMW            VW                BMW
UserA             VW             Mercedes          Honda
UserB             Honda          Honda             VW
UserC             Mercedes       BMW               Mercedes
UserD             VW             BMW               BMW

I would like output for correlation between Columns and Brands and desired output would be like this:

                      My_Fav         Bro_Fav          Friend_Fav
BMW                     1               2                2
VW                      2               1                1
Honda                   1               1                1
Mercedes                1               1                1

jezrael · Accepted Answer

You can count columns values per columns and then sum per index values, if necessary convert Users_id column to index in first step:

#Users_id is column
df = df.set_index('Users_id').apply(pd.value_counts).sum(level=0)

#Users_id is index
#df = df.apply(pd.value_counts).sum(level=0)
print (df)
          My_Fav  Bro_Fav  Friend_Fav
BMW            1        2           2
Honda          1        1           1
Mercedes       1        1           1
VW             2        1           1

How to create correlation based on different columns in pandas?

Answers (2)

Related Questions