Get the count of common elements from a column that is unique across two data frames?

Question

I have two data frames among which there is a column that is common across both the data frames. I am trying to get the count of shared elements by other columns. Below is my input and output.

DF 1
        America AmericanSports
    1 American1         Soccer
    2 American1          Chess
    3 American1         Tennis
    4 American2          Chess
    5 American2         Tennis
    6 American3         Soccer
    7 American3         Tennis
DF2
        Russia RussianSports
    1 Russian1        Soccer
    2 Russian1        Tennis
    3 Russian2         Chess
    4 Russian2        Tennis
    5 Russian3         Chess
    6 Russian3        Tennis
    7 Russian3        Soccer

Output
     ANames   RNames Common_Sports_Count
1 American1 Russian1                   2
2 American1 Russian2                   2
3 American1 Russian3                   2
4 American2 Russian1                   1
5 American2 Russian2                   2
6 American2 Russian3                   3
7 American3 Russian1                   2
8 American3 Russian2                   1
9 American3 Russian3                   2

I tried inner joining the input data frame (using merge) but just not able to get the logic right. I know it is simple but just not able to think the right logic.

Parfait · Accepted Answer

Simply merge then aggregate:

mdf <- merge(df1, df2, by.x="AmericanSports", by.y="RussianSports")
aggdf <- aggregate(.~America+Russia, mdf, FUN=length)

names(aggdf)[ncol(aggdf)] <- "Common_Sports_Count"

aggdf
#     America   Russia Common_Sports_Count
# 1 American1 Russian1                   2
# 2 American2 Russian1                   1
# 3 American3 Russian1                   2
# 4 American1 Russian2                   2
# 5 American2 Russian2                   2
# 6 American3 Russian2                   1
# 7 American1 Russian3                   3
# 8 American2 Russian3                   2
# 9 American3 Russian3                   2

For faster aggregation on large datasets, consider the data.table package:

library(data.table)

dt <- data.table(mdf)
aggdt <- dt[, list(Common_Sports_Count=length(AmericanSports)), by='America,Russia']
aggdt

#      America   Russia Common_Sports_Count
# 1: American1 Russian2                   2
# 2: American1 Russian3                   3
# 3: American2 Russian2                   2
# 4: American2 Russian3                   2
# 5: American1 Russian1                   2
# 6: American3 Russian1                   2
# 7: American3 Russian3                   2
# 8: American2 Russian1                   1
# 9: American3 Russian2                   1

Get the count of common elements from a column that is unique across two data frames?

Answers (2)

Related Questions