R join data efficiently if one of the columns in the first dataset matches any of the columns in the second dataset

Question

Given 2 dataframes:

df1

col1 col2 col3
43    21   "a"
32    31   "b"
NA    12   "c"
44    NA   "d"

df2

cl4 cl5 cl6
43   1  "text"
12   0  "text2"
32   44  "text3"

How can I merge them with a left_join, if one value of the columns in c("col1", "col2") matches a value in the columns c("cl4", "cl5") ? Additional information: all variables can have missing values, except cl6 which is always completed.

Expected result:

col1 col2 col3 cl4 cl5 cl6
43    21   "a"  43   1 "text"
32    31   "b"  32  44 "text3"
NA    12   "c"  12   0 "text2"
44    NA   "d"  32  44 "text3"

I have some code that works, but I think there must be a better solution if there are a lot of joins to be done (in my real dataframes I have 24 joins to do...). Here is my code:

list_vars = c('cl4', "cl5", "cl6")
list_vars_rename = c("col4", "col5", "col6")

#MERGE 1

df1_merged <- left_join(df1, df2, by=c("col1" = "cl4"), na_matches = "never") #ignore NAs

df1_merged$cl4 <- df1_merged$col1 #because cl4 disappears during the join
df1_merged[is.na(df1_merged$cl6), "cl4"] <- NA #cl4 equals NA if no match = if cl6 NA

setnames(df1_merged, old = list_vars, new = list_vars_rename, skip_absent = T) #rename cols

#MERGE 2
df1_merged <- left_join(df1_merged, df2, by=c("col1" = "cl5"), na_matches = "never")
df1_merged <- as.data.frame(df1_merged) #because was a tibble
df1_merged$cl5 <- df1_merged$col1 #because cl4 disappears during the join
df1_merged[is.na(df1_merged$cl6), "cl5"] <- NA #cl5 equals NA if no match = if cl6 NA
for (i in seq_along(list_vars_rename)){
  df1_merged[,list_vars_rename[i]] <- ifelse(is.na(df1_merged[,list_vars_rename[i]]), df1_merged[,list_vars[i]], df1_merged[,list_vars_rename[i]])
} #fill col4, col5 & col6 with the values of cl4, cl5 & cl6 we got in the join
df1_merged = df1_merged[, !(names(df1_merged) %in% list_vars)] #drop cl4 ,cl5 & cl6

#MERGE 3
df1_merged <- left_join(df1_merged, ventes, by=c("col2" = "cl4"), na_matches = "never")
df1_merged <- as.data.frame(df1_merged)
df1_merged$cl4 <- df1_merged$col2
df1_merged[is.na(df1_merged$cl6), "cl4"] <- NA
for (i in seq_along(list_vars_rename)){
  df1_merged[,list_vars_rename[i]] <- ifelse(is.na(df1_merged[,list_vars_rename[i]]), df1_merged[,list_vars[i]], df1_merged[,list_vars_rename[i]])
}
df1_merged= df1_merged[, !(names(df1_merged) %in% list_vars)]

###etc. until the last merge.

R join data efficiently if one of the columns in the first dataset matches any of the columns in the second dataset

Answers (1)

Related Questions