R group or aggregate

Question

I would like to do a group_by or aggregate. I have something like:

> head(affiliation_clean)
  Affiliation_ID                       Affiliation_Name          City       Country
1       000001   New Mexico State University Las Cruces    Las Cruces United States
2       000001   New Mexico State University Las Cruces    Las Cruces          
3       000001   New Mexico State University Las Cruces                    
4       000002   Palo Alto Research Center Incorporated     Palo Alto          
5       000002   Palo Alto Research Center Incorporated           United States
6       000002   Palo Alto Research Center Incorporated

Grouping by "Affiliation_ID" and taking the longest string of "Affiliation_Name", "City" and "Country", I would like to get:

> head(affiliation_clean)
  Affiliation_ID                       Affiliation_Name          City       Country
1       000001   New Mexico State University Las Cruces    Las Cruces United States
2       000002   Palo Alto Research Center Incorporated     Palo Alto United States

Thanks in advance.

www · Accepted Answer

Here is a dplyr solution based on your description to select the longest string of each Affiliation_ID and column.

library(dplyr)

dat2 <- dat %>%
  group_by(Affiliation_ID) %>%
  summarise_all(funs(.[which.max(nchar(.))][1]))
dat2
# # A tibble: 2 x 4
#   Affiliation_ID Affiliation_Name                       City       Country      
#                                                             
# 1              1 New Mexico State University Las Cruces Las Cruces United States
# 2              2 Palo Alto Research Center Incorporated Palo Alto  United States

DATA

dat <-read.table(text = "  Affiliation_ID                       Affiliation_Name          City       Country
1       '000001'   'New Mexico State University Las Cruces'    'Las Cruces' 'United States'
                 2       '000001'   'New Mexico State University Las Cruces'    'Las Cruces'          NA
                 3       '000001'   'New Mexico State University Las Cruces'          NA          NA
                 4       '000002'   'Palo Alto Research Center Incorporated'     'Palo Alto'          NA
                 5       '000002'   'Palo Alto Research Center Incorporated'          NA 'United States'
                 6       '000002'   'Palo Alto Research Center Incorporated'          NA          NA",
                 header = TRUE, stringsAsFactors = FALSE)

R group or aggregate

Answers (2)

Related Questions