Extract strings from filename and create new columns using mutate

Question

I have a data.frame with two columns. In the second column are filenames.

df  <- data.frame(paragraph = "Lorem ipsum dolor sit amet, consetetur sadipscing elitr, sed diam nonumy eirmod tempor invidunt ut labore et dolore magna aliquyam erat, sed diam voluptua.",
             filename = "./data/RevCon_2015_C1_Austria_05_06.txt", stringsAsFactors = FALSE)

How can I extract certain strings (using stringr) from this second column and add them (using dplyr::mutate) as additional variables (conference, year, country, etc.) so that I get the following result:

df2  <- data.frame(paragraph = "Lorem ipsum dolor sit amet, consetetur sadipscing elitr, sed diam nonumy eirmod tempor invidunt ut labore et dolore magna aliquyam erat, sed diam voluptua.",
              filename = "./data/RevCon_2015_C1_Austria_05_06.txt", conference = "RevCon", year = "2015", country= "Austria", date = "06.05.2015", stringsAsFactors = FALSE)

Maurits Evers · Accepted Answer

We can do the following using tidyr::separate:

library(tidyverse);
df %>%
    mutate(tmp = gsub("(\./data/|\.txt)", "", filename)) %>%
    separate(
        tmp,
        into = c("conference", "year", "ignored", "country", "month", "day")) %>%
    mutate(date = paste(day, month, year, sep = "/")) %>%
    select(-ignored, -month, -day)
#          paragraph                                filename conference year
#1 Lorem ipsum [...] ./data/RevCon_2015_C1_Austria_05_06.txt     RevCon 2015
#  country        date
#1 Austria  06/05/2015

Note this assumes that filenames adhere to the following pattern: ./data/{conference}_{year}_{ignored}_{country}_{month}_{day}.txt

Sample data

df  <- data.frame(
    paragraph = "Lorem ipsum [...]",
    filename = "./data/RevCon_2015_C1_Austria_05_06.txt",
    stringsAsFactors = FALSE)

Extract strings from filename and create new columns using mutate

Answers (2)

Sample data

Related Questions