Subset rows occuring after a condition is met in a different column

Question

I've searched around and can't seem to figure out how to solve this problem.

I have a data set of subjects and I'd like to subset all rows following an event taking place in a different column. Here is an example of what the data set looks like:

subject <- letters[rep(seq(from = 1, to = 5), each = 10)]
value1 <- rnorm(n = length(subject), mean = 20, sd = 5)
value2 <- rnorm(n = length(subject), mean = 30, sd = 10)
tag <- rep(NA, n = length(subject))
df <- data.frame(subject, value1, value2, tag)

# add random events

df[6,4] <- "event"
df[16,4] <- "event"
df[24,4] <- "event"
df[39,4] <- "event"
df[43,4] <- "event"

head(df, 20)
   subject   value1   value2   tag
1        a 29.48322 28.50112  
2        a 26.83034 32.61494  
3        a 19.03148 38.66233  
4        a 19.97549 36.09613  
5        a 22.04944 26.80911  
6        a 16.67589 37.07147 event
7        a 14.25538 32.94055  
8        a 18.29705 24.17948  
9        a 14.26047 23.94956  
10       a 23.91977 39.76018  
11       b 20.64587 38.93593  
12       b 20.72713 14.29013  
13       b 17.55487 27.63619  
14       b 14.18344 40.30682  
15       b 11.47055 22.01550  
16       b 24.60832 38.49901 event
17       b 15.10552 32.08878  
18       b 23.21466 28.17392  
19       b 20.59442 34.18078  
20       b 21.19128 33.50000

Is there a way to subset out all rows starting at "event" and all rows after "event" by subject?

JasonAizkalns · Accepted Answer

Depending on what you want to do after the subset, this will probably work:

library(tidyverse)

df %>%
  group_by(subject) %>%
  mutate(event_grp = cumsum(!is.na(tag))) %>%
  group_by(subject, event_grp) %>%
  summarise(
    avg_val1 = mean(value1),
    avg_val2 = mean(value2)
  )

#    subject event_grp avg_val1 avg_val2
#                   
#  1 a               0     22.7     38.6
#  2 a               1     20.5     30.5
#  3 b               0     21.1     25.0
#  4 b               1     21.4     21.2
#  5 c               0     19.5     35.8
#  6 c               1     18.6     23.9
#  7 d               0     18.7     31.1
#  8 d               1     19.4     42.0
#  9 e               0     18.5     25.7
# 10 e               1     20.7     30.2

For the subset, you'll just want:

df %>%
  group_by(subject) %>%
  mutate(event_grp = cumsum(!is.na(tag))) %>%
  filter(event_grp >= 1)

Subset rows occuring after a condition is met in a different column

Answers (2)

Related Questions