regular expression in R with nth occurrence

Question

I am reading a text file in R and want to replace every 3rd occurrence of '|' with ' ' here is my code and input data

**Input Data** 
======================
    'Monday, November 2, 2015|10:21:27|17:58:12|Tuesday, November 3, 2015|10:13:09|18:52:44|Wednesday, November 4, 2015|10:11:52|18:40:36|Thursday, November 5, 2015|10:31:42|18:16:57|Friday, November 6, 2015|10:13:13|--|Saturday, November 7, 2015|--|--|Sunday, November 8, 2015|--|--|Monday, November 9, 2015|--|--|Tuesday, November 10, 2015|10:03:20|18:07:52|Wednesday, November 11, 2015|09:40:20|18:42:20|Thursday, November 12, 2015|10:38:56|18:37:20|Friday, November 13, 2015|10:45:26|18:09:54|Saturday, November 14, 2015|--|--|Sunday, November 15, 2015|--|--|Monday, November 16, 2015|--|--|Tuesday, November 17, 2015|10:11:43|18:36:15|Wednesday, November 18, 2015|--|--|Thursday, November 19, 2015|--|--|Friday, November 20, 2015|12:14:25|20:25:08|Saturday, November 21, 2015|--|--|Sunday, November 22, 2015|--|--|Monday, November 23, 2015|10:08:08|17:57:35|Tuesday, November 24, 2015|14:30:32|--|'

**My R-Code**
====================

    emp <- readChar(FileDir, (file.info(FileDir)$size-172))
    emp <- gsub("
","|",emp)
    empTMP <- gsub('([^|]*|[^|]*|[^|]*)|',"\1
",emp)


**output**
====================
"\001
|\001
|\001
|\001
|\001
|\001
|\001
|\001
|\001
|\001
|\001
|\001
|\001
|\001
|\001
|\001
|\001
|\001
|\001
|\001
|\001
|\001
|\001
|\001
|\001
|\001
|\001
|\001
|\001
|\001
|\001
|\001
|\001
|\001
|\001
|\001
|\001
|\001
|\001
|\001
|\001
|\001
|\001
|\001
|\001
|\001
|\001
|\001
|\001
|\001
|\001
|\001
|\001
|\001
|\001
|\001
|\001
|\001
|\001
|\001
|\001
|\001
|\001
|\001
|\001
|\001
|\001
|\001
|\001
|\001
|\001
|\001
|\001
"

**Required output**
====================
Monday, November 2, 2015|10:21:27|17:58:12
Tuesday, November 3, 2015|10:13:09|18:52:44
Wednesday, November 4, 2015|10:11:52|18:40:36
Thursday, November 5, 2015|10:31:42|18:16:57
Friday, November 6, 2015|10:13:13|--
Saturday, November 7, 2015|--|--
Sunday, November 8, 2015|--|--
Monday, November 9, 2015|--|--
Tuesday, November 10, 2015|10:03:20|18:07:52
Wednesday, November 11, 2015|09:40:20|18:42:20
Thursday, November 12, 2015|10:38:56|18:37:20
Friday, November 13, 2015|10:45:26|18:09:54
Saturday, November 14, 2015|--|--
Sunday, November 15, 2015|--|--
Monday, November 16, 2015|--|--
Tuesday, November 17, 2015|10:11:43|18:36:15
Wednesday, November 18, 2015|--|--
Thursday, November 19, 2015|--|--
Friday, November 20, 2015|12:14:25|20:25:08
Saturday, November 21, 2015|--|--
Sunday, November 22, 2015|--|--
Monday, November 23, 2015|10:08:08|17:57:35
Tuesday, November 24, 2015|14:30:32|--

Kindly help what I am doing wrong, I check the above regular expression in text editor it works perfectly fine however in "R" it is not producing the correct result.

CAFEBABE · Accepted Answer

 empTMP <- gsub('([^|]*|[^|]*|[^|]*)|',"\1
",emp)

this is the line which causes imho the trouble.

It should be

empTMP <- gsub('([^|]*|[^|]*|[^|]*)|',"\1
",emp)

(note the \1)

On the side: why do you want to use R for this task. Looks like something for standard shell scripting.
On the side 2: why teradata? On which TD box do you use R?

regular expression in R with nth occurrence

Answers (2)

Related Questions