Finding alphanumeric in R

Question

I have character vector in russian language. See the sample vector below -

x = "nНозологические единицы  
 В20 Болезнь, вызванная вирусом иммунодефицита человека [ВИЧ], проявляющаяся в виде  
инфекционных и паразитарных болезней 
 В21 Болезнь, вызванная вирусом иммунодефицита человека [ВИЧ], проявляющаяся в виде 
злокачественных новообразований 
 В22 Болезнь, вызванная вирусом иммунодефицита человека [ВИЧ], проявляющаяся в виде 
других уточненных болезней 
 В78.1 Болезнь, вызванная вирусом иммунодефицита человека [ВИЧ], проявляющаяся в виде 
других состояний 
 В24 Болезнь, вызванная вирусом иммунодефицита человека [ВИЧ], неуточненная 
 Z21 Бессимптомный инфекционный статус, вызванный вирусом иммунодефицита человека"

I want to extract these values - B20, B21, B22, B78.1, B24, Z21. I am using the code below -

gsub("[^0-9A-Za-z///' ]", "", x)

But it is returning the wrong result.

[1] "n    20     21     22   781      24         Z21       "

cderv · Accepted Answer

Using stringr, you can use str_extract_all with this regex

x = "nНозологические единицы  
 В20 Болезнь, вызванная вирусом иммунодефицита человека [ВИЧ], проявляющаяся в виде  
инфекционных и паразитарных болезней 
 В21 Болезнь, вызванная вирусом иммунодефицита человека [ВИЧ], проявляющаяся в виде 
злокачественных новообразований 
 В22 Болезнь, вызванная вирусом иммунодефицита человека [ВИЧ], проявляющаяся в виде 
других уточненных болезней 
 В78.1 Болезнь, вызванная вирусом иммунодефицита человека [ВИЧ], проявляющаяся в виде 
других состояний 
 В24 Болезнь, вызванная вирусом иммунодефицита человека [ВИЧ], неуточненная 
 Z21 Бессимптомный инфекционный статус, вызванный вирусом иммунодефицита человека"

stringr::str_extract_all(x, "[:alpha:][[:digit:]\.]+")
#> [[1]]
#> [1] "В20"   "В21"   "В22"   "В78.1" "В24"   "Z21"

About the regex:

[:alpha:] means any letter character
[[:digit:]\.] followed by any numeric or . character
+ the previous one or more time

Change the regex when what you want to extract changes

Finding alphanumeric in R

Answers (2)

Related Questions