Захоплення групи регулярних виразів у R з кількома групами захоплення


94

У R, чи можна витягти групове захоплення із відповідності регулярного виразу? Наскільки я можу судити, жоден з grep, grepl, regexpr, gregexpr, sub, або gsubповернути знімки групи.

Мені потрібно витягти пари ключ-значення із рядків, кодованих таким чином:

\((.*?) :: (0\.[0-9]+)\)

Я завжди можу просто зробити кілька повноцінних greps, або зробити якусь зовнішню (не-R) обробку, але я сподівався, що зможу зробити все це в R. Чи є для цього функція чи пакет, який надає таку функцію?

Відповіді:


118

str_match(), з stringrпакету, зробить це. Він повертає матрицю символів з одним стовпчиком для кожної групи в матчі (і одним для цілого матчу):

> s = c("(sometext :: 0.1231313213)", "(moretext :: 0.111222)")
> str_match(s, "\\((.*?) :: (0\\.[0-9]+)\\)")
     [,1]                         [,2]       [,3]          
[1,] "(sometext :: 0.1231313213)" "sometext" "0.1231313213"
[2,] "(moretext :: 0.111222)"     "moretext" "0.111222"    

1
і str_match_all()відповідати всім групам у регулярному
виразі

Як я можу просто надрукувати лише захоплені групи для [, 1]?
nenur

Не впевнені, що ви шукаєте. Захоплені групи - стовпці 2 і 3. [,1]- це повний збіг. [,2:3]це захоплені групи.
Кент Джонсон,

51

gsub робить це, з вашого прикладу:

gsub("\\((.*?) :: (0\\.[0-9]+)\\)","\\1 \\2", "(sometext :: 0.1231313213)")
[1] "sometext 0.1231313213"

вам потрібно подвоїти екран \ s у лапках, тоді вони працюють на регулярний вираз.

Сподіваюся, це допомагає.


Насправді мені потрібно витягнути захоплені підрядки, щоб вставити data.frame. Але, дивлячись на вашу відповідь, я думаю, я міг би зв'язати gsub і пару strsplit, щоб отримати те, що я хочу, можливо: strsplit (strsplit (gsub (regex, "\\ 1 :: \\ 2 ::::", str ), "::::") [[1]], "::")
Даніель Дікісон

8
Чудово. gsubРучна сторінка R дуже потребує прикладу, який показує, що вам потрібно '\\ 1', щоб уникнути посилання на групу захоплення.
smci

33

Спробуйте regmatches()і regexec():

regmatches("(sometext :: 0.1231313213)",regexec("\\((.*?) :: (0\\.[0-9]+)\\)","(sometext :: 0.1231313213)"))
[[1]]
[1] "(sometext :: 0.1231313213)" "sometext"                   "0.1231313213"

3
Дякую за розчин ванілі R і за вказівку, regmatchesякої я ніколи раніше не бачив
Енді

Чому вам доведеться писати рядок двічі?
Стефано Боріні

@StefanoBorini regexecповертає список, що містить інформацію, що стосується лише місця збігів, отже, regmatchesвимагає від користувача надати рядок, до якого належав список збігів.
RTbecard

19

gsub () може це зробити і повернути лише групу захоплення:

Однак для того, щоб це працювало, ви повинні явно вибрати елементи за межами вашої групи захоплення, як зазначено в довідці gsub ().

(...) елементи символьних векторів 'x', які не підставляються, повертаються незмінними.

Отже, якщо ваш текст, який потрібно вибрати, лежить посередині деякого рядка, додавання. * До і після групи захоплення повинно дозволити вам лише повернути його.

gsub(".*\\((.*?) :: (0\\.[0-9]+)\\).*","\\1 \\2", "(sometext :: 0.1231313213)") [1] "sometext 0.1231313213"


4

Мені подобаються регулярні вирази, сумісні з perl. Можливо, це робить ще хтось ...

Ось функція, яка виконує perl-сумісні регулярні вирази та відповідає функціональності функцій іншими мовами, до яких я звик:

regexpr_perl <- function(expr, str) {
  match <- regexpr(expr, str, perl=T)
  matches <- character(0)
  if (attr(match, 'match.length') >= 0) {
    capture_start <- attr(match, 'capture.start')
    capture_length <- attr(match, 'capture.length')
    total_matches <- 1 + length(capture_start)
    matches <- character(total_matches)
    matches[1] <- substr(str, match, match + attr(match, 'match.length') - 1)
    if (length(capture_start) > 1) {
      for (i in 1:length(capture_start)) {
        matches[i + 1] <- substr(str, capture_start[[i]], capture_start[[i]] + capture_length[[i]] - 1)
      }
    }
  }
  matches
}

3

Ось так я врешті-решт вирішив цю проблему. Я використав два окремі регулярні вирази, щоб узгодити першу та другу групи захоплення та запустити два gregexprвиклики, а потім витягнути відповідні підрядки:

regex.string <- "(?<=\\().*?(?= :: )"
regex.number <- "(?<= :: )\\d\\.\\d+"

match.string <- gregexpr(regex.string, str, perl=T)[[1]]
match.number <- gregexpr(regex.number, str, perl=T)[[1]]

strings <- mapply(function (start, len) substr(str, start, start+len-1),
                  match.string,
                  attr(match.string, "match.length"))
numbers <- mapply(function (start, len) as.numeric(substr(str, start, start+len-1)),
                  match.number,
                  attr(match.number, "match.length"))

+1 для робочого коду. Однак я волів би запустити швидку командну оболонку від R і скористатися одношаровим вкладишем Bash, подібним до цьогоexpr "xyx0.0023xyxy" : '[^0-9]*\([.0-9]\+\)'
Олександр Левчук

3

Рішення з strcaptureвід utils:

x <- c("key1 :: 0.01",
       "key2 :: 0.02")
strcapture(pattern = "(.*) :: (0\\.[0-9]+)",
           x = x,
           proto = list(key = character(), value = double()))
#>    key value
#> 1 key1  0.01
#> 2 key2  0.02

2

Як пропонується в stringrпакеті, цього можна досягти, використовуючи str_match()або str_extract().

Адаптовано з посібника:

library(stringr)

strings <- c(" 219 733 8965", "329-293-8753 ", "banana", 
             "239 923 8115 and 842 566 4692",
             "Work: 579-499-7527", "$1000",
             "Home: 543.355.3679")
phone <- "([2-9][0-9]{2})[- .]([0-9]{3})[- .]([0-9]{4})"

Вилучення та об'єднання наших груп:

str_extract_all(strings, phone, simplify=T)
#      [,1]           [,2]          
# [1,] "219 733 8965" ""            
# [2,] "329-293-8753" ""            
# [3,] ""             ""            
# [4,] "239 923 8115" "842 566 4692"
# [5,] "579-499-7527" ""            
# [6,] ""             ""            
# [7,] "543.355.3679" ""   

Показ груп із вихідною матрицею (нас цікавлять стовпці 2+):

str_match_all(strings, phone)
# [[1]]
#      [,1]           [,2]  [,3]  [,4]  
# [1,] "219 733 8965" "219" "733" "8965"
# 
# [[2]]
#      [,1]           [,2]  [,3]  [,4]  
# [1,] "329-293-8753" "329" "293" "8753"
# 
# [[3]]
#      [,1] [,2] [,3] [,4]
# 
# [[4]]
#      [,1]           [,2]  [,3]  [,4]  
# [1,] "239 923 8115" "239" "923" "8115"
# [2,] "842 566 4692" "842" "566" "4692"
# 
# [[5]]
#      [,1]           [,2]  [,3]  [,4]  
# [1,] "579-499-7527" "579" "499" "7527"
# 
# [[6]]
#      [,1] [,2] [,3] [,4]
# 
# [[7]]
#      [,1]           [,2]  [,3]  [,4]  
# [1,] "543.355.3679" "543" "355" "3679"

як щодо 842 566 4692
Ферроао

Дякуємо, що уловили упущення. Виправлено за допомогою _allсуфікса для відповідних stringrфункцій.
Мегатрон

0

Це можна зробити, використовуючи пакунок unglue , взявши приклад із обраної відповіді:

# install.packages("unglue")
library(unglue)

s <- c("(sometext :: 0.1231313213)", "(moretext :: 0.111222)")
unglue_data(s, "({x} :: {y})")
#>          x            y
#> 1 sometext 0.1231313213
#> 2 moretext     0.111222

Або починаючи з кадру даних

df <- data.frame(col = s)
unglue_unnest(df, col, "({x} :: {y})",remove = FALSE)
#>                          col        x            y
#> 1 (sometext :: 0.1231313213) sometext 0.1231313213
#> 2     (moretext :: 0.111222) moretext     0.111222

Ви можете отримати сирий регулярний вираз із шаблону розклеювання, за бажанням, з іменованим захопленням:

unglue_regex("({x} :: {y})")
#>             ({x} :: {y}) 
#> "^\\((.*?) :: (.*?)\\)$"

unglue_regex("({x} :: {y})",named_capture = TRUE)
#>                     ({x} :: {y}) 
#> "^\\((?<x>.*?) :: (?<y>.*?)\\)$"

Більше інформації: https://github.com/moodymudskipper/unglue/blob/master/README.md

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.