Adicionar número de série para atividade de cópia ao blob

Question

Rinke

Asked: 2025-04-14 23:46:24 +0800 CST2025-04-14 23:46:24 +0800 CST 2025-04-14 23:46:24 +0800 CST

R: substituir múltiplas ocorrências de strings correspondentes a regex em campos de dataframe, pesquisando-as em outro dataframe

772

Tenho dois dataframes:

pesquisa df:

oldId <- c(123, 456, 567, 789)
newId <- c(1, 2, 3, 4)
lookup <- data.frame(oldId, newId)

dados df:

descr <- c("description with no match",
+ "description with one 123 match", 
+ "description with again no match",
+ "description 456 with two 789 matches")

Meta:

Quero um novo dataframe:

mesma estrutura que os dados df
mesmos valores de campo, exceto que todas as instâncias de números (ou seja, 123, 456, 789) são pesquisadas no outro dataframe e substituídas por lookup$newId.

O dataframe resultante ficará assim:

"descrição sem correspondência"
"descrição com uma correspondência"
"descrição sem correspondência novamente"
"descrição 2 com duas 4 correspondências"

Portanto, cada texto na coluna descr pode conter uma grande quantidade de números que precisam ser substituídos. Claro, este é um exemplo simplificado; meus dataframes da vida real são muito maiores.

Eu corrigi a parte regex:

fx <- function(x) {gsub("([[:digit:]]{3})", "TESTTEST", x)}
data$descr <- lapply(data$descr, fx)

Mas não tenho ideia de como deixar a função percorrer todas as correspondências em uma linha e, então, procurar o número e substituí-lo.

5 respostas

Voted

jpsmith · Answer 1 · 2025-04-15T00:11:28+08:00

Best Answer

jpsmith

2025-04-15T00:11:28+08:002025-04-15T00:11:28+08:00

Uma abordagem básica R pode usar Reduce:

Reduce(
  \(x, i) gsub(lookup$oldId[i], lookup$newId[i], x),
  seq_along(lookup$oldId),
  init = descr
)

Saída:

[1] "description with no match"        "description with one 1 match"    
[3] "description with again no match"  "description 2 with two 4 matches"

5

Ronak Shah · Answer 2 · 2025-04-15T00:34:27+08:00

Ronak Shah

2025-04-15T00:34:27+08:002025-04-15T00:34:27+08:00

Uma opção usando gsubfn:

gsubfn::gsubfn("\\d+", as.list(setNames(lookup$newId, lookup$oldId)), descr)

#[1] "description with no match"        "description with one 1 match"    
#[3] "description with again no match"  "description 2 with two 4 matches"

3

SamR · Answer 3 · 2025-04-14T23:54:46+08:00

SamR

2025-04-14T23:54:46+08:002025-04-14T23:54:46+08:00

Você pode fornecer uma função como replacementargumento para stringr::str_replace_all():

stringr::str_replace_all(
    descr,
    "([[:digit:]]{3})",
    \(x, old = lookup$oldId, new = lookup$newId) new[old == x]
)
# [1] "description with no match"        "description with one 1 match"     "description with again no match"  "description 2 with two 4 matches"

2

jay.sf · Answer 4 · 2025-04-15T00:35:16+08:00

jay.sf

2025-04-15T00:35:16+08:002025-04-15T00:35:16+08:00

Para que sua função funcione, você precisaria matchdo resultado da pesquisa, algo como:

fx <- \(x) {
  m <- regmatches(x, gregexpr('\\b\\d{3}\\b', x, perl=TRUE))
  mapply(\(a, b) {
    for (i in seq_along(b)) {
      a <- gsub(sprintf('\\b%s\\b', b[i]), lookup$newId[match(b[i], lookup$oldId)], a)
    }
    a
  }, x, m, USE.NAMES=FALSE)
}

\\bcorresponde aos limites das palavras, garantindo que apenas números completos como 123sejam substituídos, não substrings como 1234ou a123.

> sapply(descr, fx)
           description with no match       description with one 123 match 
         "description with no match"       "description with one 1 match" 
     description with again no match description 456 with two 789 matches 
   "description with again no match"   "description 2 with two 4 matches"

1

score 1 · Answer 5 · 2025-04-15T01:02:58+08:00

2025-04-15T01:02:58+08:002025-04-15T01:02:58+08:00

str_replace_allpode pegar um vetor nomeado como padrão como str_replace_all(c("one" = "1", "two" = "2", "three" = "3")), então você também pode fazer

stringr::str_replace_all(descr, setNames(as.character(newId),as.character(oldId)))
[1] "description with no match"        "description with one 1 match"  
[3] "description with again no match"  "description 2 with two 4 matches"

1

R: substituir múltiplas ocorrências de strings correspondentes a regex em campos de dataframe, pesquisando-as em outro dataframe

Reformatar números, inserindo separadores em posições fixas

Por que os conceitos do C++20 causam erros de restrição cíclica, enquanto o SFINAE antigo não?

Problema com extensão desinstalada automaticamente do VScode (tema Material)

Vue 3: Erro na criação "Identificador esperado, mas encontrado 'import'" [duplicado]

Qual é o propósito de `enum class` com um tipo subjacente especificado, mas sem enumeradores?

Como faço para corrigir um erro MODULE_NOT_FOUND para um módulo que não importei manualmente?

`(expression, lvalue) = rvalue` é uma atribuição válida em C ou C++? Por que alguns compiladores aceitam/rejeitam isso?

Um programa vazio que não faz nada em C++ precisa de um heap de 204 KB, mas não em C

PowerBI atualmente quebrado com BigQuery: problema de driver Simba com atualização do Windows

AdMob: MobileAds.initialize() - "java.lang.Integer não pode ser convertido em java.lang.String" para alguns dispositivos

R: substituir múltiplas ocorrências de strings correspondentes a regex em campos de dataframe, pesquisando-as em outro dataframe

5 respostas

relate perguntas