Adicionar número de série para atividade de cópia ao blob

Question

JontroPothon

Asked: 2025-02-13 03:17:56 +0800 CST2025-02-13 03:17:56 +0800 CST 2025-02-13 03:17:56 +0800 CST

Separando string alfanumérica usando tidyr separate broadex

772

Tenho os seguintes dados,

id <- c("case1", "case19", "case88", "case77")
vec <- c("One_20 (19)",
         "tWo_20 (290)",
         "Three_38 (399)",
         NA)

df <- data.frame(id, vec)

> df
      id            vec
1  case1    One_20 (19)
2 case19   tWo_20 (290)
3 case88 Three_38 (399)
4 case77           <NA>

Quero separar o vecvetor em duas variáveis, a saber: txte num. Estou preferindo usar tidyrdesta forma,

df |> tidyr::separate_wider_regex(vec, 
                                   c(txt = "[A-Za-z]+", num = "\\d+"),
                                   too_few = "align_start")
# A tibble: 4 × 3
  id     txt   num  
  <chr>  <chr> <chr>
1 case1  One   NA   
2 case19 tWo   NA   
3 case88 Three NA   
4 case77 NA    NA

Porém, não é isso que eu quero. Tenho a seguinte expectativa:

      id      txt num
1  case1   One_20  19
2 case19   tWo_20 290
3 case88 Three_38 399
4 case77     <NA>  NA

Estou cometendo erros na parte regex. Alguém pode me ajudar a corrigir esses erros para que eu possa ter a tabela esperada como saída?

4 respostas

Voted

Friede · Answer 1 · 2025-02-13T03:29:25+08:00

Friede

2025-02-13T03:29:25+08:002025-02-13T03:29:25+08:00

Uma maneira em R base usando sub():

cbind(df['id'], {
  l = strsplit(sub('^(.*) \\((.*)\\)$', '\\1 \\2', df$vec), ' ')
  lapply(l, `length<-`, max(lengths(l))) |>
    do.call(what = 'rbind')
  }) |> setNames(c('id', 'txt', 'num'))

      id      txt  num
1  case1   One_20   19
2 case19   tWo_20  290
3 case88 Three_38  399
4 case77     <NA> <NA>

5

ThomasIsCoding · Answer 2 · 2025-02-13T03:49:33+08:00

Best Answer

ThomasIsCoding

2025-02-13T03:49:33+08:002025-02-13T03:49:33+08:00

Tentar

> df %>%
+     separate_wider_regex(vec,
+         c(txt = "\\w+", "\\s+\\(", num = "\\d+","\\)"),
+         too_few = "align_start"
+     )
# A tibble: 4 × 3
  id     txt      num  
  <chr>  <chr>    <chr>
1 case1  One_20   19
2 case19 tWo_20   290
3 case88 Three_38 399
4 case77 NA       NA

3

jpsmith · Answer 3 · 2025-02-13T05:33:36+08:00

jpsmith

2025-02-13T05:33:36+08:002025-02-13T05:33:36+08:00

Nem sempre sou o melhor em regex, então tento evitá-lo quando possível. Uma abordagem sem regex para alguém com dados semelhantes seria usar separate_wider_delim. Isso separará o "number_text" do "(number)", então readr::parse_numberextrairá o valor numérico de num:

df %>%
  separate_wider_delim(vec, " ", names = c("txt", "num")) %>%
  mutate(num = readr::parse_number(num))

#   id     txt        num
#   <chr>  <chr>    <dbl>
# 1 case1  One_20      19
# 2 case19 tWo_20     290
# 3 case88 Three_38   399
# 4 case77 NA          NA

Você também pode substituir parse_numberpor outro método de sua escolha, ou seja, mutate(num = as.numeric(gsub("\\(|\\)", "", num))).

0

jtatria · Answer 4 · 2025-02-13T06:24:39+08:00

jtatria

2025-02-13T06:24:39+08:002025-02-13T06:24:39+08:00

Você não precisa usar nenhum pacote externo ou frase de efeito sofisticada, desde que sua regex seja bem construída.

Para sua necessidade específica, este padrão funciona:

rx <- "([A-Za-z]+_[0-9]{2}) (\\([0-9]+\\))"

Então você pode usá-lo diretamente para atribuir às colunas necessárias no df, usando sub:

df$txt <- sub( rx, "\\1", df$vec )
df$num <- sub( rx, "\\2", df$vec )

ou, se você quiser evitar executar o regexp mais de uma vez, use regmatches/regexec e lapply:

match <- df$vec %>% regmatches( regexec( rx, . ) )
df$txt <- lapply( match, function( x ) x[2] )
df$num <- lapply( match, function( x ) x[3] )

0

Separando string alfanumérica usando tidyr separate broadex

Reformatar números, inserindo separadores em posições fixas

Por que os conceitos do C++20 causam erros de restrição cíclica, enquanto o SFINAE antigo não?

Problema com extensão desinstalada automaticamente do VScode (tema Material)

Vue 3: Erro na criação "Identificador esperado, mas encontrado 'import'" [duplicado]

Qual é o propósito de `enum class` com um tipo subjacente especificado, mas sem enumeradores?

Como faço para corrigir um erro MODULE_NOT_FOUND para um módulo que não importei manualmente?

`(expression, lvalue) = rvalue` é uma atribuição válida em C ou C++? Por que alguns compiladores aceitam/rejeitam isso?

Um programa vazio que não faz nada em C++ precisa de um heap de 204 KB, mas não em C

PowerBI atualmente quebrado com BigQuery: problema de driver Simba com atualização do Windows

AdMob: MobileAds.initialize() - "java.lang.Integer não pode ser convertido em java.lang.String" para alguns dispositivos

Separando string alfanumérica usando tidyr separate broadex

4 respostas

relate perguntas