AskOverflow.Dev

AskOverflow.Dev Logo AskOverflow.Dev Logo

AskOverflow.Dev Navigation

  • Início
  • system&network
  • Ubuntu
  • Unix
  • DBA
  • Computer
  • Coding
  • LangChain

Mobile menu

Close
  • Início
  • system&network
    • Recentes
    • Highest score
    • tags
  • Ubuntu
    • Recentes
    • Highest score
    • tags
  • Unix
    • Recentes
    • tags
  • DBA
    • Recentes
    • tags
  • Computer
    • Recentes
    • tags
  • Coding
    • Recentes
    • tags
Início / coding / Perguntas / 79434201
Accepted
JontroPothon
JontroPothon
Asked: 2025-02-13 03:17:56 +0800 CST2025-02-13 03:17:56 +0800 CST 2025-02-13 03:17:56 +0800 CST

Separando string alfanumérica usando tidyr separate broadex

  • 772

Tenho os seguintes dados,

id <- c("case1", "case19", "case88", "case77")
vec <- c("One_20 (19)",
         "tWo_20 (290)",
         "Three_38 (399)",
         NA)

df <- data.frame(id, vec)

> df
      id            vec
1  case1    One_20 (19)
2 case19   tWo_20 (290)
3 case88 Three_38 (399)
4 case77           <NA>

Quero separar o vecvetor em duas variáveis, a saber: txte num. Estou preferindo usar tidyrdesta forma,

df |> tidyr::separate_wider_regex(vec, 
                                   c(txt = "[A-Za-z]+", num = "\\d+"),
                                   too_few = "align_start")
# A tibble: 4 × 3
  id     txt   num  
  <chr>  <chr> <chr>
1 case1  One   NA   
2 case19 tWo   NA   
3 case88 Three NA   
4 case77 NA    NA  

Porém, não é isso que eu quero. Tenho a seguinte expectativa:

      id      txt num
1  case1   One_20  19
2 case19   tWo_20 290
3 case88 Three_38 399
4 case77     <NA>  NA

Estou cometendo erros na parte regex. Alguém pode me ajudar a corrigir esses erros para que eu possa ter a tabela esperada como saída?

  • 4 4 respostas
  • 77 Views

4 respostas

  • Voted
  1. Friede
    2025-02-13T03:29:25+08:002025-02-13T03:29:25+08:00

    Uma maneira em R base usando sub():

    cbind(df['id'], {
      l = strsplit(sub('^(.*) \\((.*)\\)$', '\\1 \\2', df$vec), ' ')
      lapply(l, `length<-`, max(lengths(l))) |>
        do.call(what = 'rbind')
      }) |> setNames(c('id', 'txt', 'num'))
    
          id      txt  num
    1  case1   One_20   19
    2 case19   tWo_20  290
    3 case88 Three_38  399
    4 case77     <NA> <NA>
    
    • 5
  2. Best Answer
    ThomasIsCoding
    2025-02-13T03:49:33+08:002025-02-13T03:49:33+08:00

    Tentar

    > df %>%
    +     separate_wider_regex(vec,
    +         c(txt = "\\w+", "\\s+\\(", num = "\\d+","\\)"),
    +         too_few = "align_start"
    +     )
    # A tibble: 4 × 3
      id     txt      num  
      <chr>  <chr>    <chr>
    1 case1  One_20   19
    2 case19 tWo_20   290
    3 case88 Three_38 399
    4 case77 NA       NA
    
    • 3
  3. jpsmith
    2025-02-13T05:33:36+08:002025-02-13T05:33:36+08:00

    Nem sempre sou o melhor em regex, então tento evitá-lo quando possível. Uma abordagem sem regex para alguém com dados semelhantes seria usar separate_wider_delim. Isso separará o "number_text" do "(number)", então readr::parse_numberextrairá o valor numérico de num:

    df %>%
      separate_wider_delim(vec, " ", names = c("txt", "num")) %>%
      mutate(num = readr::parse_number(num))
    
    #   id     txt        num
    #   <chr>  <chr>    <dbl>
    # 1 case1  One_20      19
    # 2 case19 tWo_20     290
    # 3 case88 Three_38   399
    # 4 case77 NA          NA
    

    Você também pode substituir parse_numberpor outro método de sua escolha, ou seja, mutate(num = as.numeric(gsub("\\(|\\)", "", num))).

    • 0
  4. jtatria
    2025-02-13T06:24:39+08:002025-02-13T06:24:39+08:00

    Você não precisa usar nenhum pacote externo ou frase de efeito sofisticada, desde que sua regex seja bem construída.

    Para sua necessidade específica, este padrão funciona:

    rx <- "([A-Za-z]+_[0-9]{2}) (\\([0-9]+\\))"
    

    Então você pode usá-lo diretamente para atribuir às colunas necessárias no df, usando sub:

    df$txt <- sub( rx, "\\1", df$vec )
    df$num <- sub( rx, "\\2", df$vec )
    

    ou, se você quiser evitar executar o regexp mais de uma vez, use regmatches/regexec e lapply:

    match <- df$vec %>% regmatches( regexec( rx, . ) )
    df$txt <- lapply( match, function( x ) x[2] )
    df$num <- lapply( match, function( x ) x[3] )
    
    • 0

relate perguntas

  • Adicionar número de série para atividade de cópia ao blob

  • A fonte dinâmica do empacotador duplica artefatos

  • Selecione linhas por grupo com 1s consecutivos

  • Lista de chamada de API de gráfico subscritoSkus estados Privilégios insuficientes enquanto os privilégios são concedidos

  • Função para criar DFs separados com base no valor da coluna

Sidebar

Stats

  • Perguntas 205573
  • respostas 270741
  • best respostas 135370
  • utilizador 68524
  • Highest score
  • respostas
  • Marko Smith

    Reformatar números, inserindo separadores em posições fixas

    • 6 respostas
  • Marko Smith

    Por que os conceitos do C++20 causam erros de restrição cíclica, enquanto o SFINAE antigo não?

    • 2 respostas
  • Marko Smith

    Problema com extensão desinstalada automaticamente do VScode (tema Material)

    • 2 respostas
  • Marko Smith

    Vue 3: Erro na criação "Identificador esperado, mas encontrado 'import'" [duplicado]

    • 1 respostas
  • Marko Smith

    Qual é o propósito de `enum class` com um tipo subjacente especificado, mas sem enumeradores?

    • 1 respostas
  • Marko Smith

    Como faço para corrigir um erro MODULE_NOT_FOUND para um módulo que não importei manualmente?

    • 6 respostas
  • Marko Smith

    `(expression, lvalue) = rvalue` é uma atribuição válida em C ou C++? Por que alguns compiladores aceitam/rejeitam isso?

    • 3 respostas
  • Marko Smith

    Um programa vazio que não faz nada em C++ precisa de um heap de 204 KB, mas não em C

    • 1 respostas
  • Marko Smith

    PowerBI atualmente quebrado com BigQuery: problema de driver Simba com atualização do Windows

    • 2 respostas
  • Marko Smith

    AdMob: MobileAds.initialize() - "java.lang.Integer não pode ser convertido em java.lang.String" para alguns dispositivos

    • 1 respostas
  • Martin Hope
    Fantastic Mr Fox Somente o tipo copiável não é aceito na implementação std::vector do MSVC 2025-04-23 06:40:49 +0800 CST
  • Martin Hope
    Howard Hinnant Encontre o próximo dia da semana usando o cronógrafo 2025-04-21 08:30:25 +0800 CST
  • Martin Hope
    Fedor O inicializador de membro do construtor pode incluir a inicialização de outro membro? 2025-04-15 01:01:44 +0800 CST
  • Martin Hope
    Petr Filipský Por que os conceitos do C++20 causam erros de restrição cíclica, enquanto o SFINAE antigo não? 2025-03-23 21:39:40 +0800 CST
  • Martin Hope
    Catskul O C++20 mudou para permitir a conversão de `type(&)[N]` de matriz de limites conhecidos para `type(&)[]` de matriz de limites desconhecidos? 2025-03-04 06:57:53 +0800 CST
  • Martin Hope
    Stefan Pochmann Como/por que {2,3,10} e {x,3,10} com x=2 são ordenados de forma diferente? 2025-01-13 23:24:07 +0800 CST
  • Martin Hope
    Chad Feller O ponto e vírgula agora é opcional em condicionais bash com [[ .. ]] na versão 5.2? 2024-10-21 05:50:33 +0800 CST
  • Martin Hope
    Wrench Por que um traço duplo (--) faz com que esta cláusula MariaDB seja avaliada como verdadeira? 2024-05-05 13:37:20 +0800 CST
  • Martin Hope
    Waket Zheng Por que `dict(id=1, **{'id': 2})` às vezes gera `KeyError: 'id'` em vez de um TypeError? 2024-05-04 14:19:19 +0800 CST
  • Martin Hope
    user924 AdMob: MobileAds.initialize() - "java.lang.Integer não pode ser convertido em java.lang.String" para alguns dispositivos 2024-03-20 03:12:31 +0800 CST

Hot tag

python javascript c++ c# java typescript sql reactjs html

Explore

  • Início
  • Perguntas
    • Recentes
    • Highest score
  • tag
  • help

Footer

AskOverflow.Dev

About Us

  • About Us
  • Contact Us

Legal Stuff

  • Privacy Policy

Language

  • Pt
  • Server
  • Unix

© 2023 AskOverflow.DEV All Rights Reserve