关于【regex】的问题- 第1页

John

Asked: 2025-04-17 15:06:58 +0800 CST

Por que uma regex que termina com `[^.]` corresponde inesperadamente?

3

Considere a seguinte linha (como em um índice):

6.1.34.2    Some text

(há uma tabulação depois do "2").

Ao pesquisar, ^\d\+[.]\d\+[.]\d\+[^.]a linha é selecionada (e colorida de "6" a "4"), o que, na minha humilde opinião, não está correto devido ao último ponto no caso de teste.

Com ^\d\+[.]\d\+[.]\d\+\sa linha não selecionada (como esperado).

Minha pergunta é: o que há de errado com a primeira regex?

BoomDizzle

Asked: 2025-04-12 00:53:10 +0800 CST

awk para extrair um bloco de texto

9

Estou tentando descobrir um comando/script awk para extrair um bloco de texto de um arquivo grande. A subseção do arquivo em que estou interessado é esta:

  Board Info: #512
    Manufacturer: "Dell Inc."
    Product: "0X3D66"
    Version: "A02"
    Serial: "..CN7016343F00IE."
  Chassis Info: #768

As linhas Board Info e Chassis Info têm 2 espaços à esquerda, enquanto o bloco recuado tem 4. Eu gostaria de não presumir que a linha final começa com Chassis Info (pode ser outra coisa) e apenas confiar em chegar à próxima linha começando com 2 espaços.

Esse:

awk '/^\s{2}Board Info/,/^\s{2}[^B ]/' dump.txt

resolve esta instância específica, mas não funcionará se, em vez de 'Informações do chassi', a linha do bloco final começar com a letra B (por exemplo, BOM).

Se eu usar:

awk '/^\s{2}Board Info/,/^\s{2}\S*/' dump.txt

O padrão final também corresponde à linha "Informações do Quadro", então eu obtenho apenas essa linha. Como obtenho esse bloco recuado (4 espaços à esquerda) sem codificar o bloco final (como acima) e depender do padrão final ser "a próxima linha que começa com exatamente 2 espaços à esquerda"?

limestreetlab

Asked: 2025-04-11 21:37:00 +0800 CST

Como capturar um grupo não numérico entre dois grupos numéricos que às vezes podem conter um número de um formato específico?

6

Tenho lutado para obter uma regex que possa capturar dados extraídos de um arquivo PDF não tão limpo:

Cada linha deve conter 1. ID da escola (5 dígitos), 2. nome da escola, 3. número da inscrição, 4. outro número (=número da oferta)

Uma linha limpa se parece com "10394 ABC School 50 34" e pode ser capturada usando ([0-9]{5})\s{2,}(\D+)\s+(\d*)\s+(\d*). Um caso normal se parece com https://regex101.com/r/Mwv3bJ/1 , ignore o lookbehind negativo.

O problema com o qual tenho dificuldade é que algumas escolas têm um código postal parcial (1 ou 2 letras do alfabeto seguido de 1 ou 2 dígitos, como W19 ou SW2) no nome , então "10422 XYZ College W9 60 33" será capturado como (id: 10422)(escola: XYZ College W)(inscrições: 9)(ofertas: 60). https://regex101.com/r/YeNmT7/1

Quero que o (3:application#) não capture nenhum dígito imediatamente precedido por um alfabeto e, se tal \D{1,2}\d{1,2} existir no nome, seja capturado por (2:nome da escola). Tentei um grupo sem captura (?:^\D{1,2}\d{1,2}$) para me livrar de qualquer CEP em potencial, mas não funcionou.

Exemplos:

18747 Escola ABC 50 14 //(18747)(Escola ABC)(50)(14)
17646 Escola EFG W11 190 44 //(17646)(Escola EFG W11)(190)(44)

Por favor, avise.

hope

Asked: 2025-04-11 16:17:24 +0800 CST

Função Regex para corresponder a variantes irregulares de strings contendo um ou mais separadores entre cada caractere

5

Estou procurando uma função regex que corresponda exatamente a essas variantes de "SA..." (SAC, SAD, SAE, SAP, SAW, SAAC, SAAN, SAAS, SABE, SABW ), mas sem diferenciar maiúsculas de minúsculas.
O problema é que pode haver um ou mais separadores (espaço, barra invertida /, ponto, hífen -) entre cada caractere de cada palavra, por exemplo, "S /AC", "SA.P", "S / AB W".
Acabei com o padrão abaixo; sim, funciona, mas é feio e muito longo!
Existe um melhor e mais compacto?

Option Explicit
Option Compare Text

Function MatchSAWord(ByVal inputText As String) As Boolean
    Dim regex As Object
    Set regex = CreateObject("VBScript.RegExp")
   
    Dim sep As String, pat As String
   
    sep = "[ .\/-]*"
       
    pat = "\b(" & _
        "S" & sep & "A" & sep & "C" & "|" & _
        "S" & sep & "A" & sep & "D" & "|" & _
        "S" & sep & "A" & sep & "E" & "|" & _
        "S" & sep & "A" & sep & "P" & "|" & _
        "S" & sep & "A" & sep & "W" & "|" & _
        "S" & sep & "A" & sep & "A" & sep & "C" & "|" & _
        "S" & sep & "A" & sep & "A" & sep & "N" & "|" & _
        "S" & sep & "A" & sep & "A" & sep & "S" & "|" & _
        "S" & sep & "A" & sep & "B" & sep & "E" & "|" & _
        "S" & sep & "A" & sep & "B" & sep & "W" & _
        ")\b"
       
    With regex
        .Global = False
        .IgnoreCase = True
        .pattern = pat
    End With
    MatchSAWord = regex.Test(inputText)
End Function

Anonymous

Asked: 2025-04-09 05:03:11 +0800 CST

A maneira mais fácil de reduzir a saída do mkfs (backspaces e espaços)

5

Estou despejando a saída do mkfs no arquivo de log, mas ele exibe seu processo interativamente, imprimindo backspaces para retornar o cursor, depois imprime espaços para apagar, depois faz backspaces novamente e imprime uma nova mensagem.

No log, parece uma bagunça. Aqui está o que eu descobri para compactar um conjunto de BSs em um único espaço

# echo -e "AAABBB\x08\x08\x08\x08\x08\x08CCC" | sed -e 's/\(\x08\)\1\+/\1/g' -e 's/\(\x08\)/x/'
AAABBBxCCC

Mas existe uma maneira melhor de condensar sequências de BSs + espaços + BSs... em um único caractere de espaço usando regex? Eu consigo escrever o binário fazendo isso, mas, na minha opinião, isso é exagero...

Um exemplo de entrada seria

# echo -e "123\x08\x08\x08   \x08\x08\x08456    789"

converter para

123 456    789

Atualização: no início, eu disse que a saída é feita pelo mkfs. Deixe-me mostrar o exemplo para que você veja o conjunto de caracteres.

mke2fs 1.47.0 (5-Feb-2023)
fs_types for mke2fs.conf resolution: 'ext4'
Discarding device blocks:       0/16463361572864/1646336               done                            
Filesystem label=data_volume
OS type: Linux
Block size=4096 (log=2)
Fragment size=4096 (log=2)
Stride=0 blocks, Stripe width=0 blocks
412080 inodes, 1646336 blocks
82316 blocks (5.00%) reserved for the super user
First data block=0
Maximum filesystem blocks=1686110208
51 block groups
32768 blocks per group, 32768 fragments per group
8080 inodes per group
Filesystem UUID: c27f71c7-2d9e-4a33-9d54-449ab3e2f378
Superblock backups stored on blocks: 
    32768, 98304, 163840, 229376, 294912, 819200, 884736, 1605632
Allocating group tables:  0/51     done                            
Writing inode tables:  0/51     done                            
Creating journal (16384 blocks): done
Writing superblocks and filesystem accounting information:  0/51     done

Os backspaces não são exibidos na janela acima (eles foram removidos após copiar e colar).

Wang Xinghe

Asked: 2025-04-08 22:47:39 +0800 CST

Regex excluindo caracteres no final de uma string

5

Por exemplo, tenho algum texto

aaa foo
bbb foo
ccc foo?
ddd foo
eee foo?
...

Quero pesquisar todos os foos sem um ?, como nas linhas 1, 2 e 4 do texto acima. Como posso fazer isso?

JH Park

Asked: 2025-04-08 05:38:53 +0800 CST

Extraindo strings de um arquivo com sed e expressões regulares

8

Gostaria de perguntar sobre como extrair strings específicas de um arquivo usando sed e expressões regulares.

Abaixo está o exemplo do arquivo de texto de entrada (testfile.txt):

# This file contains a short description of the columns in the
# meta-analysis summary file, named '/some/output/directory/result.txt'

# (Skipping some comment lines...)

# Input for this meta-analysis was stored in the files:
# --> Input File 1 : /some/input/directory/cohort1/dataset1_chrAll.regenie.txt
# --> Input File 2 : /some/input/directory/cohort2/subdir1/chrAll-out.txt
# --> Input File 3 : /some/input/directory/cohort2/subdir2/chrAll-out_ver2.txt
# --> Input File 4 : /some/input/directory/cohort3/resfile.txt
# --> Input File 5 : /some/input/directory/cohort4/regenie_res_chrAll.txt

Deste arquivo, gostaria de extrair a lista de nomes de arquivos de entrada, então o resultado deve ser algo como:

/some/input/directory/cohort1/dataset1_chrAll.regenie.txt
/some/input/directory/cohort2/subdir1/chrAll-out.txt
/some/input/directory/cohort2/subdir2/chrAll-out_ver2.txt
/some/input/directory/cohort3/resfile.txt
/some/input/directory/cohort4/regenie_res_chrAll.txt

Veja abaixo o que eu tentei:

Tentativa 1

Este é o comando inicial que usei.

cat testfile.txt | sed -e 's/\/some\/input\/directory\/([A-z0-9\/\.\-]*)\.txt/$1/g'

Resultado:

sed: -e expression #1, char 55: Invalid range end

Tentativa 2

Depois de alguma pesquisa, tentei escapar dos parênteses usando barras invertidas.

cat testfile.txt | sed -e 's/\/some\/input\/directory\/\([A-z0-9\/\.\-]*\).txt/$1/g'

Resultado:

sed: -e expression #1, char 56: Invalid range end

Então isso não resolveu o problema.

Tentativa 3

Também tentei escapar dos colchetes.

cat testfile.txt | sed -e 's/\/some\/input\/directory\/\(\[A-z0-9\/\.\-\]\*\)\.txt/$1/g'

Resultado:

# This file contains a short description of the columns in the
# meta-analysis summary file, named '/some/output/directory/result.txt'

# (Skipping some comment lines...)

# Input for this meta-analysis was stored in the files:
# --> Input File 1 : /some/input/directory/cohort1/dataset1_chrAll.regenie.txt
# --> Input File 2 : /some/input/directory/cohort2/subdir1/chrAll-out.txt
# --> Input File 3 : /some/input/directory/cohort2/subdir2/chrAll-out_ver2.txt
# --> Input File 4 : /some/input/directory/cohort3/resfile.txt
# --> Input File 5 : /some/input/directory/cohort4/regenie_res_chrAll.txt

Isso não gerou um erro, mas não era isso que eu queria.

Tentativa 4

Por fim, tentei adicionar a opção -r sem escapar parênteses ou colchetes.

cat testfile.txt | sed -re 's/\/some\/input\/directory\/([A-z0-9\/\.\-]*)\.txt/$1/g'

Resultado:

sed: -e expression #1, char 55: Invalid range end

Apareceu a mesma mensagem de erro na primeira tentativa.

Gostaria de perguntar quais são os problemas nas minhas linhas de comando e se há alguma solução possível para isso.

Obrigado.

Jerome

Asked: 2025-04-06 12:35:08 +0800 CST

confusão sobre o tratamento do Ruby do início e do fim do padrão [duplicado]

2

No caso abaixo, onde um pai deve ser extraído de uma string por meio de uma expressão regular

input_string = "02150 ESPOO"
input_string[pattern]

Dois resultados muito diferentes surgem quer a patternexpressão regular seja delimitada (começando e terminando) /^\d{5}$/ou não/\d{5}/

Eu obtenho o resultado desejado no último caso, enquanto o primeiro retorna nil. Por que o regex bookened falha?

Benny Brudner

Asked: 2025-04-04 03:13:07 +0800 CST

regex para corresponder a todos os '$' sem escape em uma string regex

8

Quero criar uma regex que corresponda a todos os caracteres sem escape $em strings que representam uma regex.

Nesse caso, um caractere não é escapado se ele contiver um número igual de barras invertidas atrás dele (cada par de barras invertidas representa o próprio caractere de barra invertida e, portanto, o próximo caractere não é escapado).

Eu criei este padrão: (?<!\\)(\\{2})*\$

Explicação: embora isso também corresponda às barras invertidas que precedem o $, essa é a solução mais próxima que cheguei. Isso garante um número igual de barras invertidas antes de a $que não é precedido por outra barra invertida, resultando em um número ímpar de barras invertidas.

Meu problema é que parece que preciso de 2 grupos consecutivos não consumidores para tornar o número total de barras invertidas par, mas isso não é possível. Existe outra maneira de fazer isso?

Jo Makein

Asked: 2025-03-08 02:15:21 +0800 CST

Como faço para quebrar linhas no Notepad++ antes de N símbolos?

9

Como posso usar uma expressão regular localizar/substituir para quebrar em novas linhas para nunca ter mais de 20 símbolos por linha?

Eu encontrei isto:

Find: \s(?<=.{20})
Replace: $0\r\n

Seria perfeito, mas deixa palavras na linha maiores que 20 símbolos se elas começaram antes de 20 símbolos.

Preciso de uma expressão semelhante, mas se o último item torna a linha maior, ele também deve ir para a nova linha, então a linha final sempre terá <20 símbolos.

Eu sei que já fiz isso há muito tempo, talvez com algum plugin, mas não consigo fazer funcionar agora. Como posso fazer isso?

Por que uma regex que termina com `[^.]` corresponde inesperadamente?

awk para extrair um bloco de texto

Como capturar um grupo não numérico entre dois grupos numéricos que às vezes podem conter um número de um formato específico?

Função Regex para corresponder a variantes irregulares de strings contendo um ou mais separadores entre cada caractere

A maneira mais fácil de reduzir a saída do mkfs (backspaces e espaços)

Regex excluindo caracteres no final de uma string

Extraindo strings de um arquivo com sed e expressões regulares

Tentativa 1

Tentativa 2

Tentativa 3

Tentativa 4

confusão sobre o tratamento do Ruby do início e do fim do padrão [duplicado]

regex para corresponder a todos os '$' sem escape em uma string regex

Como faço para quebrar linhas no Notepad++ antes de N símbolos?

Reformatar números, inserindo separadores em posições fixas

Por que os conceitos do C++20 causam erros de restrição cíclica, enquanto o SFINAE antigo não?

Problema com extensão desinstalada automaticamente do VScode (tema Material)

Vue 3: Erro na criação "Identificador esperado, mas encontrado 'import'" [duplicado]

Qual é o propósito de `enum class` com um tipo subjacente especificado, mas sem enumeradores?

Como faço para corrigir um erro MODULE_NOT_FOUND para um módulo que não importei manualmente?

`(expression, lvalue) = rvalue` é uma atribuição válida em C ou C++? Por que alguns compiladores aceitam/rejeitam isso?

Um programa vazio que não faz nada em C++ precisa de um heap de 204 KB, mas não em C

PowerBI atualmente quebrado com BigQuery: problema de driver Simba com atualização do Windows

AdMob: MobileAds.initialize() - "java.lang.Integer não pode ser convertido em java.lang.String" para alguns dispositivos

Perguntas[regex](coding)

Tentativa 1

Tentativa 2

Tentativa 3

Tentativa 4