Regex: Corresponde até "," mas não se "," estiver entre colchetes

Question

Sam

Asked: 2023-11-14 22:50:44 +0800 CST2023-11-14 22:50:44 +0800 CST 2023-11-14 22:50:44 +0800 CST

Linux Substitua a coluna inteira por um novo valor em todas as linhas múltiplas

772

Eu tenho as seguintes linhas em um arquivo

$ cat test.txt
69|1074330570|1,sip:+121345633210x3Bverstat=TN-Validation-Passed|tel:+12134565534|0
69|1077822111|2,;tel:+2223120011~sip:[email protected];|sip:[email protected]|0
69|1077988012|1,sip:+121510016070x3Bverstat=TN-Validation-Passed|tel:+136965339510x3Bnpd|0

Quero substituir a terceira e a quarta colunas do arquivo apenas por números de telefone, da seguinte forma:

69|1074330570|2134563321|2134565534|0
69|1077822111|2223120011|3123120022|0
69|1077988012|2151001607|3696533951|0

A parte boa é que todos os arquivos terão um ‘+’ na terceira e quarta colunas. Agora, a parte difícil é que às vezes obtemos 11 dígitos, conforme observado na terceira coluna da primeira linha (121345633210) e às vezes não há '1' adicionado após um '+'. Portanto, se houver 1 após o sinal de mais, exclua 1. Caso contrário, inicie o comprimento após o sinal '+'. Da mesma forma, se houver 11 dígitos, apenas a substring 10. Além disso, se houver mais de 1 número como a linha 2, preciso pegar o primeiro número após o sinal '+' apenas como 2223120011 e não 2223120051.

Eu tentei o seguinte

awk -F"|"  'BEGIN {FS="+"}{print substr($3,2,10)}' test.txt

Mas está fornecendo um valor incorreto para a segunda linha, pois precisa começar após o sinal '+'.

4 respostas

Voted

markp-fuso · Answer 1 · 2023-11-14T23:14:28+08:00

Problemas com o código atual:

-F"|"e FS="+"ambos definem o delimitador do campo de entrada, portanto, tecnicamente, você deve escolher um ou outro, mas não ambos; neste caso FS="+"tem precedência (ou seja, -F"|"é ignorado)
como o requisito geral é 'substituir' a 3ª e a 4ª colunas, você desejará manter o -F"|", mas também defini-lo como o delimitador do campo de saída (recomende:BEGIN { FS=OFS="|"}
em seguida, analise mais detalhadamente os 3º/4º campos com alguma combinação de awkfunções de string (por exemplo, split(), match(), index(), substr())

Suposições/Entendimentos:

3º/4º campos sempre têm um+
a string após o +é sempre um número de 10 ou 11 dígitos
se o terceiro/quarto campo tiver mais de um +, estaremos interessados apenas no primeiro + (por exemplo, não precisamos analisar mais com base em telor sip)
parece que estamos lidando com formatos de números de telefone norte-americanos (por exemplo, não precisamos nos preocupar com os diferentes formatos de números de telefone de outros países)

Uma awkideia:

awk '
BEGIN { FS=OFS="|" }
      { for (i=3; i<=4; i++) {                         # loop through 3rd and 4th fields
            split($i,a,"+")                            # split on "+"
            d1 = substr(a[2],1,1)                      # get 1st digit after the "+"
            $i = substr(a[2],(d1==1 ? 2 : 1),10)       # redefine ith field based on value of 1st digit
        }
      }
1                                                      # print current line
' test.txt

NOTAS:

essa lógica é codificada com base nas suposições de que só temos que lidar com formatos de números de telefone norte-americanos (10 dígitos/11 dígitos, código do país = 1)

Isso gera:

69|1074330570|2134563321|2134565534|0
69|1077822111|2223120011|3123120022|0
69|1077988012|2151001607|3696533951|0

anubhava · Answer 2 · 2023-11-14T23:19:20+08:00

anubhava

2023-11-14T23:19:20+08:002023-11-14T23:19:20+08:00

Você pode usar esta awksolução:

awk '
function extphone(s) {
   sub(/^[^+]*\+1?/, "", s)  # remove all text before + then + and optional 1
   return substr(s, 1, 10)   # extract first 10 characters now
}
BEGIN {FS=OFS="|"}
{
   $3 = extphone($3)
   $4 = extphone($4)
} 1' file

69|1074330570|2134563321|2134565534|0
69|1077822111|2223120011|3123120022|0
69|1077988012|2151001607|3696533951|0

4

Ed Morton · Answer 3 · 2023-11-14T23:33:51+08:00

Ed Morton

2023-11-14T23:33:51+08:002023-11-14T23:33:51+08:00

Com GNU awk para gensub():

$ awk '
    BEGIN { FS=OFS="|" }
    {
        for ( i=3; i<=4; i++ ) {
            $i = gensub(/[^+]+\+1?([0-9]{10}).*/,"\\1",1,$i)
        }
        print
    } 
' test.txt
69|1074330570|2134563321|2134565534|0
69|1077822111|2223120011|3123120022|0
69|1077988012|2151001607|3696533951|0

ou com qualquer awk:

$ awk '
    BEGIN { FS=OFS="|" }
    {
        for ( i=3; i<=4; i++ ) {
            if ( match($i,/\+1?[0-9]{10}/) ) {
                $i = substr($i,RSTART+RLENGTH-10,10)
            }
        }
        print
    }
' test.txt
69|1074330570|2134563321|2134565534|0
69|1077822111|2223120011|3123120022|0
69|1077988012|2151001607|3696533951|0

2

RavinderSingh13 · Answer 4 · 2023-11-15T07:16:25+08:00

RavinderSingh13

2023-11-15T07:16:25+08:002023-11-15T07:16:25+08:00

Com os exemplos mostrados, tente seguir awko código GNU.

awk '
match($0,/^([^|]*\|[^|]*\|)[^+]*\+1*([0-9]+)[^|]*(\|)[^+]*\+1*([0-9]+)[^|]*(\|.*$)/,arr){
  sub(/0$/,"",arr[2])
  sub(/0$/,"",arr[4])
  print arr[1] arr[2] arr[3] arr[4] arr[5]
}
'  Input_file

Explicação: Adicionando explicação detalhada para o código acima.

Usando a função GNU awkpara matchusar regex nele, que cria grupos de captura e mais tarde podemos usá-los para obter a saída necessária.
Usando regex ^([^|]*\|[^|]*\|)[^+]*\+1*([0-9]+)[^|]*(\|)[^+]*\+1*([0-9]+)[^|]*(\|.*$)dentro matchda função.
Se uma correspondência de regex for encontrada, remova 0pelo menos o segundo e o quarto grupo de captura usando subaqui.
Em seguida, imprima todos os 5 grupos de captura para obter a saída necessária.

1

Linux Substitua a coluna inteira por um novo valor em todas as linhas múltiplas

destaque o código em HTML usando <font color="#xxx">

Por que a resolução de sobrecarga prefere std::nullptr_t a uma classe ao passar {}?

Você pode usar uma lista de inicialização com chaves como argumento de modelo (padrão)?

Por que as compreensões de lista criam uma função internamente?

Estou tentando fazer o jogo pacman usando apenas o módulo Turtle Random e Math

java.lang.NoSuchMethodError: 'void org.openqa.selenium.remote.http.ClientConfig.<init>(java.net.URI, java.time.Duration, java.time.Duratio

Por que 'char -> int' é promoção, mas 'char -> short' é conversão (mas não promoção)?

Por que o construtor de uma variável global não é chamado em uma biblioteca?

Comportamento inconsistente de std::common_reference_with em tuplas. Qual é correto?

Somente operações bit a bit para std::byte em C++ 17?

Linux Substitua a coluna inteira por um novo valor em todas as linhas múltiplas

4 respostas

relate perguntas