Ed Morton提出的问题 -unix

Ed Morton

Asked: 2024-12-07 21:13:12 +0800 CST

Por que as sequências de escape ASCII para ' são tratadas de forma diferente em grep/sed/awk?

13

Usando a versão GNU de todas as 3 ferramentas (role para baixo para ver as tentativas do FreeBSD), se eu quisesse encontrar 'na entrada usando o awk com um 'script delimitado por -, poderíamos tentar corresponder usando as sequências de escape hexadecimais e octais:

$ echo "'" | awk '/\x27/'
'

$ echo "'" | awk '/\047/'
'

$ echo "'" | awk '/\o047/'
awk: cmd. line:1: warning: regexp escape sequence `\o' is not a known regexp operator

então os 2 primeiros funcionam e o 3º não, como você esperaria intuitivamente.

Agora vamos tentar o mesmo com sed (com ou sem -E):

$ echo "'" | sed -n '/\x27/p'
'

$ echo "'" | sed -n '/\047/p'
$

$ echo "'" | sed -n '/\o047/p'
'

e grep (também com ou sem -E):

$ echo "'" | grep '\x27'
grep: warning: stray \ before x

$ echo "'" | grep '\047'
grep: warning: stray \ before 0

$ echo "'" | grep '\o047'
grep: warning: stray \ before o

Então:

Mais importante: por que eles são diferentes?
Curiosidade secundária: Existe uma maneira de usar uma sequência de escape no grep para corresponder 'sem recorrer à opção não portátil do GNU grep -Pe sem expandir a sequência de escape antes que o grep a veja usando construções de shell como grep $'\047'?

Vale ressaltar que octal \047é a sequência de escape recomendada no awk (veja http://awk.freeshell.org/PrintASingleQuote ou https://web.archive.org/web/20230530010453/http://awk.freeshell.org/PrintASingleQuote se estiver inativo).

Para os propósitos desta questão, não estou interessado em alternativas que permitam literal 'ou o que qualquer outra ferramenta faz ou qualquer outra coisa, estou apenas tentando descobrir por que essas 3 ferramentas específicas de correspondência de regexp tratam sequências de escape ASCII de forma diferente umas das outras. Eu estaria, no entanto, interessado em aprender como o BSD ou outras variantes dessas 3 ferramentas se comportam, dados os mesmos scripts mostrados acima.

Informações adicionais:

FreeBSD

Este é o comportamento do FreeBSD 13.1:

% echo "'" | awk '/\x27/'
'
% echo "'" | awk '/\047/'
'
% echo "'" | sed -n '/\x27/p'
'
% echo "'" | sed -n '/\047/p'
% echo "'" | sed -n '/\o047/p'
sed: 1: "/\o047/p": RE error: trailing backslash (\)
% echo "'" | grep '\x27'
grep: trailing backslash (\)
% echo "'" | grep '\047'
%

POSIX

Veja o que os padrões POSIX para Expressões Regulares e as 3 ferramentas em questão dizem sobre isso:

expressões regulares: https://pubs.opengroup.org/onlinepubs/9799919799/basedefs/V1_chap09.html
awk: https://pubs.opengroup.org/onlinepubs/9799919799/utilities/awk.html
sed: https://pubs.opengroup.org/onlinepubs/9799919799/utilities/sed.html
grep: https://pubs.opengroup.org/onlinepubs/9799919799/utilities/grep.html

Da especificação regexp vemos que nem xnem 0são "Caracteres Especiais" em um BRE ou ERE , portanto são "Caracteres Ordinários" e que

Quando não está dentro de uma expressão entre colchetes, a interpretação de um caractere comum precedido por um caractere sem escape é indefinida, exceto para:

seguido por listas de caracteres, nenhum dos quais inclui 0ou xpara BREs ou EREs, então minha conclusão é que nem \x27nem \047são comportamentos definidos em uma expressão regular por POSIX.

A seção Expressões Regulares da especificação POSIX awk diz:

\ddd
Um caractere seguido pela sequência mais longa de um, dois ou três caracteres de dígito octal (01234567). Se todos os dígitos forem 0 (ou seja, representação do caractere NUL), o comportamento é indefinido. Se os dígitos produzirem um valor maior que o octal 377, o comportamento é indefinido.

então sabemos que \0é definido para um awk POSIX, mas \xnão é, então o comportamento do awk \xnão é definido pelo POSIX para o awk e, portanto, é deixado para as várias implementações do awk.

A seção Expressões regulares da especificação POSIX sed adiciona algumas alterações ao regexp, mas não menciona \0or \xe remete às definições de regexp POSIX e, portanto, \0or \xnão são definidos pelo POSIX para sed.

A seção Descrição da especificação grep do POSIX se refere inteiramente às definições de expressões regulares do POSIX e, portanto \0, \xnão são definidas pelo POSIX para grep.

Então, aparentemente, o significado de \xddé deixado para os implementadores de ferramentas para grep, sed e awk, enquanto o significado de \0ddé definido para awk, mas deixado para os implementadores de grep e sed.

Manuais GNU

A seção Sequências de escape do manual do GNU awk diz:

\nnn
O valor octal nnn, onde nnn representa de 1 a 3 dígitos entre '0' e '7'. Por exemplo, o código para o caractere ASCII ESC (escape) é '\033'.

\xhh…
O valor hexadecimal hh, onde hh representa uma sequência de dígitos hexadecimais ('0'–'9', e 'A'–'F' ou 'a'–'f'). São permitidos no máximo dois dígitos após '\x'...

então é aí que \x47o GNU awk é definido.

A seção Sequências de Escape do manual do GNU sed diz:

\oxxx
Produz ou corresponde a um caractere cujo valor ASCII octal é xxx.

\xxx
Produz ou corresponde a um caractere cujo valor hexadecimal ASCII é xx.

então é onde \o047e \x27são definidos para o GNU sed.

O manual do GNU grep não contém nenhuma referência que eu tenha encontrado sobre sequências de escape hexadecimais ou octais, o que explica as mensagens de aviso que vemos quando tentamos usá-las e provavelmente significa que elas simplesmente não são suportadas no GNU grep.

Ed Morton

Asked: 2024-07-21 20:32:52 +0800 CST

Como posso fazer com que o tput preencha todo o fundo sem deixar borda?

7

Estou usando o bash no cygwin em um laptop Windows. Gostaria de poder alterar a cor de fundo do meu terminal para verde (a cor real é irrelevante) e, para isso, posso usar um destes comandos:

tput setb 2; echo
printf '\e]11;#00FF00\a'

Para obter mais informações sobre o que isso printfestá fazendo, consulte how-to-set-the-background-color-of-the-linux-console-screen e o uso específico de 11for background está documentado na página 34 de https://invisible- ilha.net/xterm/ctlseqs/ctlseqs.pdf ( Ps = 1 0 → Change VT100 text foreground color to Pt.e Ps = 1 1 → Change VT100 text background color to Pt.)

O printfaltera imediatamente o fundo de todo o terminal enquanto tputapenas define a cor do que é digitado a seguir, daí echocomeçar na próxima linha vazia, mas não me importo muito com isso. O que mais me importa é o seguinte:

Deixa tputuma pequena borda na cor de fundo original (bege claro, definido pela GUI "Opções" que obtenho clicando no canto superior esquerdo do terminal), como pode ser visto nesta imagem (o cinza claro ao redor da esquerda/inferior da imagem é a cor da minha área de trabalho do Windows):

O printfmuda a cor da borda (é um tom de verde mais claro, tputmas isso é irrelevante):

mas isso não altera a área do plano de fundo definida, tputa menos que eu primeiro reinicialize o que meu original tputfez tput init; echoe depois execute printf:

Posso apenas usar o printfpara conseguir o que quero, desde que não use tput setbprimeiro, mas prefiro usar apenastput setb se puder para portabilidade, então - por que está tputdeixando uma pequena borda da cor de fundo existente e existe alguma maneira dizer tputpara definir a cor de fundo de uma forma que não deixe aquela pequena borda?

Eu também gostaria de saber se existe uma maneira de definir tputtodo o plano de fundo do terminal imediatamente, como printfacontece, em vez de após a próxima string digitada, mas isso não é tão importante quanto se livrar dessa borda.

Informações adicionais agora que @MarcusMüller me deu a dica em um comentário de que isso pode ser um minttyproblema -

Vejo esse mesmo comportamento quando uso git basho Windows em uma máquina diferente. Aparentemente, ambos usam minttycomo emulador de terminal. Como tenho que fazer login em muitas máquinas Windows diferentes e usar cygwinor git bash, gostaria de poder resolver esse problema sem precisar alterar o emulador de terminal toda vez que uso uma dessas máquinas (nem tenho certeza se/como eu poderia fazer isso). Na verdade, se fosse necessário mudar o emulador de terminal para resolver o tputproblema, eu simplesmente usaria a printfabordagem.

Encontrei em set-border-width-for-mintty-window-on-cygwin-windows-10 uma maneira de controlar a largura da borda ~/.minttyrcdefinindo a Paddingvariável e se eu atualizá-la para dizer:

Padding=0

então isso resolve o tputproblema acima, mas

Isso significaria que eu teria que alterar o .minttyrcem cada máquina em que fizer login e reiniciar o terminal depois, e
Quando abro a GUI "Opções" para alterar qualquer coisa no terminal e salvá-lo, ele sobrescreve o .minttyrcarquivo e remove a Paddingconfiguração

então eu ainda gostaria de encontrar uma maneira de simplesmente tputpreencher essa área de "preenchimento" assim como faz com o resto do plano de fundo.

@Vilinkameni também aponta em um comentário que, com o acima exposto tputem um terminal minttyand MSYS2 MINGW64, qualquer troca de cor ANSI SGR por um ls --colorcomando subsequente ou outro que use cores irá efetivamente redefinir a cor novamente. Isso não acontece se eu usar o acima, printfentão posso perguntar sobre isso em uma pergunta subsequente.

Consulte também "Alterar cores" na parte inferior https://code.google.com/archive/p/mintty/wikis/Tips.wiki#Changing_colours para obter mais informações sobre o acima printfe outras coisas relacionadas a mintty. Meu $TERMvalor é xterm.

Ed Morton

Asked: 2023-07-04 01:39:25 +0800 CST

O `head` pode ler/consumir mais linhas de entrada do que as saídas?

18

Dados os 3 scripts a seguir:

printf 'a\nb\nc\n' > file && { head -n 1; cat; } < file
printf 'a\nb\nc\n' | { head -n 1; cat; }
{ head -n 1; cat; } < <(printf 'a\nb\nc\n')

Eu esperaria que a saída de cada um fosse:

a
b
c

mas para alguns deles, em alguns sistemas, esse não é o caso. Por exemplo, no cygwin:

$ printf 'a\nb\nc\n' > file && { head -n 1; cat; } < file
a
b
c

$ printf 'a\nb\nc\n' | { head -n 1; cat; }
a

$ { head -n 1; cat; } < <(printf 'a\nb\nc\n')
a

O que está causando a saída diferente desses scripts?

Informações adicionais - aparentemente, isso não é apenas um headproblema:

$ printf 'a\nb\nc\n' | { sed '1q'; cat; }
a
$ printf 'a\nb\nc\n' | { awk '1;{exit}'; cat; }
a

$ { sed '1q'; cat; } < <(printf 'a\nb\nc\n')
a
$ { awk '1;{exit}'; cat; } < <(printf 'a\nb\nc\n')
a

Qual seria uma maneira POSIX robusta no shell (ou seja, sem apenas invocar awk ou similar uma vez para fazer tudo) para ler um certo número de linhas da entrada e deixar o restante para um comando diferente, independentemente de a entrada vir de um canal ou um arquivo?

Esta pergunta foi inspirada por comentários em uma resposta para classificar todo o .csv com base no valor de uma determinada coluna .

Ed Morton

Asked: 2022-07-03 04:41:25 +0800 CST

O que controla o relatório de "expansão indireta inválida" no bash?

1

Eu estava usando expansão indireta e contando com o resultado sendo uma string nula quando a variável não está definida:

$ $SHELL --version | head -1
GNU bash, version 4.4.23(1)-release (x86_64-unknown-linux-gnu)
$ unset var
$ echo "${!var}"

$

mas em uma nova caixa Linux que falha com invalid indirect expansion:

$ $SHELL --version | head -1
GNU bash, version 5.0.7(1)-release (x86_64-pc-linux-gnu)
$ unset var
$ echo "${!var}"
-bash: var: invalid indirect expansion
$

Obviamente, posso alterar meu código para funcionar nos dois lugares, mas até agora não consegui descobrir a diferença exata entre os 2 sistemas que está causando a falha em 1, mas não no outro, e quero saber qual é a melhor diferença resolver esse problema e qualquer coisa semelhante que surgir no futuro.

Se for apenas a mudança na versão do bash, não consigo encontrar nenhuma nota de lançamento ou qualquer coisa que indique isso. Se for alguma opção definida em um, também não consigo encontrar (não é, set -upor exemplo). FWIW aqui está a diferença na shoptsaída entre a máquina que está falhando (segunda coluna) e aquela que não está (terceira coluna):

$ awk 'FNR==1{ARGIND++} {a[$1,ARGIND]=$2; b[$1]} END{for (var in b) if (a[var,1] != a[var,2]) print var, a[var,1], a[var,2]}' bad good | column -t
autocd              off
compat32            off
localvar_unset      off
lastpipe            off
localvar_inherit    off
complete_fullquote  on
assoc_expand_once   off
checkwinsize        on   off
globasciiranges     on
compat40            off
compat41            off
compat42            off
inherit_errexit     off
compat43            off
compat44            off
checkjobs           off
expand_aliases      on   off
globstar            off
progcomp_alias      off
dirspell            off
direxpand           off
login_shell         on   off

Alguém sabe exatamente por que vejo a falha em uma caixa Unix, mas não na outra?

Por que as sequências de escape ASCII para ' são tratadas de forma diferente em grep/sed/awk?

Informações adicionais:

Como posso fazer com que o tput preencha todo o fundo sem deixar borda?

O `head` pode ler/consumir mais linhas de entrada do que as saídas?

O que controla o relatório de "expansão indireta inválida" no bash?

Possível firmware ausente /lib/firmware/i915/* para o módulo i915

Falha ao buscar o repositório de backports jessie

Como exportar uma chave privada GPG e uma chave pública para um arquivo

Como podemos executar um comando armazenado em uma variável?

Como configurar o systemd-resolved e o systemd-networkd para usar o servidor DNS local para resolver domínios locais e o servidor DNS remoto para domínios remotos?

apt-get update error no Kali Linux após a atualização do dist [duplicado]

Como ver as últimas linhas x do log de serviço systemctl

Nano - pule para o final do arquivo

erro grub: você precisa carregar o kernel primeiro

Como baixar o pacote não instalá-lo com o comando apt-get?

Ed Morton's questions

Informações adicionais: