É legal imprimir bytes nulos usando a printf
função do awk de acordo com POSIX? O padrão POSIX deawk
não parece mencioná-lo explicitamente de qualquer maneira. As implementações do mundo real diferem em como elas se comportam:
+$ gawk 'BEGIN { x = sprintf("\000"); print(length(x)); }'
1
+$ busybox awk 'BEGIN { x = sprintf("\000"); print(length(x)); }'
0
+$
e
+$ gawk 'BEGIN { printf("\000"); }' | xxd
00000000: 00 .
+$ busybox awk 'BEGIN { printf("\000"); }' | xxd
+$
Isso está especificado em algum lugar no padrão? Se sim, o comportamento requerido para variáveis ( x = sprintf("\000")
) e printf ( printf("\000")
) é o mesmo?
Há pelo menos 4 textos relevantes na especificação POSIX.2018 de
awk
:A ênfase (negrito) é minha em todo o texto citado abaixo:
Isso significa que, se a entrada contiver caracteres NUL (o que a tornaria não-texto de acordo com a definição de texto POSIX), o comportamento não será especificado.
Assim
\000
resulta em comportamento indefinido.Sobre a correspondência regexp:
Sobre
printf
/sprintf
:Então, essa é outra maneira de obter um caractere NUL que leva a um comportamento indefinido.
Então, para resumir, em
awk
, POSIX nos diz que você não pode usar o caractere NUL de forma portátil, seja para entrada, saída ou para armazenar em suas variáveis.gawk
(desde pelo menos 2.10 em 1989, que é a versão mais antiga que encontrei onde o suporte a NUL está documentado ) e @ThomasDickeymawk
(desde a versão 20140914 ) são duas implementações que podem lidar com NUL.Strings C em geral não podem conter bytes nulos e
awk
basicamente são algum tipo de interpretador C. Um utilitário POSIX capaz de imprimir bytes nulos precisaria ser explicitamente mencionado no padrão POSIX.printf
emawk
não é tal caso.Os seguintes casos são explicitamente listados no POSIX:
todos os três comandos imprimem quatro caracteres em um sistema operacional certificado com a marca POSIX UNIX.
Seus
awk
exemplos estão usando um comportamento não especificado.