exportar variáveis env programaticamente, via stdout do comando [duplicado]

Question

Timothy Swan

Asked: 2018-02-02 12:20:54 +0800 CST2018-02-02 12:20:54 +0800 CST 2018-02-02 12:20:54 +0800 CST

Como imprimir caracteres literais de/para arquivo no bash?

772

Desejo filtrar um arquivo por caractere (com o objetivo de remover caracteres xml inválidos dos quais não posso controlar a geração), mas não consigo copiar caracteres individuais de um arquivo para outro. Eu costumava printfcopiar seções literais, incluindo retornos de carro antes, mas agora ele não copia um retorno de carro como um, mas como uma string de comprimento vazio. Meu código:

infile=$1
outfile=$2
touch $outfile
while IFS= read -r -n1 char
do
        # display one character at a time
        printf "%s" "$char" >> $outfile
done < "$infile"
diff $infile $outfile

Não me importo de usar sed ou awk, mas teria que codificar os caracteres permitidos. Char ::= #x9 | #xA | #xD | [#x20-#xD7FF] | [#xE000-#xFFFD] | [#x10000-#x10FFFF] /* any Unicode character, excluding the surrogate blocks, FFFE, and FFFF. */

1 respostas

Voted

ilkkachu · Answer 1 · 2018-02-02T13:30:49+08:00

O retorno do carro não deve ser um problema, readdeve ser lido perfeitamente. A nova linha (linefeed) é, pois é o delimitador padrão para read. Você pode usar o read -d ''truque para fazê-lo funcionar.

echo $'\r' | { IFS= read -r -n1 x; echo "$x"|xxd; }          # CR
echo $'\n' | { IFS= read -r -n1 x; echo "$x"|xxd; }          # LF fails
echo $'\n' | { IFS= read -d '' -r -n1 x; echo "$x"|xxd; }    # LF ok

Mas, como dizem, você provavelmente não quer fazer coisas assim no shell. trseria exatamente o que você precisa para excluir um conjunto fixo de caracteres, mas pelo menos o GNU trfunciona em bytes, não em caracteres, portanto, não é muito útil para Unicode.

Acho que este Perl deve funcionar, para dados UTF-8, se suas localidades estiverem definidas corretamente como UTF-8:

perl -C -pe 'tr/\x09\x0a\x0d\x20-\x{d7ff}\x{e000}-\x{fffd}\x{10000}-\x{10ffff}//cd' < in > out

Mas é melhor testar, não estou acostumado com as peculiaridades do Unicode.

tr/abc//cdexclui os caracteres que não estão listados em abc( na tr///verdade, serve para transformar caracteres em outros, consulte perlop). Leva listas de caracteres, bem como intervalos, e significa o caractere com valor hexadecimal HH , e um com valor HHHH . Portanto, o acima aceita , , , tudo de a etc.\xHH\x{HHHH}0x090x0a0x0d0x200xd7ff

A lista acima é retirada diretamente da lista apresentada na pergunta. Vou deixar para o usuário final avaliar se deve ser alterado.

Como imprimir caracteres literais de/para arquivo no bash?

Como exportar uma chave privada GPG e uma chave pública para um arquivo

ssh Não é possível negociar: "nenhuma cifra correspondente encontrada", está rejeitando o cbc

Como podemos executar um comando armazenado em uma variável?

Como configurar o systemd-resolved e o systemd-networkd para usar o servidor DNS local para resolver domínios locais e o servidor DNS remoto para domínios remotos?

Como descarregar o módulo do kernel 'nvidia-drm'?

apt-get update error no Kali Linux após a atualização do dist [duplicado]

Como ver as últimas linhas x do log de serviço systemctl

Nano - pule para o final do arquivo

erro grub: você precisa carregar o kernel primeiro

Como baixar o pacote não instalá-lo com o comando apt-get?

Como imprimir caracteres literais de/para arquivo no bash?

1 respostas

relate perguntas