Grep para um conjunto de linhas de $START a $END AND que contém uma correspondência em $MIDDLE

Question

Pitel

Asked: 2018-07-31 22:35:20 +0800 CST2018-07-31 22:35:20 +0800 CST 2018-07-31 22:35:20 +0800 CST

Como truncar o arquivo para o número máximo de caracteres (não bytes)

772

Como posso truncar um arquivo de texto (codificado em UTF-8) para um determinado número de caracteres? Eu não me importo com comprimentos de linha e o corte pode ser no meio da palavra.

cutparece operar em linhas, mas eu quero um arquivo inteiro.
head -cusa bytes, não caracteres.

3 respostas

Voted

Stéphane Chazelas · Answer 1 · 2018-07-31T23:23:52+08:00

Alguns sistemas têm um truncatecomando que trunca os arquivos em um número de bytes (não caracteres).

Não conheço nenhum que seja truncado para vários caracteres, embora você possa recorrer ao perlque está instalado por padrão na maioria dos sistemas:

perl

perl -Mopen=locale -ne '
  BEGIN{$/ = \1234} truncate STDIN, tell STDIN; last' <> "$file"

Com -Mopen=locale, usamos a noção de localidade de quais são os caracteres (portanto, em localidades usando o conjunto de caracteres UTF-8, são caracteres codificados em UTF-8). Substitua por -CSse desejar que a E/S seja decodificada/codificada em UTF-8, independentemente do conjunto de caracteres da localidade.
$/ = \1234: definimos o separador de registro para uma referência a um inteiro que é uma maneira de especificar registros de comprimento fixo (em número de caracteres ).
então, ao ler o primeiro registro, truncamos stdin no lugar (portanto, no final do primeiro registro) e saímos.

GNU sed

Com GNU sed, você poderia fazer (assumindo que o arquivo não contém caracteres NUL ou sequências de bytes que não formam caracteres válidos - ambos devem ser verdadeiros para arquivos de texto):

sed -Ez -i -- 's/^(.{1234}).*/\1/' "$file"

Mas isso é muito menos eficiente, pois ele lê o arquivo inteiro e o armazena inteiro na memória e grava uma nova cópia.

GNU awk

O mesmo com GNU awk:

awk -i inplace -v RS='^$' -e '{printf "%s", substr($0, 1, 1234)}' -E /dev/null "$file"

-e code -E /dev/null "$file"sendo uma maneira de passar nomes de arquivos arbitrários paragawk
RS='^$': modo slurp .

Shell integrado

Com ksh93, bashou zsh(com shells diferentes de zsh, assumindo que o conteúdo não contém bytes NUL):

content=$(cat < "$file" && echo .) &&
  content=${content%.} &&
  printf %s "${content:0:1234}" > "$file"

Com zsh:

read -k1234 -u0 s < $file &&
  printf %s $s > $file

Ou:

zmodload zsh/mapfile
mapfile[$file]=${mapfile[$file][1,1234]}

Com ksh93ou bash(cuidado , é falso para caracteres de vários bytes em várias versões debash ):

IFS= read -rN1234 s < "$file" &&
  printf %s "$s" > "$file"

ksh93também pode truncar o arquivo no lugar em vez de reescrevê-lo com seu <>;operador de redirecionamento:

IFS= read -rN1234 0<>; "$file"

iconv + cabeça

Para imprimir os primeiros 1234 caracteres, outra opção poderia ser converter para uma codificação com um número fixo de bytes por caractere como UTF32BE/ UCS-4:

iconv -t UCS-4 < "$file" | head -c "$((1234 * 4))" | iconv -f UCS-4

head -cnão é padrão, mas bastante comum. Um equivalente padrão seria, dd bs=1 count="$((1234 * 4))"mas seria menos eficiente, pois leria a entrada e escreveria a saída um byte por vez¹. iconvé um comando padrão, mas os nomes de codificação não são padronizados, então você pode encontrar sistemas semUCS-4

Notas

De qualquer forma, embora a saída tenha no máximo 1234 caracteres, pode acabar não sendo um texto válido, pois possivelmente terminaria em uma linha não delimitada.

Observe também que, embora essas soluções não cortassem o texto no meio de um caractere, elas poderiam quebrá-lo no meio de um grafema , como a éexpresso como U+0065 U+0301 (a eseguido por um acento agudo combinado), ou grafemas de sílabas Hangul em suas formas decompostas.

^{¹ e na entrada do pipe você não pode usar bsvalores diferentes de 1 de forma confiável, a menos que você use a iflag=fullblockextensão GNU, como ddpoderia fazer leituras curtas se ele ler o pipe mais rápido do que iconvpreenchê-lo}

Michael Ströder · Answer 2 · 2018-07-31T23:01:03+08:00

Michael Ströder

2018-07-31T23:01:03+08:002018-07-31T23:01:03+08:00

Se você sabe que o arquivo de texto contém Unicode codificado como UTF-8, você precisa primeiro decodificar o UTF-8 para obter uma sequência de entidades de caracteres Unicode e dividi-las.

Eu escolheria o Python 3.x para o trabalho.

Com o Python 3.x, a função open() tem um argumento de palavra-chave extra encoding=para ler arquivos de texto . A descrição do método io.TextIOBase.read() parece promissora.

Então, usando o Python 3, ficaria assim:

truncated = open('/path/to/file.txt', 'rt', encoding='utf-8').read(1000)

Obviamente, uma ferramenta real adicionaria argumentos de linha de comando, tratamento de erros, etc.

Com o Python 2.x você pode implementar seu próprio objeto semelhante a um arquivo e decodificar o arquivo de entrada linha por linha.

5

confetti · Answer 3 · 2018-08-01T08:41:20+08:00

confetti

2018-08-01T08:41:20+08:002018-08-01T08:41:20+08:00

Eu gostaria de adicionar outra abordagem. Provavelmente não é o melhor desempenho em termos de desempenho, e muito mais longo, mas fácil de entender:

#!/bin/bash

chars="$1"
ifile="$2"
result=$(cat "$ifile")
rcount=$(echo -n "$result" | wc -m)

while [ $rcount -ne $chars ]; do
        result=${result::-1}
        rcount=$(echo -n "$result" | wc -m)
done

echo "$result"

Invoque-o com $ ./scriptname <desired chars> <input file>.

Isso remove o último caractere um por um até que o objetivo seja alcançado, o que parece muito ruim em termos de desempenho, especialmente para arquivos maiores. Eu só queria apresentar isso como uma ideia para mostrar mais possibilidades.

0

Como truncar o arquivo para o número máximo de caracteres (não bytes)

perl

GNU sed

GNU awk

Shell integrado

iconv + cabeça

Notas

Como exportar uma chave privada GPG e uma chave pública para um arquivo

ssh Não é possível negociar: "nenhuma cifra correspondente encontrada", está rejeitando o cbc

Como podemos executar um comando armazenado em uma variável?

Como configurar o systemd-resolved e o systemd-networkd para usar o servidor DNS local para resolver domínios locais e o servidor DNS remoto para domínios remotos?

Como descarregar o módulo do kernel 'nvidia-drm'?

apt-get update error no Kali Linux após a atualização do dist [duplicado]

Como ver as últimas linhas x do log de serviço systemctl

Nano - pule para o final do arquivo

erro grub: você precisa carregar o kernel primeiro

Como baixar o pacote não instalá-lo com o comando apt-get?

Como truncar o arquivo para o número máximo de caracteres (não bytes)

3 respostas

perl

GNU sed

GNU awk

Shell integrado

iconv + cabeça

Notas

relate perguntas