Como encontrar tipos de arquivos específicos e tar-los?

Question

Ned64

Asked: 2020-02-23 05:16:16 +0800 CST2020-02-23 05:16:16 +0800 CST 2020-02-23 05:16:16 +0800 CST

Como cortar um arquivo a partir da linha em que ocorre um determinado padrão?

772

Eu tenho um zilhão de arquivos que precisam ser reduzidos em tamanho. Descobri que a maioria dos arquivos (não todos) tem uma seção final que pode ser cortada sem perder informações:

Data 1
Data 2
something_unimportant_here END DATA
Rubbish 1
Rubbish 2

Como posso editar um arquivo (terminar, portanto, todos) excluindo a linha incluindo "END DATA" e todos os seguintes, no local, alterando apenas os arquivos que contêm o padrão, minimizando assim o acesso de gravação ao disco (muitos, muitos arquivos e disco lento).

Se possível, gostaria de adicionar uma nova última linha ao arquivo (minha própria tag final) para que a sintaxe do arquivo permaneça correta - novamente, apenas nos arquivos que contêm o padrão.

Eu estava pensando em usar ed, como

echo ',s/END DATA/ ???? '\\n'q'\\n'wq' | ed "$file"

mas não consigo gerenciar o ???? parte correta.

Saída esperada:

Data 1
Data 2
NEW END

8 respostas

Voted

Stéphane Chazelas · Answer 1 · 2020-02-23T08:11:06+08:00

Stéphane Chazelas

2020-02-23T08:11:06+08:002020-02-23T08:11:06+08:00

Você deve ser capaz de fazer isso apenas truncando o arquivo no lugar sem ter que escrever uma nova cópia do arquivo como sed -i/ perl -i/ ed/ gawk -i inplacefaria. Com perl:

find . -name '*.txt' -type f -exec perl -ne '
  BEGIN{@ARGV=map{"+<$_"}@ARGV} # open files in read+write mode in the
                                # while(<>) loop implied by -n
  if (/END DATA/) {
    seek ARGV,-length,1; # back to beginning of matching line
    print ARGV "NEW END\n";
    truncate ARGV, tell ARGV;
    close ARGV; # skip to next file
  }' {} +

Isso minimiza a E/S, pois perlpara de ler assim que encontra uma correspondência e NEW END\né a única coisa que grava. Ele também grava no local, para que os metadados dos arquivos (propriedade, permissão, acls, esparsidade ...) sejam preservados e os links físicos não sejam quebrados.

Com -exec {} +nós também minimizamos o número de perlinvocações.

8

steeldriver · Answer 2 · 2020-02-23T06:01:04+08:00

Best Answer

steeldriver

2020-02-23T06:01:04+08:002020-02-23T06:01:04+08:00

Parece que a sequência de comandos que você está procurando é

/END DATA/,$d
q
.a
NEW END
.
wq

ou como uma linha

printf '%s\n' '/END DATA/,$d' 'q' '.a' 'NEW END' '.' 'wq'

(Você pode substituir wqpor ,ppara teste.)

Ex. dado

$ cat file
Data 1
Data 2
something_unimportant_here END DATA
Rubbish 1
Rubbish 2

então

$ printf '%s\n' '/END DATA/,$d' 'q' '.a' 'NEW END' '.' 'wq' | ed -s file

dá

$ cat file
Data 1
Data 2
NEW END

6

Sundeep · Answer 3 · 2020-02-23T06:35:18+08:00

Sundeep

2020-02-23T06:35:18+08:002020-02-23T06:35:18+08:00

Com GNU grepeGNU sed

grep -lZ 'END DATA' *.txt | xargs -0 sed -i -e '/END DATA/,${//i foo' -e 'd}'

onde *.txtassume que todos os seus arquivos estão no diretório atual terminando com .txtextensão. Se você precisar pesquisar arquivos recursivamente, GNU greptambém oferece suporte a -r/-Ropções.

/END DATA/,$gama de linhas para operar

//i fooaqui //corresponderá ao regex usado anteriormente, ou seja, /END DATA/o icomando adicionará o novo marcador final conforme necessário

como o icomando deve ser separado por nova linha, -ea opção é usada para separar o dcomando para excluir todas as linhas correspondentes ao intervalo

como alternativa, você também pode usar isso, mas apenas um arquivo será passado por vez para sed:

grep -lZ 'END DATA' *.txt | xargs -0 -n1 sed -i -e '/END DATA/{i foo' -e 'Q}'

6

Ed Morton · Answer 4 · 2020-02-23T10:01:17+08:00

Ed Morton

2020-02-23T10:01:17+08:002020-02-23T10:01:17+08:00

Mantenha-o simples e apenas use awk para a parte de manipulação de arquivos, por exemplo, com GNU find, awk, grep e xargs:

find . -type f -exec grep -lZ 'END DATA' {} + |
    xargs -r0 awk -i inplace '/END DATA/{nextfile} 1'

ou para imprimir sua própria tag final no final de cada arquivo:

... |
  xargs -r0 awk -i inplace '/END DATA/{print "NEW END"; nextfile} 1'

3

iruvar · Answer 5 · 2020-02-23T22:15:07+08:00

Esta solução 3.8 é vagamente baseada na soluçãopython in-loco de Stephane com algumas diferenças 1. O código não depende de utilitários externos para passagem de diretório 2. Os arquivos são mapeados na memória para facilitar a localização da stringtruncate END DATA

Coloque o código em um .pyarquivo e passe o nome do diretório como parâmetro

import mmap
import os
import sys
from contextlib import closing

def yield_all_files(dir_):
    for root, dir_, files in os.walk(dir_):
        yield from (os.path.join(root, file_) for file_ in files if file_.endswith('.txt'))

if __name__ == '__main__':
    old = b'END DATA'
    new = b'NEW END\n'
    dir_ = sys.argv[1]
    for file_ in yield_all_files(dir_):
        with open(file_, mode='r+b') as f:
            with closing(mmap.mmap(f.fileno(), length=0, access=mmap.ACCESS_WRITE)) as mm:
                if (loc := mm.find(old)) > -1:
                    mm.seek(loc)
                    mm.write(new)
                    mm.resize(mm.tell())

G-Man Says 'Reinstate Monica' · Answer 6 · 2020-02-23T22:31:16+08:00

Combinando a resposta de Sundeep e a resposta de Ed Morton , mas sem xargs:

encontrar . -type f -name '*.txt' …(outros critérios)… -exec grep -q 'END DATA' {} ';'  -a   \
                                -exec sed -i -e '/END DATA/,${//i NEW END' -e 'd}' {} +

find, é claro, seleciona arquivos. Por padrão, ele pesquisa o(s) diretório(s) especificado(s) recursivamente. Para pesquisar apenas no diretório atual, adicione -maxdepth 1após o ..
grep -q sai rapidamente com um status de saída “success” se um arquivo contiver o padrão que está sendo pesquisado ( END DATA) e “false” caso contrário.
-asignifica “AND”, como &&em uma linha de comando do shell. Significa “faça a seguinte coisa se (somente se) a coisa anterior for bem-sucedida”. Na verdade, é o operador de conjunção padrão entre findpredicados (testes/ações), então você pode deixá-lo de fora. Eu incluí-lo apenas para maior clareza.
Portanto, o sedcomando, que é copiado literalmente da resposta do Sundeep (mas fooalterado para NEW END), é executado apenas em arquivos que contêm a END DATAstring e satisfazem os outros findtestes.
-exec … +faz sedcom que seja invocado uma vez com vários arquivos, assim como xargsele.
Observe que não podemos usar -exec … +com o grepcomando porque ele não permite testar o status de saída.

mosvy · Answer 7 · 2020-02-24T04:38:13+08:00

Usando awk para encontrar o deslocamento do padrão e ddtruncar o arquivo nesse ponto e anexar o novo trailer:

# usage truncatoo pattern new_end find_args ...
truncatoo(){
    pat=$1; shift; tail=$1; shift
    LC_CTYPE=C TAIL=$tail find "$@" -exec awk -v q="'" "$pat"'{
           gsub(q,q"\\"q q,FILENAME);
           system("printf \"$TAIL\" | dd bs="l" seek=1 of="q FILENAME q" 2>/dev/null");
           exit
       }
       {l+=length()+1}
    ' {} \;
}

truncatoo '/END DATA/' 'NEW END\n' file.txt
truncatoo '/END DATA/' 'NEW END\n' . -type f -name '*.txt'

Com uma implementação awk que suporta nextfile( gawk, bwk, algumas versões de mawk[1]), isso pode ser feito de forma mais eficiente passando lotes de arquivos para o awk:

# usage truncatoo pattern new_end find_args ...
truncatoo(){
    pat=$1; shift; tail=$1; shift
    LC_CTYPE=C TAIL=$tail find "$@" -exec awk -v q="'" "$pat"'{
           gsub(q,q"\\"q q,FILENAME);
           system("printf \"$TAIL\" | dd bs="l" seek=1 of="q FILENAME q" 2>/dev/null");
           l=0; nextfile
       }
       {l+=length()+1}
    ' {} +
}

$ file="a'b\$q  * r"; seq 1 100 >"$file"
$ truncatoo /7/ 'CUT\n' "$file"; cat "$file"
1
2
3
4
5
6
CUT

Em vez do icky 2>/dev/null status=noxferpode ser usado com ddimplementações que o suportam.

A passagem de variáveis de kludge e ambiente de citação é uma bagunça, poderia usar algumas melhorias.

[1]: de acordo com o manual GNU awk , deve ser suportado no mawk também. No entanto, a versão mais antiga do mawk do Debian 10 não o suporta.

Sergey Shcherbakov · Answer 8 · 2021-12-12T01:48:40+08:00

Sergey Shcherbakov

2021-12-12T01:48:40+08:002021-12-12T01:48:40+08:00

Se esta for uma tarefa única, é conveniente usar vipara isso:

Primeiro, localize a linha com o conteúdo necessário (usando search /ou ?)

Para excluir todas as linhas que seguem a linha atual até o final do arquivo, pressione d G.

Para excluir todas as linhas desde o início do arquivo até a linha atual, pressione d gg.

Salve e saia:wq

0

Como cortar um arquivo a partir da linha em que ocorre um determinado padrão?

Possível firmware ausente /lib/firmware/i915/* para o módulo i915

Falha ao buscar o repositório de backports jessie

Como exportar uma chave privada GPG e uma chave pública para um arquivo

Como podemos executar um comando armazenado em uma variável?

Como configurar o systemd-resolved e o systemd-networkd para usar o servidor DNS local para resolver domínios locais e o servidor DNS remoto para domínios remotos?

apt-get update error no Kali Linux após a atualização do dist [duplicado]

Como ver as últimas linhas x do log de serviço systemctl

Nano - pule para o final do arquivo

erro grub: você precisa carregar o kernel primeiro

Como baixar o pacote não instalá-lo com o comando apt-get?

Como cortar um arquivo a partir da linha em que ocorre um determinado padrão?

8 respostas

relate perguntas