Como fazer backup dos meus arquivos no Google Drive usando Duplicity no Linux?

Question

lyrically wicked

Asked: 2025-04-10 15:28:45 +0800 CST2025-04-10 15:28:45 +0800 CST 2025-04-10 15:28:45 +0800 CST

Como fazer o Gawk funcionar com arquivos encontrados pelo comando “find” com a saída correspondente da opção “-printf” disponível como uma variável?

772

Quero fazer o seguinte:

Encontre um conjunto específico de arquivos com o findcomando;
Para qualquer arquivo encontrado, coloque a saída correspondente da -printfopção em uma variável chamada stre passe-a para o Gawk (e não imprima/use essa saída em nenhum outro lugar);
Execute um programa Gawk para o arquivo correspondente. O conteúdo da strvariável correspondente deve estar disponível no programa.

Por exemplo, eu tenho o diretório chamado /d/ir. Ele contém dois arquivos, file1.txte file2.txt. Os arquivos estão na codificação UTF-8. O arquivo cujo nome é file1.txtcontém as duas linhas de texto a seguir:

A
BC

O tamanho do arquivo é 4 bytes.

O arquivo cujo nome é file2.txtcontém as três linhas de texto a seguir:

D
EF
GHI

O tamanho do arquivo é 8 bytes.

Quero imprimir todas essas linhas, anexando o conteúdo correspondente de str(nome do arquivo, tamanho do arquivo) a cada linha. Portanto, a saída esperada é

A;d/ir/file1.txt,4
BC;d/ir/file1.txt,4
D;d/ir/file2.txt,8
EF;d/ir/file2.txt,8
GHI;d/ir/file2.txt,8

Tentei o seguinte comando:

LC_ALL=en_US.utf8; find "/d/ir" -name "file*.txt" -type f -printf "%p,%s" -execdir gawk -v str="$7" '{
print($0 ";" str)
}' "{}" \+

(Aqui eu esperava que $7, sendo um parâmetro posicional , se referisse a "%p,%s") Mas ele não imprime a saída esperada: ele mostra duas saídas de -printf(o que eu não quero que aconteça), depois cinco linhas sem os dados necessários de str.

Qual é o comando correto que resolve o problema? Observe que não quero que as saídas da -printfopção sejam mostradas/impressas fora do contexto do Gawk: quero apenas passá-las para o Gawk para que somente o programa Gawk saiba como usá-las. Se o programa Gawk não as usar, elas não devem ser mostradas em lugar nenhum.

Como o comando será usado para muitos arquivos, a maximização do desempenho e a minimização do consumo de memória são importantes.

4 respostas

Voted

Renaud Pacalet · Answer 1 · 2025-04-10T18:49:04+08:00

O que é impresso pelo seu findcomando não é passado para gawk. Se você quiser passar algo para gawko canal de saída de findpara gawke deixar gawko processo processar, provavelmente seria melhor. Você obteria os nomes dos arquivos e seus tamanhos da entrada padrão e poderia ler o conteúdo de cada arquivo com getlinepara impressão. Essa solução também evitaria loops de shell lentos; haveria apenas um único awk.

Um possível problema ao listar nomes de arquivos finde processá-los com outras ferramentas é que os nomes de arquivos podem conter qualquer caractere, incluindo espaços e novas linhas, exceto caracteres NUL (e /para nomes base de arquivos).

Como você usa o GNU awk, que suporta caracteres NUL como separadores de campo, você poderia alimentá-lo com uma findsaída separada por NUL, por exemplo, uma alternância de nomes e tamanhos de arquivo. Isso resolveria todos os possíveis problemas com nomes de arquivo contendo espaços, quebras de linha...

LC_ALL=en_US.utf8;
find "/d/ir" -name "file*.txt" -type f -printf "%p\0%s\0" |
awk -v FS='\0' '
  {
    for(i = 1; i < NF; i += 2)
      while((getline line < $i) > 0)
        print line ";" $i "," $(i+1)
  }'

Se você realmente quiser um separado gawkpor arquivo, também pode obter o tamanho do statutilitário. Exemplo em que gawkimprime a primeira linha de cada arquivo, seguida do nome e tamanho. Para melhor legibilidade, colocamos o gawkscript em uma função bash:

foo() {
  gawk -v s=$(stat -c %s "$1") '{print $0 ";" FILENAME "," s}' "$1"
}
export -f foo

LC_ALL=en_US.utf8;
find "/d/ir" -name "file*.txt" -type f -exec bash -c 'foo "$1"' _ {} \;

Variante com execdir ... {} +:

foo() {
  for f in "$@"; do
    gawk -v s=$(stat -c %s "$f") '{print $0 ";" FILENAME "," s}' "$f"
  done
}
export -f foo

LC_ALL=en_US.utf8;
find "/d/ir" -name "file*.txt" -type f -execdir bash -c 'foo "$@"' _ {} +

Ed Morton · Answer 2 · 2025-04-10T19:38:44+08:00

Best Answer

Ed Morton

2025-04-10T19:38:44+08:002025-04-10T19:38:44+08:00

Usando qualquer awk:

find 'd/ir' -name 'file*.txt' -type f -printf '%s %p\n' |
awk '
    {
        size = $1
        sub(/[^ ]+ /,"")
        file = $0
        while ( (getline line < file) > 0 ) {
            print line ";" file "," size
        }
        close(file)
    }
'
A;d/ir/file1.txt,5
BC;d/ir/file1.txt,5
D;d/ir/file2.txt,9
EF;d/ir/file2.txt,9
GHI;d/ir/file2.txt,9

Defina LC_ALLcomo quiser, pois isso não afeta a lógica. Consulte http://awk.freeshell.org/AllAboutGetline para obter mais informações sobre como usar getline.

3

3aska · Answer 3 · 2025-04-10T16:51:47+08:00

Acho que o problema é que você está tentando usar -printfa saída como parâmetro para o gawk, mas não é assim que funciona. Sua abordagem original não funcionará porque -printfapenas imprime na saída padrão — não define nenhuma variável que o gawk possa acessar. E $7em gawk, refere-se ao 7º campo de cada linha de entrada, não às variáveis do shell.

Talvez tente isto:

find "/d/ir" -name "file*.txt" -type f -exec sh -c '
    for file do
        metadata=$(find "$file" -printf "%p,%s")
        gawk -v str="$metadata" '"'{print $0 \";\" str}'"' "$file"
    done
' sh {} \+

Acredito que esta solução captura os metadados de cada arquivo em uma variável e os passa para o gawk corretamente. Isso \+garante que os arquivos sejam processados em lotes para melhor desempenho.

Ou uma abordagem alternativa é usar um arquivo de script separado para o gawk ou usar um estilo heredoc;

find "/d/ir" -name "file*.txt" -type f -exec sh -c '
    for file do
        metadata=$(find "$file" -printf "%p,%s")
        gawk -v str="$metadata" -f - "$file" << "EOF"
{print $0 ";" str}
EOF
    done
' sh {} \+

Espero que isso funcione para você.

Daweo · Answer 4 · 2025-04-10T17:49:06+08:00

Daweo

2025-04-10T17:49:06+08:002025-04-10T17:49:06+08:00

(nome do arquivo, tamanho do arquivo)

Você pode obter informações sobre o arquivo, incluindo seu tamanho, usando statapós carregar filefuncs . Por exemplo

awk '@load "filefuncs";ENDFILE{stat(FILENAME,arr);print FILENAME,arr["size"]}' *.txt

imprimirá o nome do arquivo seguido pelo seu tamanho (em bytes) de todos os arquivos txt no diretório de trabalho atual. Não sei quão rápido ele é comparado a find, então teste você mesmo e escreva sobre os resultados.

(testado no GNU Awk 5.3.1)

0

Como fazer o Gawk funcionar com arquivos encontrados pelo comando “find” com a saída correspondente da opção “-printf” disponível como uma variável?

Reformatar números, inserindo separadores em posições fixas

Por que os conceitos do C++20 causam erros de restrição cíclica, enquanto o SFINAE antigo não?

Problema com extensão desinstalada automaticamente do VScode (tema Material)

Vue 3: Erro na criação "Identificador esperado, mas encontrado 'import'" [duplicado]

Qual é o propósito de `enum class` com um tipo subjacente especificado, mas sem enumeradores?

Como faço para corrigir um erro MODULE_NOT_FOUND para um módulo que não importei manualmente?

`(expression, lvalue) = rvalue` é uma atribuição válida em C ou C++? Por que alguns compiladores aceitam/rejeitam isso?

Um programa vazio que não faz nada em C++ precisa de um heap de 204 KB, mas não em C

PowerBI atualmente quebrado com BigQuery: problema de driver Simba com atualização do Windows

AdMob: MobileAds.initialize() - "java.lang.Integer não pode ser convertido em java.lang.String" para alguns dispositivos

Como fazer o Gawk funcionar com arquivos encontrados pelo comando “find” com a saída correspondente da opção “-printf” disponível como uma variável?

4 respostas

relate perguntas