GNU find: obtenha caminho absoluto e relativo em -exec

Question

WashichawbachaW

Asked: 2017-12-06 19:02:20 +0800 CST2017-12-06 19:02:20 +0800 CST 2017-12-06 19:02:20 +0800 CST

processamento de texto - Como classificar a saída exclusiva de find que possui nomes de arquivos duplicados de diretório diferente?

772

Eu quero classificar esta saída única do comando find sem nomes de arquivos duplicados em qualquer diretório.

find /path/to/first_directory/* /path/to/second_directory/* /path/to/third_directory/* -mtime -1 -name "filename_pattern*"

saída de exemplo:

/path/to/first_directory/sample_file1_2017Dec25.dat
/path/to/first_directory/sample_file2_2017Nov01.dat
/path/to/first_directory/sample_file3_2017Oct08.dat
/path/to/first_directory/archive/sample_file1_2017Dec25.dat.Z
/path/to/first_directory/archive/sample_file2_2017Nov01.dat.Z
/path/to/second_directory/sample_file4_2017Sep11.dat
/path/to/second_directory/sample_file5_2017Oct05.dat
/path/to/third_directory/sample_file1_2017Dec25.dat
/path/to/third_directory/sample_file2_2017Nov01.dat
/path/to/third_directory/sample_file3_2017Oct08.dat
/path/to/third_directory/sample_file4_2017Sep11.dat
/path/to/third_directory/sample_file5_2017Oct05.dat
/path/to/third_directory/sample_file6_2017July04.dat
/path/to/third_directory/sample_file6_2017June12.dat
/path/to/third_directory/sample_file7_2017May01.dat

Na saída, você pode ver que há nomes de arquivos duplicados em /first_directory/e /first_directory/archive/também todos os arquivos de /first_directory/*e /second_directory/*também estão dentro de /third_directory/*. Isso significa que /third_directory/*é o diretório de arquivo de todos os arquivos encontrados em /first_directory/*e /second_directory/*, mas também há arquivos que só podem ser encontrados em /third_directory/*( verifique sample_file6e sample_file7)

Tudo o que quero imprimir são os arquivos originários de para para /first_directory/nesta /first_directory/archive/ordem sem duplicação e também classificados por data./second_directory//third_directory/

Saída desejada:

/path/to/first_directory/sample_file1_2017Dec25.dat
/path/to/first_directory/sample_file2_2017Nov01.dat
/path/to/first_directory/sample_file3_2017Oct08.dat
/path/to/second_directory/sample_file4_2017Sep11.dat
/path/to/second_directory/sample_file5_2017Oct05.dat
/path/to/third_directory/sample_file6_2017July04.dat
/path/to/third_directory/sample_file6_2017June12.dat
/path/to/third_directory/sample_file7_2017May01.dat

1 respostas

Voted

John1024 · Answer 1 · 2017-12-06T19:17:31+08:00

Se a saída do seu comando find for salva em um arquivo chamado filelist, tente:

$ awk -F/ '{f=$NF; sub(/\.Z$/,"",f)} !a[f]++' filelist
/path/to/first_directory/sample_file1_2017Dec25.dat
/path/to/first_directory/sample_file2_2017Nov01.dat
/path/to/first_directory/sample_file3_2017Oct08.dat
/path/to/second_directory/sample_file4_2017Sep11.dat
/path/to/second_directory/sample_file5_2017Oct05.dat
/path/to/third_directory/sample_file6_2017July04.dat
/path/to/third_directory/sample_file6_2017June12.dat
/path/to/third_directory/sample_file7_2017May01.dat

Se você quiser fazer a mesma coisa sem criar o arquivo:

find /path/to/first_directory/* /path/to/second_directory/* /path/to/third_directory/* -mtime -1 -name "filename_pattern*" | awk -F/ '{f=$NF; sub(/\.Z$/,"",f)} !a[f]++'

Ou, se preferir espalhar o comando em várias linhas, use:

find /path/to/first_directory/* /path/to/second_directory/* \
  /path/to/third_directory/* -mtime -1 -name "filename_pattern*" |
    awk -F/ '{f=$NF; sub(/\.Z$/,"",f)} !a[f]++'

onde adicionamos \ao final da primeira linha porque são os caracteres de continuação de linha do bash. Como a segunda linha termina com |, ela não requer um caractere de continuação de linha.

Como funciona

Primeiro, é importante que os diretórios sejam listados no findcomando em sua ordem de prioridade. Vejo que você já fez isso.

-F/

Isso diz ao awk para usar /como separador de campo. Isso significa que o nome do arquivo será o último campo, $NF.
f=$NF; sub(/\.Z$/,"",f)

Isso atribui o nome do arquivo à variável fe, em seguida, remove o final .Z, fse presente.
!a[f]++'

Se fnão foi visto antes, imprima esta linha.

Atualização 1: removendo outras extensões

De acordo com os comentários, .Znão é a única extensão que precisa ser removida. Pode haver outras extensões .dat.edie elas .dat.bakdevem ser substituídas simplesmente por .dat. Nesse caso:

awk -F/ '{f=$NF; sub(/\.dat.*/,".dat",f)} !a[f]++' filelist

Atualização 2: Exibindo arquivos classificados por carimbo de data/hora:

awk -F/ '{f=$NF; sub(/\.dat.*/,".dat",f)} !a[f]++' filelist | xargs -d'\n' -r ls -t

processamento de texto - Como classificar a saída exclusiva de find que possui nomes de arquivos duplicados de diretório diferente?

Como funciona

Atualização 1: removendo outras extensões

Atualização 2: Exibindo arquivos classificados por carimbo de data/hora:

Matriz JSON para bash variáveis usando jq

A data pode formatar a hora atual para o fuso horário GMT? [duplicado]

bash + lê variáveis e valores do arquivo pelo script bash

Como posso copiar um diretório e renomeá-lo no mesmo comando?

conexão ssh. Conexão X11 rejeitada devido a autenticação incorreta

Como baixar o pacote não instalá-lo com o comando apt-get?

comando systemctl não funciona no RHEL 6

rsync porta 22 e 873 uso

snap /dev/loop em 100% de utilização -- sem espaço livre

chave de impressão jq e valor para todos no subobjeto

processamento de texto - Como classificar a saída exclusiva de find que possui nomes de arquivos duplicados de diretório diferente?

1 respostas

Como funciona

Atualização 1: removendo outras extensões

Atualização 2: Exibindo arquivos classificados por carimbo de data/hora:

relate perguntas