Comecei escrevendo um script de shell bash simples para encontrar arquivos duplicados em um determinado diretório usando SHA1 para detectar correspondências. Tudo funcionou até que encontrei nomes de arquivos com espaços. A detecção ainda funciona, mas na saída os espaços são convertidos em avanços de linha.
O roteiro...
#!/bin/bash
export TARGET=$1
find $TARGET -type f -exec openssl sha1 \{\} \; > ./dupes.txt
COUNT=-1
for EVALUATION in `cat ./dupes.txt | sed 's/SHA1(\(.*\))\= \(.*\)$/\2 \1/' | awk '{print $1}' | sort | uniq -c | sort -nr`
do
if [[ $COUNT == -1 ]]
then
COUNT=$EVALUATION
else
HASH=$EVALUATION
if [[ $COUNT == 1 ]]
then
break
fi
echo "--- duplicate set ---"
for FILE in `grep $HASH ./dupes.txt | awk -F"[()]+" '{print $2}'`
do
echo "$FILE"
done
echo "---------------------"
COUNT=-1
fi
done
Execute o script como...
./dupes.sh /home/dacracot/testDupes
Ele criará um arquivo dupes.txt que se parece com algo como...
SHA1(/home/dacracot/testDupes/lP3wj.jpg)= 324d91f412745481ed38aa184e5a56bfc3bf43b5
SHA1(/home/dacracot/testDupes/1673.gif)= 9c4029ec2e310f202b413d685209373d234e5465
SHA1(/home/dacracot/testDupes/.DS_Store)= b0ae6631a1412863f958da64091f4050005bf8d6
SHA1(/home/dacracot/testDupes/tae 2.svg)= 3ddc4fd6ae505bd01f370d0a018ef1f84b4d8011
SHA1(/home/dacracot/testDupes/tae.graffle)= 77f1ad6d695d944abacfe3a7f196be77125b6ef6
SHA1(/home/dacracot/testDupes/tae.svg)= 3ddc4fd6ae505bd01f370d0a018ef1f84b4d8011
SHA1(/home/dacracot/testDupes/22402_graph.jpg)= 24e5a25c8abf322d424dd5ce2e5b77381cd001c4
SHA1(/home/dacracot/testDupes/forwardcont.jpg)= 981e75060ae8e3aad2fe741b944d97219c8ccbe5
SHA1(/home/dacracot/testDupes/tae.svg.gz)= 922af5a5adbf7a4e7fd234aac7bcee2986133c4d
SHA1(/home/dacracot/testDupes/Alt2012.pdf)= 97d1fd997df9eb310b30a371c53883f5227cf10a
SHA1(/home/dacracot/testDupes/vcBZ8.jpg)= 7553c19fcb6aa159aada2e38066b5ba84465ee57
SHA1(/home/dacracot/testDupes/derm.graffle)= 0e1c4032f5f1fadc3a1643b2b77f816011c2d67f
SHA1(/home/dacracot/testDupes/WA.png)= 0e2e77624c3a76da4816f116665a041f6bdced2d
SHA1(/home/dacracot/testDupes/DRAW.GIF)= 6a8e4a2bf413e84140a0edeb40b475a5d3e4c255
SHA1(/home/dacracot/testDupes/crazyTalk.gif)= 1d938bbcb8cf09f30492df4504a50348cef7ea9d
E, finalmente, a saída que se parece com ...
--- duplicate set ---
/home/dacracot/testDupes/tae
2.svg
/home/dacracot/testDupes/tae.svg
---------------------
Mas como você pode ver no primeiro arquivo, a saída deve ser...
--- duplicate set ---
/home/dacracot/testDupes/tae 2.svg
/home/dacracot/testDupes/tae.svg
---------------------
O que está mudando o espaço para uma alimentação de linha?
Posso fazer algumas modificações em seu script para simplificá-lo e também eliminar seu problema?
Vejo que você está usando o OpenSSL para calcular o hash SHA1 e, em seguida, analisando algumas saídas desnecessárias e procedendo à classificação e iteração na lista de hashes. Você não especifica uma tag de sistema operacional em sua postagem, mas o uso de
/bin/bash
sugere Linux, então por que não usarsha1sum
? Ele produz uma saída mais simples, que é mais fácil para o seu script processar. (Os leitores que usam BSD podem usarsha1 -r
para obter uma saída equivalente.)Há outras otimizações que podem ser feitas, como usar
find
a-print0
opção de exargs
, mas esperamos que as revisões acima ajudem você a começar.