Diff nomes de arquivos de dois diretórios?

Question

Niklas Rosencrantz

Asked: 2022-04-30 07:49:45 +0800 CST2022-04-30 07:49:45 +0800 CST 2022-04-30 07:49:45 +0800 CST

programa diff dá falso positivo para arquivos com caracteres não ASCII no nome do arquivo

772

Exemplo:

% diff "/Volumes/New Volume/4kyoutube/" "/Volumes/New Volume/tmpmusic"| grep Distortion
Only in /Volumes/New Volume/tmpmusic: ZAC & Bäkka - Distortion (Original Mix) [Sprout].mp3
Only in /Volumes/New Volume/4kyoutube/: ZAC & Bäkka - Distortion (Original Mix) [Sprout].mp3

% diff "/Volumes/New Volume/tmpmusic/ZAC & Bäkka - Distortion (Original Mix) [Sprout].mp3" "/Volumes/New Volume/4kyoutube/ZAC & Bäkka - Distortion (Original Mix) [Sprout].mp3" 
%

O que posso fazer sobre isso? Os arquivos são idênticos.

2 respostas

Voted

LSerni · Answer 1 · 2022-04-30T08:21:22+08:00

Este não é um "diff falso positivo", mas os dois nomes de arquivo são vistos como diferentes .

Minha hipótese selvagem é que as duas pastas estão em dispositivos diferentes, com uma codificação de arquivo diferente; ou que os dois nomes são codificados de forma diferente , embora sejam visualmente idênticos. Especificamente, um dos dois "Bäkka" está na forma "pré-composta", ou seja, U+00E4 (UTF-8 C3 A4), enquanto o outro está na forma "decomposta", U+0061 U+0308 (UTF-8 0x61 0xCC 0x88) com trema de combinação.

Não tenho um MacOS em mãos, mas posso reproduzir isso em um Linux ext4:

$ A=$( echo -e "Ba\xcc\x88kka" )
$ B=$( echo -e "B\xc3\xa4kka" )
$ echo $A $B
Bäkka Bäkka
$ touch $A $B
$ ls -la | grep kka
-rw-rw-rw-+  1 lserni  users     0 Apr 29 18:14 Bäkka
-rw-rw-rw-+  1 lserni  users     0 Apr 29 18:14 Bäkka

Aparentemente, agora tenho dois arquivos com o mesmo nome na mesma pasta .

Obviamente, não posso ter certeza, mas você pode estar na mesma situação.

Para verificar, basta executar a saída de "diff" hexdump -Ce ver se você tem algo como,

00000020  20 20 20 30 20 41 70 72  20 32 39 20 31 38 3a 31  |   0 Apr 29 18:1|
00000030  36 20 42 61 cc 88 6b 6b  61 0a 2d 72 77 2d 72 77  |6 Ba..kka.-rw-rw|
00000060  70 72 20 32 39 20 31 38  3a 31 36 20 42 c3 a4 6b  |pr 29 18:16 B..k|
00000070  6b 61 0a                                          |ka.|

Observe que no despejo hexadecimal eles são imediatamente visíveis como "Ba..kka" (o "a" é um "a" normal, seguido pelo UTF8 "adicionar um trema") e "B..kka" (há apenas um símbolo e é "pequeno latino a com trema").

Consertando coisas

Francamente, eu executaria primeiro uma normalização em toda a estrutura de pastas. Mesmo se você tiver arquivos com nomes idênticos, mas com uma codificação diferente (ou seja, alguns pré-compostos, alguns decompostos), isso vai te morder mais cedo ou mais tarde.

Do ponto de vista do sistema de arquivos, qual sistema você usa é irrelevante. O importante é como você alimenta o sistema agora e como você usa o sistema agora.

Se os novos arquivos de entrada tiverem nomes pré-compostos, faz sentido definir todos os FS como pré-compostos (ou vice-versa), para que o padrão seja mantido. Por outro lado, você também pode querer verificar funções como pesquisar arquivos, classificar e assim por diante, para verificar se os arquivos estão onde você espera que estejam (desnecessário dizer que alguns sistemas consideram "a", "ä " e "ä" o mesmo, alguns outros não - eles podem definir "a" e "ä" juntos, "ä" em outro lugar; ou vice-versa).

Eu tentaria copiar um pequeno arquivo mp3 com os nomes "älpha composto", "älpha decomposed" e "alpha neutro", depois trabalhar com uma pasta com esses três arquivos, bem como "alpha 0 test" e "alpha z test" , e então se decomposto ou pré-composto é o melhor, se houver.

Os documentos parecem indicar que você deve usar arquivos .

Então, em primeiro lugar, você precisa de uma lista de todos os nomes de arquivos. Isso é facil

find . -type f > list-as-it-is.txt

Mas agora você precisa converter os elementos pré-compostos na lista para sua forma decomposta. Eu fiz um pouco de pesquisa e, para adicionar mais uma camada de complicação, parece que o MacOS e o Linux se comportam de maneira diferente , e o MacOS tem vários problemas de acomodação herdados:

Importante: Os termos usados nesta Q&A, pré-compostos e decompostos, correspondem aproximadamente às Formas Normais Unicode C e D, respectivamente. No entanto, a maioria dos formatos de volume não segue a especificação exata para essas formas normais. Por exemplo, HFS Plus (Mac OS Extended) usa uma variante da Forma Normal D na qual U+2000 a U+2FFF, U+F900 a U+FAFF e U+2F800 a U+2FAFF não são decompostos (isso evita problemas com conversões de ida e volta de antigas codificações de texto do Mac). É provável que o formato do seu volume tenha estranhezas semelhantes.

Em teoria, você deve ter apenas um formulário no disco ("A camada BSD do Mac OS X usa codificação UTF-8 decomposta canonicamente para nomes de arquivos"). Na prática, parece depender (obviamente, caso contrário você não teria problemas; previsivelmente, você não está sozinho ).

Então, sou muito cauteloso em sugerir um método de conversão sem poder testá-lo de antemão em um MacOS real. Se os arquivos forem poucos, sugiro corrigi-los manualmente - exclua um arquivo e copie o outro na outra pasta.

Em teoria , você poderia fazer algo como (no Bash)

hexa=$( echo -n "$name" | xxd -ps | tr -d "\n" )
if [ $[ 2*${#name} ] -lt ${#hexa} ]; then
    # Not ASCII.

ou if ( echo "$name" | file - | grep "UTF-8" > /dev/null ); então

e se o teste corresponder, você pode fazer

mv "$name" "$(dirname "$name")/tmpname" && mv "$(dirname "$name")/tmpname" "$name"

e talvez o primeiro "mv" reconheça o arquivo qualquer que seja sua codificação, enquanto o segundo recrie o nome usando a codificação padrão fixa do sistema, que esperamos que seja adequada para você.

Esse tipo de operação seria muito rápido, mesmo que processasse desnecessariamente todos os nomes UTF-8.

Ignorando coisas

Você pode ignorar todos os arquivos com esse tipo de truque. Então, o problema surgiria apenas quando dois arquivos fossem diferentes e tivessem o mesmo nome codificado de forma diferente . Isso é um problema? Se não for, então está tudo pronto.

Basta fazer uma preliminar greppara remover as linhas contendo "^Only":

diff ... | grep -v ^Only | grep Distortion

Removendo duplicatas

Isso, felizmente, ignora totalmente a codificação. Existem ferramentas que já fazem isso ( jdupesé a que eu uso). Arquivos com conteúdo idêntico que diferem por tags MP3 não funcionarão com essa abordagem e você provavelmente achará essa resposta útil.

find folder1 -type f -exec md5sum \{\} \; | sort > folder1.txt
find folder2 -type f -exec md5sum \{\} \; | sort > folder2.txt

Agora, se você quiser obter duplicatas:

join -o 2.2 folder1.txt folder2.txt

obterá os arquivos na pasta2 que são duplicados (-o 2.1 obterá os arquivos na pasta1).

Stilez · Answer 2 · 2022-04-30T17:09:53+08:00

Agora que @LSerni descobriu a questão do que está acontecendo, você ainda precisa lidar com a forma de contornar isso.

Claramente, alguma renomeação canônica ou pelo menos consistente é a melhor. Mas você pode não conseguir, ou pode acontecer com novos arquivos. Portanto, precisamos de uma solução alternativa aprimorada.

O que eu faria é evitar completamente o espinhoso problema do Unicode.

Eu executaria o diretório inteiro por meio de sha512() ou alguma outra função de hash (recursiva, se necessário). Então, eu usaria isso para reconhecer arquivos com o mesmo conteúdo, mesmo que os nomes sejam diferentes. Com efeito, criando artificialmente para fins de diff, um equivalente de nome de arquivo canônico (por meio de links simbólicos ou uma matriz programática de caminhos/hashes), ou filtrando a saída de diff, ou executando diff em várias passagens, ou substituindo sua própria lógica para relatar equivalência de arquivo incerta mas antes combinando por hash para sugerir equivalentes .....

Em outras palavras, há várias maneiras de fazer isso, e deve ser muito fácil ... mas não posso sugerir qual maneira funciona para você, pois não está claro seu objetivo preciso ao diferenciá-las, nem sua habilidade de codificação.

programa diff dá falso positivo para arquivos com caracteres não ASCII no nome do arquivo

Consertando coisas

Ignorando coisas

Removendo duplicatas

Possível firmware ausente /lib/firmware/i915/* para o módulo i915

Falha ao buscar o repositório de backports jessie

Como exportar uma chave privada GPG e uma chave pública para um arquivo

Como podemos executar um comando armazenado em uma variável?

Como configurar o systemd-resolved e o systemd-networkd para usar o servidor DNS local para resolver domínios locais e o servidor DNS remoto para domínios remotos?

apt-get update error no Kali Linux após a atualização do dist [duplicado]

Como ver as últimas linhas x do log de serviço systemctl

Nano - pule para o final do arquivo

erro grub: você precisa carregar o kernel primeiro

Como baixar o pacote não instalá-lo com o comando apt-get?

programa diff dá falso positivo para arquivos com caracteres não ASCII no nome do arquivo

2 respostas

Consertando coisas

Ignorando coisas

Removendo duplicatas

relate perguntas