Espero entender o conceito de arquivo esparso. Eu também sei cp
os comandos--sparse=...
No entanto, ao pesquisar no Google os aplicativos práticos, encontrei declarações ambíguas sobre como é transparente para um aplicativo que lê/grava arquivos usando a API de E/S de arquivo do sistema operacional comum (quero dizer, não no nível extremamente baixo, apenas fopen (), fclose () etc)
Não é limpo ao ler blogs, explicações que falam sobre como um aplicativo, por exemplo, um editor de teste "arruina" um arquivo esparso gravando explicitamente zeros nele. Eu pensei que este é o ponto, que se houver um arquivo esparso e o aplicativo gravar zeros, isso não será armazenado fisicamente. O aplicativo não precisa saber disso e não precisa lidar com lacunas e coisas do tipo, isso é responsabilidade do sistema de arquivos.
Pergunta
Suponha que haja um arquivo existente que seja esparso. Será totalmente transparente para a aplicação ou não? Digamos que haja um arquivo esparso de 1G, cujo primeiro byte é diferente de zero, todos os outros bytes são zero. Quando um aplicativo "comum" abrir esse arquivo, suponho que possa abri-lo, e verá que seu comprimento é 1G e pode buscar no meio (0,5G), como não era esparso, pode escrever um byte diferente de zero para meio, salve, feche e vai ficar esparso no sistema de arquivos, não vai?
Um arquivo será esparso 'automaticamente'? Quero dizer, um aplicativo simplesmente cria um arquivo, depois escreve um monte de zeros e depois escreve, será esparso ou não? Se não, o que um aplicativo deve fazer para criar esse arquivo como esparso?
Na maioria dos casos, os arquivos esparsos são transparentes para os programas e os programas não precisam se preocupar se os arquivos que estão manipulando são esparsos ou não.
Arquivos esparsos são criados pulando blocos, criando buracos no arquivo, não escrevendo zeros. Se um programa busca além do final de um arquivo , faz com que o tamanho do arquivo seja atualizado (gravando mais dados) ou “trunca” um arquivo para um comprimento maior do que os dados que ele contém, o arquivo resultante será esparso (se o sistema de arquivos subjacente suporta arquivos esparsos).
Arquivos esparsos são transparentes nas leituras (buracos são lidos como zeros), mas não nas gravações: gravar qualquer dado em um bloco força que ele seja alocado e, finalmente, gravado. Em particular, isso significa que a gravação em um arquivo sem alterar seu comprimento pode falhar se o sistema de arquivos subjacente estiver cheio. Isso não significa que os arquivos de gravação de código devam ter um caso especial para arquivos esparsos; significa apenas que os erros devem ser tratados em todas as gravações (como seria de esperar).
A implementação do Linux
lseek
fornece extensões para permitir a análise de falhas nos arquivos.Os arquivos não são esparsos automaticamente; é por isso que existe a opção
cp
do GNU--sparse
— ele se configuracp
para detectar execuções de zeros e produzir furos no alvo em vez de escrevê-los. Se os arquivos fossem esparsos automaticamente, isso não seria necessário.Em seu cenário, um arquivo 1G com um byte de dados no início terá um bloco no disco, contendo esse byte seguido por quantos zeros couberem em um bloco. O resto do arquivo será um grande buraco. Escrever um zero no meio do arquivo alocará um bloco e o preencherá com zeros. O arquivo conterá um bloco, um orifício próximo a 0,5 G, outro bloco e outro orifício.