Há este artigo do Quartz sobre como as fontes chinesas são feitas com esta afirmação curiosa:
Isso tem sido possível há vários anos, mas o chinês sempre apresentou um problema específico: com tantos glifos, as fontes exigem downloads enormes para usuários que nunca visitaram o site antes, sobrecarregando a largura de banda tanto para o usuário quanto para o provedor. (Uma fonte chinesa pode ter até 6 ou 7 megabytes para um único estilo e peso. Compare isso com a PT Serif – a fonte corporal do Quartz, que cobre mais de 100 idiomas latinos – que tem apenas 1,4 megabytes para quatro estilos.) Agora, provedores chineses de fontes da web escaneie de forma inteligente o texto de uma página da Web para identificar quais glifos são necessários e envie apenas esses ao usuário, em vez de todos os mais de 13.000.
É possível que um site sirva apenas parte de uma fonte para renderizar texto? Como os navegadores baixam essas fontes incompletas? E isso está relacionado ao subconjunto de fontes com unicode-range
?
Por um lado, isso não é necessariamente verdade; muitos tipos de arquivos não são "tudo ou nada" - geralmente consistem em partes independentes menores e possuem apenas certas partes obrigatórias (cabeçalhos ou índices), enquanto o restante é "conforme necessário"; muitos formatos são explicitamente projetados para serem usados em partes. Por exemplo, seu navegador já pode começar a exibir arquivos .html antes de serem totalmente carregados e pode transmitir arquivos de vídeo .mp4 baixando apenas o índice e os intervalos de bytes necessários.
Mas geralmente o subconjunto de fontes é feito gerando um novo arquivo. Como você compartilha parte de uma foto ou alguma outra imagem? Você carrega/decodifica o arquivo usando um programa de edição de imagem, corta a parte necessária e salva/recodifica-a como um novo arquivo de imagem. Desta forma, você não tem “parte de um arquivo”; você tem um arquivo inteiro que representa parte dos dados, mas ainda tem toda uma estrutura (scaffolding).
O mesmo pode ser aplicado aos arquivos de fontes. Eles têm uma estrutura bem definida com relacionamentos claros entre as partes, portanto, é possível que o software de edição de fontes carregue um arquivo .ttf, descarte partes desnecessárias, como desenhos de glifos individuais, e salve o restante como um arquivo .ttf totalmente novo (ou mais). comumente .woff) arquivo de fonte.
Para processamento automatizado, isso pode ser feito usando algo como python-fonttools , preparando os arquivos de fontes do subconjunto antecipadamente como qualquer outro ativo ou instantaneamente (um aplicativo da web que serve fontes de subconjunto da mesma forma que serviria imagens cortadas). Por exemplo, a API Google Fonts atende subconjuntos por intervalo de glifos.
(Se você quiser editar um arquivo de fonte manualmente, o equivalente ao Photoshop pode ser FontForge. Eu o usei algumas vezes para excluir glifos de ligadura indesejados específicos das fontes.)
A maioria das páginas da web não funciona dessa maneira. Eles podem usar subconjuntos amplos definidos estaticamente que cortam a fonte por script (latim versus grego, etc.) ou por algum outro intervalo Unicode.
A postagem que você citou descreve especificamente o subconjunto preciso no estilo PDF como uma coisa nova que os provedores chineses de fontes da web fazem, em contraste com a maioria dos sites "ocidentais" que não o fazem.
É verdade que existem provedores de webfont que fazem isso? Não sei. É plausível que existam provedores de fontes da web que façam isso? Sim, é tecnicamente possível com as ferramentas existentes, especialmente para sites onde o conteúdo é principalmente estático.
(Embora eu presumisse que não seria por página, mas sim um subconjunto fixo de "todos os glifos usados em todos os artigos", já que entregar um subconjunto separado para cada página usaria mais dados em vez de menos.)
Seria de se supor que sites que usam fontes personalizadas não farão esse tipo de subconjunto – ou não usarão fontes personalizadas para campos de entrada. É muito comum usar uma webfont apenas para o corpo do texto, enquanto os formulários são deixados com o padrão. (Também é comum usar webfonts sofisticados apenas para títulos, enquanto o corpo do texto usa uma fonte padrão; esses sites definitivamente poderiam tirar vantagem de subconjuntos precisos, já que os subconjuntos seriam pequenos e os campos de entrada definitivamente não usariam uma
<h1>
fonte.)(A questão é que o uso de uma tecnologia também não é uma questão de “tudo ou nada”. Se uma tecnologia for inadequada para alguns sites, ela ainda poderá ser adequada para outros.)
Por falar nisso, também vi vários sites ocidentais usarem subconjuntos de fontes limitados apenas a mais ou menos ASCII (mais barato para licenciar?), o que é particularmente perceptível quando a fonte é usada para exibir nomes de pessoas - ou seja, os designers não se importaram com a possibilidade de o nome de um cliente ter caracteres fora do conjunto básico e usaram-no mesmo assim.