AskOverflow.Dev

AskOverflow.Dev Logo AskOverflow.Dev Logo

AskOverflow.Dev Navigation

  • Início
  • system&network
  • Ubuntu
  • Unix
  • DBA
  • Computer
  • Coding
  • LangChain

Mobile menu

Close
  • Início
  • system&network
    • Recentes
    • Highest score
    • tags
  • Ubuntu
    • Recentes
    • Highest score
    • tags
  • Unix
    • Recentes
    • tags
  • DBA
    • Recentes
    • tags
  • Computer
    • Recentes
    • tags
  • Coding
    • Recentes
    • tags
Início / coding / Perguntas / 79560847
Accepted
gettalong
gettalong
Asked: 2025-04-08 05:50:42 +0800 CST2025-04-08 05:50:42 +0800 CST 2025-04-08 05:50:42 +0800 CST

Problema com o mapa /ToUnicode apenas no macOS Preview

  • 772

Estou com um problema estranho com um PDF e o /ToUnicodeCMap contido nele, que afeta apenas o macOS Preview. Todos os outros visualizadores testados funcionam bem. O problema é que não sei se o /ToUnicodeproblema é o CMap contido ou o Preview.

Aqui está o PDF em questão: https://github.com/user-attachments/files/19538203/example.pdf e o problema do Github onde esse problema apareceu.

Se o PDF for aberto no macOS Preview e o texto for selecionado e copiado, tudo após "Olá do HexaPD" estará errado. Outros visualizadores copiam o texto inteiro sem problemas.

Situação atual (editado):

  • HexaPDF, a biblioteca que gera o PDF, está usando uma otimização que evita a criação de códigos de caracteres contendo os caracteres ASCII \r, (e ). \O motivo é que eles precisariam ser escapados ao serializar como string literal de PDF.

  • Se essa otimização estiver desativada, o arquivo resultante (consulte https://github.com/user-attachments/files/19575820/example.pdf ) funcionará perfeitamente no macOS Preview (ou seja, copiar e colar funciona).

  • Remover o /ToUnicodeCMap completamente resulta em texto não copiável. Isso significa que o macOS Preview está de fato usando este CMap e que ele é o provável culpado.

  • Adicionar uma entrada fictícia <0000><0000>não funciona.

  • Adicionar uma entrada fictícia como <000D><0044>no /ToUnicodeCMap não funciona.

  • Começar os códigos de caracteres não em 1, mas em 14, faz com que os primeiros 13 caracteres sejam inválidos, ou seja, piora a situação.

  • Depois de ler as partes respectivas da especificação do PDF e a "Especificação dos arquivos 5014 Adobe CMap e CIDFont", acredito que o /ToUnicodeCMap em ambos os arquivos vinculados acima está correto.

Qualquer informação sobre se o /ToUnicodeCMap gerado é inválido ou se é culpa do macOS Preview é bem-vinda!

pdf
  • 1 1 respostas
  • 53 Views

1 respostas

  • Voted
  1. Best Answer
    KenS
    2025-04-08T22:34:37+08:002025-04-08T22:34:37+08:00

    Acredito que agora entendi o problema e estou razoavelmente confiante de que isso é um erro no Apple Preview.

    Explicar isso é, infelizmente, complicado.....

    O arquivo PDF usa uma fonte incorporada, subconjunto. Como é comum, a fonte contém apenas os glifos (as descrições reais das formas dos caracteres) usados ​​pelo arquivo PDF. Como também é comum, a "codificação" é tal que o primeiro caractere usado recebe o código de caractere 1, o segundo recebe o código de caractere 2 e assim por diante.

    As codificações em PDF são semelhantes às páginas de código no Windows, ou ASCII; elas mapeiam valores numéricos para caracteres específicos.

    No caso deste arquivo, a fonte é, na verdade, uma CIDFont, o que complica as coisas, pois esses tipos de codificação podem ter tamanhos variáveis. Novamente, assim como no UTF-8, o número de bytes necessários para um código varia. Felizmente para nós, neste caso, todos os códigos têm dois bytes.

    O CMap é a cola que une tudo isso; ele determina quantos bytes de entrada são necessários para mapear caracteres específicos. O CMap recebe códigos de caracteres e retorna CIDs; se você estiver usando um CIDFont, o CID é o "índice" da fonte que encontra um programa de glifo específico. Se a sua fonte for TrueType (como é o caso aqui), o CIDToGIDMap converte CIDs em GIDs (porque é isso que as fontes TrueType usam). Novamente, felizmente para nós, o CIDToGIDMap é /Identity. Simples e prático.

    Agora a parte importante do CMap se parece com isso:

    1 begincodespacerange
    <0000> <FFFF>
    endcodespacerange
    2 begincidrange
    <0001><000C> 1
    <000E><001D> 13
    endcidrange
    

    Isso significa que o espaço de código (valores válidos) vai de 0 a 0xFFFF, dentro do qual o CMap define dois intervalos de números. O primeiro intervalo é de 0x01 a 0x0C e mapeia para o CID 1 (portanto, 0x01 = 1, 0x02 = 2 e assim por diante). O segundo intervalo é de 0x0E a 0x1D e estes mapeiam para CIDs a partir de 13.

    Até aqui, tudo bem. Mas como isso nos leva a copiar e colar? Bem, a resposta é que não. Existe uma tabela opcional chamada ToUnicode CMap. Ela pode ou não estar presente; se estiver, os usuários de PDF podem descobrir com segurança para qual ponto de código Unicode um determinado código de caractere mapeia. Se não estiver lá, é pura suposição. Em um arquivo como este, com um mapeamento personalizado e uma fonte subset, simplesmente não seria possível determinar os valores Unicode.

    Felizmente para nós, existe um ToUnicode CMap:

    1 begincodespacerange
    <0000> <FFFF>
    endcodespacerange
    24 beginbfchar
    <0001><0048>
    <0002><0065>
    <0003><006c>
    <0004><006f>
    <0005><0020>
    <0006><0066>
    <0007><0072>
    <0008><006d>
    <0009><0078>
    <000A><0061>
    <000B><0050>
    <000C><0044>
    <000E><0046>
    <000F><002e>
    <0010><0054>
    <0015><0076>
    <0016><0079>
    <0017><0063>
    <0018><0070>
    <0019><0026>
    <001A><0075>
    <001B><0077>
    <001C><006e>
    <001D><0021>
    endbfchar
    2 beginbfrange
    <0011><0012><0068>
    <0013><0014><0073>
    endbfrange
    

    Basicamente, é o mesmo que o CMap anterior. Você pode ver que o código de caractere 1 mapeia para o ponto de código Unicode U+0048. É um "H" maiúsculo. Como mencionei no início, os códigos de caractere são atribuídos conforme são usados. O primeiro caractere é um "H" e este é atribuído ao código de caractere 1.

    Portanto, o "texto" no arquivo PDF é, na verdade, armazenado (como KJ disse) como dados binários. Como o arquivo foi produzido de forma a evitar o uso de caracteres de escape, evitamos o uso de 0x0D, o que significa que o "texto" se parece com:

    0001 0002 0003 0003 0004 0005 0006 0007 0004 0008 0005 0001 0002 0009 000A 000B 000C 000E
    

    1 = H, 2 = e, 3 = l, 4 = o, 5 = ' ', 6 = f etc.

    Então pegamos os códigos dos caracteres e consultamos o ToUnicode CMap. Isso resulta

    U+0048, U+0065, U+006C, U+006C e assim por diante. O importante é que usamos o código de caractere para consultar o CMap ToUnicode.

    Então, por que o Apple Preview erra? Bem, ele "parece" aplicar o CMap da fonte ao código de caractere para obter um CID e, em seguida, usar o CID para consultar o CMap ToUnicode. O problema é que os CIDs são executados de forma contígua de 1 a 28, mas os códigos de caractere são executados de 1 a 12 e, em seguida, de 14 a 29.

    Isso causa duas falhas: primeiro, o CID 13 não tem entrada no CMap ToUnicode e, segundo, todos os CIDs além de 13 estão 'errados em 1'. O CID 14 recebe o ponto de código Unicode atribuído ao código de caractere 13 e assim por diante.

    Modifiquei o exemplo original com falha para que o CMap da fonte mapeie os CIDs corretamente para renderização e modifiquei o CMap ToUnicode para que ele mapeie corretamente quando os CIDs forem usados ​​na consulta em vez de códigos de caracteres. O arquivo está aqui:

    https://www.dropbox.com/scl/fi/ua6zzr8hr0hlazaf1f8yl/preview.pdf?rlkey=e6amwr722xjtrn2o9b44p6r7u&st=ifq46ngw&dl=0

    Esse arquivo copia/cola corretamente do Apple Preview (bem, funciona no meu antigo MacOS, Big Sur). Ele não copia/cola corretamente de nenhum consumidor de PDF compatível, porque, obviamente, o CMap ToUnicode está configurado para que CIDs sejam usados ​​em vez de códigos de caracteres.

    Resumindo: o Apple Preview está realizando a consulta incorretamente. A única maneira de fazer com que o Apple Preview e um consumidor de PDF em conformidade obtenham o resultado correto é que os códigos de caracteres e os CIDs sejam os mesmos, para que o ToUnicode funcione independentemente de um código de caractere ou CID ser usado para realizar a consulta.

    • 1

relate perguntas

  • Passar argumento do GhostScript CLI para PostScript

  • ID do trailer do documento em PDF: por que ele consiste em duas strings e como extraí-lo por uma ferramenta de linha de comando

  • A transparência SVG quebra a compatibilidade do PDF/A

  • Adicione sinal ao PDF usando o antigo iText-2.1.7

  • Adobe DRM não está obtendo arquivos acsm para imagem pdf

Sidebar

Stats

  • Perguntas 205573
  • respostas 270741
  • best respostas 135370
  • utilizador 68524
  • Highest score
  • respostas
  • Marko Smith

    Reformatar números, inserindo separadores em posições fixas

    • 6 respostas
  • Marko Smith

    Por que os conceitos do C++20 causam erros de restrição cíclica, enquanto o SFINAE antigo não?

    • 2 respostas
  • Marko Smith

    Problema com extensão desinstalada automaticamente do VScode (tema Material)

    • 2 respostas
  • Marko Smith

    Vue 3: Erro na criação "Identificador esperado, mas encontrado 'import'" [duplicado]

    • 1 respostas
  • Marko Smith

    Qual é o propósito de `enum class` com um tipo subjacente especificado, mas sem enumeradores?

    • 1 respostas
  • Marko Smith

    Como faço para corrigir um erro MODULE_NOT_FOUND para um módulo que não importei manualmente?

    • 6 respostas
  • Marko Smith

    `(expression, lvalue) = rvalue` é uma atribuição válida em C ou C++? Por que alguns compiladores aceitam/rejeitam isso?

    • 3 respostas
  • Marko Smith

    Um programa vazio que não faz nada em C++ precisa de um heap de 204 KB, mas não em C

    • 1 respostas
  • Marko Smith

    PowerBI atualmente quebrado com BigQuery: problema de driver Simba com atualização do Windows

    • 2 respostas
  • Marko Smith

    AdMob: MobileAds.initialize() - "java.lang.Integer não pode ser convertido em java.lang.String" para alguns dispositivos

    • 1 respostas
  • Martin Hope
    Fantastic Mr Fox Somente o tipo copiável não é aceito na implementação std::vector do MSVC 2025-04-23 06:40:49 +0800 CST
  • Martin Hope
    Howard Hinnant Encontre o próximo dia da semana usando o cronógrafo 2025-04-21 08:30:25 +0800 CST
  • Martin Hope
    Fedor O inicializador de membro do construtor pode incluir a inicialização de outro membro? 2025-04-15 01:01:44 +0800 CST
  • Martin Hope
    Petr Filipský Por que os conceitos do C++20 causam erros de restrição cíclica, enquanto o SFINAE antigo não? 2025-03-23 21:39:40 +0800 CST
  • Martin Hope
    Catskul O C++20 mudou para permitir a conversão de `type(&)[N]` de matriz de limites conhecidos para `type(&)[]` de matriz de limites desconhecidos? 2025-03-04 06:57:53 +0800 CST
  • Martin Hope
    Stefan Pochmann Como/por que {2,3,10} e {x,3,10} com x=2 são ordenados de forma diferente? 2025-01-13 23:24:07 +0800 CST
  • Martin Hope
    Chad Feller O ponto e vírgula agora é opcional em condicionais bash com [[ .. ]] na versão 5.2? 2024-10-21 05:50:33 +0800 CST
  • Martin Hope
    Wrench Por que um traço duplo (--) faz com que esta cláusula MariaDB seja avaliada como verdadeira? 2024-05-05 13:37:20 +0800 CST
  • Martin Hope
    Waket Zheng Por que `dict(id=1, **{'id': 2})` às vezes gera `KeyError: 'id'` em vez de um TypeError? 2024-05-04 14:19:19 +0800 CST
  • Martin Hope
    user924 AdMob: MobileAds.initialize() - "java.lang.Integer não pode ser convertido em java.lang.String" para alguns dispositivos 2024-03-20 03:12:31 +0800 CST

Hot tag

python javascript c++ c# java typescript sql reactjs html

Explore

  • Início
  • Perguntas
    • Recentes
    • Highest score
  • tag
  • help

Footer

AskOverflow.Dev

About Us

  • About Us
  • Contact Us

Legal Stuff

  • Privacy Policy

Language

  • Pt
  • Server
  • Unix

© 2023 AskOverflow.DEV All Rights Reserve