Tenho certeza de que é um problema de codificação, mas não consigo descobrir.
Exportei uma planilha do Excel como um CSV UTF-8. Isso produziu um CSV na codificação de caracteres UTF-8-BOM. Abrindo este arquivo no Notepad++, a maioria dos caracteres foi renderizada corretamente - incluindo caracteres não ANSI como ø
. No entanto, um hífen ( ‐
) é exibido como ☐
.
Acredito que o personagem seja U+2010 ‐ HYPHEN
.
Se eu abrir o arquivo no Bloco de Notas , o hífen será exibido corretamente. Ele também é exibido corretamente se eu usar o Vim para ler o arquivo ou cat
imprimi-lo no terminal.
Finalmente, o dump octal do arquivo revela os bytes hexadecimais e2 80 90
, que é a codificação UTF-8 do U+2010 - HYPHEN
caractere Unicode.
Então, por que o Notepad ++ está exibindo esse caractere como ☐
?
Se outros caracteres estiverem sendo decodificados corretamente e os dados em nível de byte parecerem corretos, é possível que o problema seja apenas com a fonte. U+2010 é alto o suficiente para que algumas fontes não tenham um glifo disponível.
Esta resposta a outra pergunta de superusuário afirma que várias fontes comuns do Windows 7 não possuem o glifo para HYPHEN .