Tenho certeza de que é um problema de codificação, mas não consigo descobrir.
Exportei uma planilha do Excel como um CSV UTF-8. Isso produziu um CSV na codificação de caracteres UTF-8-BOM. Abrindo este arquivo no Notepad++, a maioria dos caracteres foi renderizada corretamente - incluindo caracteres não ANSI como ø
. No entanto, um hífen ( ‐
) é exibido como ☐
.
Acredito que o personagem seja U+2010 ‐ HYPHEN
.
Se eu abrir o arquivo no Bloco de Notas , o hífen será exibido corretamente. Ele também é exibido corretamente se eu usar o Vim para ler o arquivo ou cat
imprimi-lo no terminal.
Finalmente, o dump octal do arquivo revela os bytes hexadecimais e2 80 90
, que é a codificação UTF-8 do U+2010 - HYPHEN
caractere Unicode.
Então, por que o Notepad ++ está exibindo esse caractere como ☐
?