Peguei arquivos do Word de um cara, escritos em russo e os converti em HTML.
Esses arquivos contêm alguns caracteres de espaço em branco estranhos, por exemplo:
Parece um zero pequeno (mudei o modo para mostrar caracteres especiais). No modo oculto, é apenas espaço.
Problema que esses caracteres parecem feios ao converter arquivo para HTML.
Eu preciso removê-los. Mas se eu pesquisá-los, não consigo distingui-los do espaço de uso (parece um ponto), então examino manualmente todos os arquivos para localizá-los e removê-los.
Então, como posso encontrar e remover esses símbolos especiais?
Esse símbolo é chamado de espaço sem quebra (NBSP) e é, em Unicode
U+00A0
(que, como você apontou corretamente, é diferente de um espaço regular, que é UnicodeU+0020
).O espaço sem quebra é usado quando você deseja que haja espaço em branco entre duas palavras, mas não deseja que o Word (ou qualquer outro editor de texto que os suporte) coloque uma quebra de linha ou quebra de linha ali. Por exemplo, eles são úteis se você quiser escrever a frase "Este computador oferece suporte ao Microsoft Windows". sem quebra de linha entre "Microsoft" e "Windows".
Quanto ao seu problema em vê-los em seu documento do Word, é muito fácil de corrigir. Tudo o que você precisa fazer é copiar e colar um exemplo de um NBSP na parte de pesquisa de Localizar e substituir e, em seguida, digitar um espaço regular na parte de substituição. Isso deve esclarecer o seu problema.
Mais algumas informações sobre o NBSP, se você estiver curioso, pode ser encontrado na Wikipédia . No entanto, é útil saber para seus propósitos que, embora o HTML trate qualquer número de espaços regulares consecutivos como um espaço, ele lida com NBSP especialmente (você pode tê-lo visto representado em sua saída HTML como
). Isso é para que os usuários possam ter um controle um pouco mais refinado sobre o espaçamento em situações em que o CSS não é adequado (ou se você quiser apenas um hack rápido e sujo :)). Portanto, você pode descobrir que os NBSPs são úteis em HTML eventualmente - no entanto, eles definitivamente sobrecarregam sua fonte HTML e são irritantes quando não são necessários.Você também pode gostar de saber como inserir NBSPs no Word - sem ter que copiar e colar da Wikipedia o tempo todo. Você pode inseri-los na caixa de diálogo Inserir símbolo (guia Inserir > Símbolo > guia Caracteres especiais > Espaço não separável). Você também pode usar o atalho Ctrl++ Shift. SpaceNa caixa de diálogo Localizar e substituir, você também pode inseri-los clicando em
More >>
, noSpecial
menu suspenso e emNonbreaking space
.Se você tiver o Word search para espaços comuns, ele também encontrará espaços ininterruptos. Assim, você pode converter todos os espaços não separáveis em espaços regulares simplesmente colocando um espaço nos campos "Localizar:" e "Substituir por:".