Eu tenho algumas entradas no bloco de notas ++ que nunca vi antes. Eu destaquei quadrados em muitas linhas com SGCI
SSA
PU1
PU2
MW
e SPA
dentro dos quais, se copiar/colar aqui, todos se traduzem em ``
Estou procurando uma maneira de removê-los das entradas. O Google indica que eles são "caracteres de controle", mas há muitos para eu tentar remover manualmente.
tentei [\x00-\x09\x0B-\x0C\x0E-\x1F]
, mas aparentemente não cobriu/não cobre os personagens ofensivos.
aqui está um exemplo de algumas linhas caso minha postagem original não tenha sido clara o suficiente.
Aqui está o próprio arquivo.
Todos esses caracteres são UTF8
[\x{0080}-\x{0099}]
ou[\x00-\x09\x0B-\x0C\x0E-\x1F]
LEAVE EMPTY
ou o que você quiserExplicação:
Você pode adaptar a gama para atender exatamente às suas necessidades.
Captura de tela (antes):
Peguei algumas linhas do seu arquivo de exemplo.
Captura de tela (depois):
Aqui eu usei
XXX
como substituto para ver onde a substituição foi feita.É possível que "Mostrar todos os caracteres" e/ou "Mostrar espaços em branco e TAB" estejam ativados. Desative-os indo em Exibir -> Mostrar símbolo e selecionando-os.
SGCI
ou 'Single Graphic Character Introducer' (U+0099) ePU2
, ou melhor, 'Private Use Two' (U+0092) fazem parte do bloco 'Latin-1-supplement' que vai de[\x80-\xFF]
. Aqui você pode ver todos os personagens deste bloco.Portanto, para remover os dois
SGCI
,PU2
você precisa encontrar:Substitua por nada.
[\x00-\x09\x0B-\x0C\x0E-\x1F]
LEAVE EMPTY
Explicação:
Captura de tela (antes):
Captura de tela (depois):