Eu gostaria de usar o Microsoft Word (em um PC especificamente) para abrir, editar e salvar novamente um arquivo de texto simples no formato UTF-8, mas sem adicionar a sequência de caracteres BOM no início.
Vamos supor que estou perguntando em relação a qualquer versão do Word após, digamos, o Word 2010.
Não vejo nenhuma opção na caixa de diálogo Salvar como para fazer isso, nem em nenhum outro lugar que eu possa ver.
Posso ver esta pergunta feita inúmeras vezes sobre outros programas, mas não vejo nada específico para o Word.
Você não pode fazer isso diretamente no Word, porque sem o BOM não há como garantir que o arquivo esteja codificado em UTF-8. Lembre -se de que não existe texto simples.
Apesar do nome, o BOM não é usado para marcação de ordem de byte em UTF-8, mas sim como uma assinatura. Sem a assinatura, o Word solicitará que você confirme a codificação toda vez que abrir o arquivo, porque e se o arquivo for uma página de código ANSI (que ainda é o padrão no Windows). Ele tem uma heurística muito boa e adivinha corretamente na maioria das vezes, especialmente com codificações fáceis de adivinhar como UTF-8. Na minha experiência, funciona muito bem mesmo para codificações complicadas em vários idiomas
Dito isso, você pode escrever uma macro para fazer a parte de salvar em vez de usar o recurso de salvamento do Word. Ver
Como alternativa, basta remover o BOM depois de salvar com o Word usando outras ferramentas, como PowerShell, iconv, Notepad++ ou um editor de terceiros. Aqui está o script do PowerShell que faz a conversão