Se alguém baixar uma página da Web com curl
ou wget
se for html.
Mas se eu quiser baixá-lo como texto simples (ou seja, sem análise de HTML), exatamente ou quase exatamente como seria lido claramente em um navegador da Web (com qualquer imagem/vídeo/áudio omitido, é claro), qual seria uma maneira fazer isso?
você não pode baixar isso, ele não existe no servidor. O servidor envia o HTML, o trabalho do navegador é exibi-lo. E parte disso (pode ser) é mostrar o texto.
Na verdade, muitas páginas da web são bastante vazias e carregam o conteúdo relevante à medida que você lê.
Então, o que você precisa é de um navegador funcional, que exiba seu texto, então você precisa obter esse texto.
Você normalmente faria isso controlando remotamente um navegador a partir de uma linguagem de script: você inicia o navegador em um modo "daemon" especial, você se conecta a ele e, usando uma interface de controle de navegador especialmente criada (WebDriver), você o informa para vá para um URL, espere um segundo para deixar o navegador renderizar o que você veria na tela, normalmente, e então diga para salvar como um arquivo de texto simples.
Pessoalmente, eu usaria pandoc para isso.
pandoc -t plain 'https://example.com/something/'
Para salvar em um arquivo:
pandoc -t plain 'https://example.com/something/' -o output.txt
Obviamente, isso só funcionará bem para sites principalmente de texto que não dependem de javascript para preencher a página.