Estou familiarizado com a forma como esta ferramenta pode extrair dados de tabelas em sites como a Wikipedia, mas encontrei alguns problemas. Aqui está o que eu preciso que aconteça, se possível com o Excel ou qualquer outro software:
Isso foi feito com um simples copiar e colar para corresponder ao formato de destino, mas isso não o manterá dinâmico. Quando uso o editor de consultas, percebo imediatamente que não funcionará da maneira que gostaria, a menos que as tabelas sejam tabelas HTML reais. É possível detalhar até encontrar o texto, mas não tenho um método viável para entender onde quero chegar.
Não há opção disponível para selecionar regiões contendo dados que eu gostaria que estivessem em uma tabela, a menos que se encaixe no formato mencionado acima. Além disso, algumas páginas que normalmente permitiriam isso têm um problema de compatibilidade com o IE que não sei como contornar. Se eu pudesse usar o Chrome ou o Edge, isso seria útil.
Essa ferramenta não funciona bem na maioria dos sites comerciais modernos, pois suas páginas são incrivelmente complexas e dinâmicas. Por exemplo, eles tentarão detectar sua localização e navegador e fornecer conteúdo variado. A maioria das outras ferramentas também luta nessas páginas.
Você obterá melhores resultados extraindo de feeds RSS, em vez de tentar analisar toda a página inicial. RSS é um padrão estável e legível por máquina para sites de notícias publicarem histórias/itens. Por exemplo, para a Reuters, eles têm muitos feeds disponíveis de:
https://www.reuters.com/tools/rss
Use o URL para o que você deseja e o Power Query fornecerá rapidamente um documento aninhado. Clique nas células da tabela para detalhar, por exemplo, para o conteúdo e depois para o item .