o que grep -v grep faz

Question

cipper

Asked: 2022-09-26 01:23:31 +0800 CST2022-09-26 01:23:31 +0800 CST 2022-09-26 01:23:31 +0800 CST

extrair links de páginas da web que exigem interação

772

Estou tentando descobrir como, a partir de um shell linux, extrair os links de uma página da Web em que os links aparecem somente após clicar em um botão na página da Web, por exemplo, os "Ativos" no github. Se eu baixar a página com wget, ela não conterá nenhum link dos ativos, ou seja,

wget -O /dev/stdout "https://github.com/yuzu-emu/yuzu-mainline/releases/latest" 2>/dev/null | grep ".AppImage"

não retorna o link. De maneira mais geral, várias páginas da Web contêm elementos que são mostrados somente após a interação; como se obtém o html com esses elementos revelados?

1 respostas

Voted

larsks · Answer 1 · 2022-09-26T07:40:43+08:00

Best Answer

larsks

2022-09-26T07:40:43+08:002022-09-26T07:40:43+08:00

Para seu exemplo específico , você seria mais bem servido usando a API do github, em vez de tentar raspar a página da web. Por exemplo:

curl https://api.github.com/repos/yuzu-emu/yuzu-mainline/releases/tags/mainline-0-1180

Isso retornará um blog JSON com informações sobre a versão (incluindo uma lista de ativos) que você pode analisar usando jq(ou seu idioma favorito com suporte a JSON).

De maneira mais geral, se você deseja acessar o conteúdo de uma página que é atualizada dinamicamente via Javascript após o carregamento da página, você não poderá fazer isso facilmente a partir do shell.

Você normalmente precisa de algo como Playwright ou Selenium que permita o controle programático de navegadores, e essas ferramentas geralmente exigem que você trabalhe com uma linguagem mais capaz (Javascript, Python, etc).

1

extrair links de páginas da web que exigem interação

Possível firmware ausente /lib/firmware/i915/* para o módulo i915

Falha ao buscar o repositório de backports jessie

Como exportar uma chave privada GPG e uma chave pública para um arquivo

Como podemos executar um comando armazenado em uma variável?

Como configurar o systemd-resolved e o systemd-networkd para usar o servidor DNS local para resolver domínios locais e o servidor DNS remoto para domínios remotos?

apt-get update error no Kali Linux após a atualização do dist [duplicado]

Como ver as últimas linhas x do log de serviço systemctl

Nano - pule para o final do arquivo

erro grub: você precisa carregar o kernel primeiro

Como baixar o pacote não instalá-lo com o comando apt-get?

extrair links de páginas da web que exigem interação

1 respostas

relate perguntas