AskOverflow.Dev

AskOverflow.Dev Logo AskOverflow.Dev Logo

AskOverflow.Dev Navigation

  • Início
  • system&network
  • Ubuntu
  • Unix
  • DBA
  • Computer
  • Coding
  • LangChain

Mobile menu

Close
  • Início
  • system&network
    • Recentes
    • Highest score
    • tags
  • Ubuntu
    • Recentes
    • Highest score
    • tags
  • Unix
    • Recentes
    • tags
  • DBA
    • Recentes
    • tags
  • Computer
    • Recentes
    • tags
  • Coding
    • Recentes
    • tags
Início / computer / Perguntas / 1663085
Accepted
ordinary_python_programmer
ordinary_python_programmer
Asked: 2021-07-17 14:09:28 +0800 CST2021-07-17 14:09:28 +0800 CST 2021-07-17 14:09:28 +0800 CST

wget falha ao baixar algumas imagens em uma página da web

  • 772

Então, quando tentei baixar esta página da Web com o wget, o texto e o estilo funcionam bem, mas algumas imagens estão faltando. Após pesquisas adicionais, os arquivos não são baixados porque o url wget tenta recuperá-los é inválido, como sugere a saída do console:

URL transformed to HTTPS due to an HSTS policy
--2021-07-13 21:53:51--  https://www.inhaltsangabe.de/autoren/%7B%7B%20data.avatar_url%20%7D%7D
Reusing existing connection to [www.inhaltsangabe.de]:443.
HTTP request sent, awaiting response... 301 Moved Permanently
Location: https://www.inhaltsangabe.de/autoren/%7B%7B%20data.avatar_url%20%7D%7D/ [following]
--2021-07-13 21:53:52--  https://www.inhaltsangabe.de/autoren/%7B%7B%20data.avatar_url%20%7D%7D/
Reusing existing connection to [www.inhaltsangabe.de]:443.
HTTP request sent, awaiting response... 404 Not Found
2021-07-13 21:53:53 ERROR 404: Not Found.

A imagem real no site é acessível e tem a seguinte url:

https://www.inhaltsangabe.de/wp-content/themes/yootheme/cache/brecht-276fafb8.jpeg

Outras imagens funcionam bem no arquivo baixado. Isso parece ter algo a ver com codificação de URL, mas não tenho ideia de como resolver esse problema.

Meu comando:

wget -p www.inhaltsangabe.de/autoren/brecht

(também por favor, seja gentil, pois esta é a minha primeira pergunta feita aqui)

download wget
  • 1 1 respostas
  • 673 Views

1 respostas

  • Voted
  1. Best Answer
    Anaksunaman
    2021-07-18T18:31:09+08:002021-07-18T18:31:09+08:00

    Erros 404

    Isso parece ter algo a ver com codificação de URL[.]

    A decodificação das partes codificadas dos links com falha revela que os "caminhos" são, na verdade, nomes de variáveis ​​presentes na fonte do documento (por exemplo, %7B%7B%20data.avatar_url%20%7D%7Dtorna -se {{ data.avatar_url }}). Portanto, esse provavelmente seria o motivo para retornar as 404respostas, não a codificação.

    A entrelinha https://www.inhaltsangabe.de/autoren/provavelmente é (mal) aplicada wgetporque cada variável aparece em um atributo de <img>tag :src

    ex. {{ data.images.thumbnail.url }}

    <# if ( data.images.thumbnail ) { #>
          <img class="suggestion-post-thumbnail" src="{{ data.images.thumbnail.url }}" alt="{{ data.post_title }}">
          <# } #>
    

    ex. {{ data.avatar_url }}

    <# if ( data.avatar_url ) { #>
        <img class="suggestion-user-thumbnail" src="{{ data.avatar_url }}" alt="{{ data.display_name }}">
        <# } #>
    

    JPEG ausente

    Outras imagens funcionam bem no arquivo baixado.

    Em relação brecht-276fafb8.jpega , embora reconhecidamente um palpite educado, parece provável que wgetesteja processando <img>tags srce srcsetatributos na fonte do documento, mas não qualquer data-srcatributo data-srcset. Por exemplo:

    ex. brecht-276fafb8.jpeg -> data-src, data-srcset (Falha!)

    <img class="el-image uk-border-circle uk-box-shadow-small" alt="Bertolt Brecht" data-src="/wp-content/themes/yootheme/cache/brecht-276fafb8.jpeg" data-srcset="/wp-content/themes/yootheme/cache/brecht-276fafb8.jpeg 350w" data-sizes="(min-width: 350px) 350px" data-width="350" data-height="350" uk-img>

    ex. bradbury.jpg ->src, srcset (Sucesso!)

    <img width="300" height="300" src="https://www.inhaltsangabe.de/dateien/bradbury-300x300.jpg" alt="Ray Bradbury" sizes="(min-width: 300px) 300px" srcset="https://www.inhaltsangabe.de/dateien/bradbury-300x300.jpg 300w, https://www.inhaltsangabe.de/dateien/bradbury-150x150.jpg 150w, https://www.inhaltsangabe.de/dateien/bradbury.jpg 400w"/>

    Isso faz sentido, pois os atributos srce srcsetprovavelmente afetam a apresentação geral do documento (ou seja, imagens a serem exibidas), enquanto data-*os atributos visam principalmente scripts etc. e não têm nenhum valor de apresentação por conta própria.


    Tanto quanto sei, pelo menos nas versões anteriores, os atributos personalizados (por exemplo data-*, ) geralmente não eram suportados pelo wget. Em relação a srce scrset, você pode vê-los explicitamente mencionados nas listas de atributos a serem processados src/html-url.c​​no código-fonte de wget).


    Não tenho ideia de como resolver esse problema.

    Infelizmente, não tenho conhecimento de uma boa solução para este problema. Meu pensamento pode ser fazer algum pós-processamento manual na fonte de documento fornecida com algo como BeautifulSoup para extrair quaisquer links relevantes. Mas não tenho certeza se isso pode ser considerado um "bom" ou não.

    • 1

relate perguntas

  • O Firefox não inicia mais downloads depois que certo número de downloads está ativo

  • Vídeo sobre HTTP - você pode dizer se um vídeo está sendo baixado ou assistido?

  • Wget: Baixe todos os arquivos começando com um nome especificado?

  • wget retorna erro 404

Sidebar

Stats

  • Perguntas 205573
  • respostas 270741
  • best respostas 135370
  • utilizador 68524
  • Highest score
  • respostas
  • Marko Smith

    Como posso reduzir o consumo do processo `vmmem`?

    • 11 respostas
  • Marko Smith

    Baixar vídeo do Microsoft Stream

    • 4 respostas
  • Marko Smith

    O Google Chrome DevTools falhou ao analisar o SourceMap: chrome-extension

    • 6 respostas
  • Marko Smith

    O visualizador de fotos do Windows não pode ser executado porque não há memória suficiente?

    • 5 respostas
  • Marko Smith

    Como faço para ativar o WindowsXP agora que o suporte acabou?

    • 6 respostas
  • Marko Smith

    Área de trabalho remota congelando intermitentemente

    • 7 respostas
  • Marko Smith

    O que significa ter uma máscara de sub-rede /32?

    • 6 respostas
  • Marko Smith

    Ponteiro do mouse movendo-se nas teclas de seta pressionadas no Windows?

    • 1 respostas
  • Marko Smith

    O VirtualBox falha ao iniciar com VERR_NEM_VM_CREATE_FAILED

    • 8 respostas
  • Marko Smith

    Os aplicativos não aparecem nas configurações de privacidade da câmera e do microfone no MacBook

    • 5 respostas
  • Martin Hope
    Saaru Lindestøkke Por que os arquivos tar.xz são 15x menores ao usar a biblioteca tar do Python em comparação com o tar do macOS? 2021-03-14 09:37:48 +0800 CST
  • Martin Hope
    CiaranWelsh Como posso reduzir o consumo do processo `vmmem`? 2020-06-10 02:06:58 +0800 CST
  • Martin Hope
    Jim Pesquisa do Windows 10 não está carregando, mostrando janela em branco 2020-02-06 03:28:26 +0800 CST
  • Martin Hope
    v15 Por que uma conexão de Internet gigabit/s via cabo (coaxial) não oferece velocidades simétricas como fibra? 2020-01-25 08:53:31 +0800 CST
  • Martin Hope
    andre_ss6 Área de trabalho remota congelando intermitentemente 2019-09-11 12:56:40 +0800 CST
  • Martin Hope
    Riley Carney Por que colocar um ponto após o URL remove as informações de login? 2019-08-06 10:59:24 +0800 CST
  • Martin Hope
    zdimension Ponteiro do mouse movendo-se nas teclas de seta pressionadas no Windows? 2019-08-04 06:39:57 +0800 CST
  • Martin Hope
    jonsca Todos os meus complementos do Firefox foram desativados repentinamente, como posso reativá-los? 2019-05-04 17:58:52 +0800 CST
  • Martin Hope
    MCK É possível criar um código QR usando texto? 2019-04-02 06:32:14 +0800 CST
  • Martin Hope
    SoniEx2 Altere o nome da ramificação padrão do git init 2019-04-01 06:16:56 +0800 CST

Hot tag

windows-10 linux windows microsoft-excel networking ubuntu worksheet-function bash command-line hard-drive

Explore

  • Início
  • Perguntas
    • Recentes
    • Highest score
  • tag
  • help

Footer

AskOverflow.Dev

About Us

  • About Us
  • Contact Us

Legal Stuff

  • Privacy Policy

Language

  • Pt
  • Server
  • Unix

© 2023 AskOverflow.DEV All Rights Reserve