AskOverflow.Dev

AskOverflow.Dev Logo AskOverflow.Dev Logo

AskOverflow.Dev Navigation

  • Início
  • system&network
  • Ubuntu
  • Unix
  • DBA
  • Computer
  • Coding
  • LangChain

Mobile menu

Close
  • Início
  • system&network
    • Recentes
    • Highest score
    • tags
  • Ubuntu
    • Recentes
    • Highest score
    • tags
  • Unix
    • Recentes
    • tags
  • DBA
    • Recentes
    • tags
  • Computer
    • Recentes
    • tags
  • Coding
    • Recentes
    • tags
Início / unix / 问题

Perguntas[wget](unix)

Martin Hope
Amirali
Asked: 2025-03-12 23:17:39 +0800 CST

Wget baixa conteúdo errado

  • 5

Estou tentando baixar um sitemap.xml específico ( https://www.irna.ir/sitemap/all/sitemap.xml ). O problema é que quando você carrega o sitemap.xml específico por alguns segundos, uma página branca com um cabeçalho (você está redirecionando...) aparece e depois desaparece. Quando li o sitemap.xml baixado, era apenas um arquivo HTML com os detalhes da página de redirecionamento, não o sitemap.xml exato que eu queria.

Parte do arquivo baixado (sitemap.xml) :

<!DOCTYPE html>
<html lang="en">
<head>
<meta name="generator" content=
"HTML Tidy for HTML5 for Linux version 5.8.0">
<meta charset="UTF-8">
<meta name="viewport" content="width=device-width">
<link href="/cdn-cgi/assets/css/static-pages-2.6.0.css" rel=
"stylesheet">
<link rel="icon" type="image/x-icon" href="//#DOMAIN#/favicon.ico">
<title></title>
</head>
<body>
<section class=
"error-section error-section--waiting error-section--ltr error-section--hide"
id="en">
<div class="container">
<div class=
"error-section__wrapper error-section__wrapper--waiting">
<div class="error-section__information">
<h1 class="error-section__title"></h1>
<h2 class=
"error-section__subtitle error-section__subtitle--waiting">
Transferring to the website...</h2>
</div>
</div>
</div>
</section>
<section class=
"error-section error-section--waiting error-section--hide" id="fa">
<div class="container">
<div class=
"error-section__wrapper error-section__wrapper--waiting">
<div class="error-section__information">
<h1 class="error-section__title"></h1>
<h2 class=
"error-section__subtitle error-section__subtitle--waiting">در ﺣﺎل
اﻧﺘﻘﺎل ﺑﻪ ﺳﺎﯾﺖ ﻣﻮرد ﻧﻈﺮ ﻫﺴﺘﯿﺪ...</h2>
</div>
</div>
</div>
</section>
<script>
var _this = this;

Comando usado: wget https://www.irna.ir/sitemap/all/sitemap.xml

Parte do chapéu que eu quero (sitemap.xml):

<sitemapindex xmlns:image="http://www.google.com/schemas/sitemap-image/1.1" xmlns="http://www.sitemaps.org/schemas/sitemap/0.9" xmlns:news="http://www.google.com/schemas/sitemap-news/0.9" xmlns:video="http://www.google.com/schemas/sitemap-video/1.1">
<sitemap>
<loc>https://www.irna.ir/sitemap/1403/12/22/sitemap.xml</loc>
</sitemap>
<sitemap>
<loc>https://www.irna.ir/sitemap/1403/12/21/sitemap.xml</loc>
</sitemap>

Quero baixar o conteúdo XML do sitemap.xml, não a página inicial (que tem o mesmo URL)

wget
  • 1 respostas
  • 50 Views
Martin Hope
Amirali
Asked: 2025-03-12 15:47:44 +0800 CST

Baixando arquivos HTML de um site com wget, apenas me dê um index.html

  • 5

Estou tentando baixar 1000 páginas HTML de um site específico ( https://isna.ir/ ) com o wget de forma recursiva (faz parte da nossa tarefa do curso), mas ele apenas baixa um arquivo index.html.

Eu tentei várias opções que o wget fornece, mas nenhuma delas funciona, também tentei--reject="index.html"

O comando: wget --recursive -nd -np --random-wait -U Googlebot -P ./isna_crawl https://isna.ir/

wget
  • 2 respostas
  • 90 Views
Martin Hope
Franck Dernoncourt
Asked: 2023-12-22 06:22:57 +0800 CST

Como posso baixar uma lista muito grande de URLs para que os arquivos baixados sejam divididos em subpastas contendo a primeira letra dos nomes dos arquivos?

  • 5

Quero baixar muitos arquivos (> dezenas de milhões). Eu tenho o URL de cada arquivo. Eu tenho a lista de URLs em um arquivo URLs.txt:

http://mydomain.com/0wd.pdf
http://mydomain.com/asz.pdf
http://mydomain.com/axz.pdf
http://mydomain.com/b00.pdf
http://mydomain.com/bb0.pdf
etc.

Posso baixá-los via wget -i URLs.txt, porém ultrapassaria o número máximo de arquivos que podem ser colocados em uma pasta.

Como posso baixar esta grande lista de URLs para que os arquivos baixados sejam divididos em subpastas contendo a primeira letra dos nomes dos arquivos? Por exemplo,:

0/0wd.pdf
a/asz.pdf
a/axz.pdf
b/b00.pdf
b/bb0.pdf
etc.

Se isso importa, eu uso o Ubuntu.

wget
  • 2 respostas
  • 45 Views
Martin Hope
Duck
Asked: 2023-11-07 01:26:59 +0800 CST

É possível baixar em paralelo com o wget?

  • 5

Estou baixando vários arquivos de uma lista, usando wget, com este

wget -nc --input-file=list

O problema desse método é que ele baixa arquivos em sequência e demora muito.

Eu sei que posso dividir o arquivo em vários arquivos menores e disparar manualmente vários comandos. Eu pergunto se é possível fazer isso automaticamente.

wget
  • 1 respostas
  • 28 Views
Martin Hope
Amol
Asked: 2023-09-16 08:19:01 +0800 CST

erro wget: o proprietário do certificado não corresponde ao nome do host

  • 5

wgetcomando falha ao baixar um arquivo com erro "O proprietário do certificado não corresponde ao nome do host"

A saída completa do comando é mostrada abaixo:

wget --continue --directory-prefix=/download https://server.example.com/repo/software-1.0.rpm

Resolving server.example.com (server.example.com)... 10.77.66.27

Connecting to server.example.com (server.example.com)|10.77.66.27|:443... connected.

The certificate's owner does not match hostname ‘server.example.com’

Isso está em um sistema RedHat 8.6 e o trust list​​comando não mostra nenhum certificado para server.example.com. No entanto, há uma entrada comlabel: localhost

  • Onde o comando wget está encontrando um certificado para o servidor? Por que isso não é mostrado na saída detalhada?
  • Como imprimir o conteúdo deste certificado ou excluí-lo?
wget
  • 1 respostas
  • 30 Views
Martin Hope
João Pimentel Ferreira
Asked: 2023-06-13 02:32:24 +0800 CST

wget - não sobrescreve o arquivo se o download falhar

  • 5

Imagine que você baixou um arquivo para~/img.txt

wget https://picsum.photos/200 -O ~/img.jpg

O arquivo de imagem é armazenado. Agora imagine que você tente novamente, mas com uma URL errada

wget https://picsum.photooooooos/200 -O ~/img.jpg

O arquivo é então apagado/esvaziado.

Como evitar a substituição do arquivo caso a URL retorne 404 ou haja algum erro no download?

wget
  • 1 respostas
  • 30 Views
Martin Hope
hollyjolly
Asked: 2022-09-22 01:03:54 +0800 CST

wget me dá o arquivo html em vez do arquivo de destino

  • 1

Estou usando o wget para baixar arquivos, mas aparentemente ele fornece o arquivo HTML em vez do arquivo que preciso.

minha versão do wget é GNU Wget 1.19.1 construída no linux-gnu e aqui está a linha de comando que usei:

wget --user=... --password=... https://transfer.usz.ch/messages/O6Xk6MAxMUYYIql5OTSRlo/attachments/dgzQv5Nl8Sv1eS6GDdtY3S/download/B201643229_T_S60_sort_merge_dup_recal_RGtag.bam

Eu me pergunto o que deu esse erro.

linux wget
  • 1 respostas
  • 31 Views
Martin Hope
Make42
Asked: 2022-07-02 10:11:03 +0800 CST

Os navegadores redirecionam do arquivo local "index.html" para "file:///"-root

  • 0

Baixei o site https://www.untools.co/ com

wget --mirror --convert-links https://www.untools.co/

e ter as respectivas páginas no meu sistema de arquivos:

insira a descrição da imagem aqui

Quando abro untools.co/index.htmlcom o Firefox, posso ver a página por meio segundo, depois sou redirecionado para file:///.

Não acredito que isso seja um problema com o arquivo html, pois quando abro no Windows da máquina virtual com o Firefox, não tenho problemas.

Este é o caso não apenas do Firefox, mas também dos navegadores Chrome, Brave, Konqueror, então acho que deve ser algo com o meu Kubuntu 20.04.

Ou pode ser que haja algum outro redirecionamento estranho acontecendo, eu não estou ciente. Por exemplo, em https://help.dreamhost.com/hc/en-us/articles/215747748-How-can-I-redirect-and-rewrite-my-URLs-with-an-htaccess-file- eu li sobre como redirecionar de index.html - no entanto, quero ter certeza de que não sou redirecionado.

ubuntu wget
  • 1 respostas
  • 136 Views
Martin Hope
mhdadk
Asked: 2022-06-01 10:02:06 +0800 CST

É possível pesquisar em um arquivo .tar.gz em largura?

  • 8

Quero baixar parte de um arquivo .tar.gz grande (199 GB) daqui . Para começar, usei o seguinte comando para listar todos os arquivos do arquivo .tar.gz:

wget -qO- https://www.cs.cornell.edu/projects/megadepth/dataset/Megadepth_v1/MegaDepth_v1.tar.gz | tar -tz

Em seguida, tentei baixar o conteúdo de uma pasta no .tar.gz usando o comando:

wget -qO- https://www.cs.cornell.edu/projects/megadepth/dataset/Megadepth_v1/MegaDepth_v1.tar.gz | tar -xz phoenix/S6/zl548/MegaDepth_v1/0000

No entanto, isso leva muito tempo porque o tarcomando pesquisa em profundidade e recursivamente em cada uma das pastas abaixo phoenix/S6/zl548/MegaDepth_v1. Estou interessado apenas no conteúdo da pasta phoenix/S6/zl548/MegaDepth_v1/0000. Existe uma maneira de baixar o conteúdo desta pasta sem pesquisar nas subpastas das outras pastas, como

phoenix/S6/zl548/MegaDepth_v1/0162
phoenix/S6/zl548/MegaDepth_v1/0001
phoenix/S6/zl548/MegaDepth_v1/0132

Em outras palavras, existe uma maneira mais rápida de baixar o conteúdo da pasta phoenix/S6/zl548/MegaDepth_v1/0000?


Algumas referências para os comandos acima:

Como extrair arquivos específicos do tar.gz

Como baixar um arquivo e extraí-lo sem salvar o arquivo no disco?

https://stackoverflow.com/q/2700306/13809128

wget tar
  • 4 respostas
  • 1829 Views
Martin Hope
arara
Asked: 2022-05-23 10:21:46 +0800 CST

Como obter todos os arquivos .tar.gz do Betacoronavirus do diretório do banco de dados BLAST?

  • 0

Estou tentando usar o wget para baixar todos os arquivos do Betacoronavirus que terminam em .tar.gz de https://ftp.ncbi.nlm.nih.gov/blast/db/ . Eu posso usar wget e colar o link para um único desses arquivos, e ele fará o download muito bem. Mas quando tento usar algum tipo de regex, por exemplo, algo com Betacoronavirus.*.tar.gz para baixá-los todos de uma vez para mim, não funciona. Eu tentei várias coisas que eu vi em alguns outros tópicos, mas ainda assim, nenhum funciona.

wget
  • 2 respostas
  • 63 Views

Sidebar

Stats

  • Perguntas 205573
  • respostas 270741
  • best respostas 135370
  • utilizador 68524
  • Highest score
  • respostas
  • Marko Smith

    Possível firmware ausente /lib/firmware/i915/* para o módulo i915

    • 3 respostas
  • Marko Smith

    Falha ao buscar o repositório de backports jessie

    • 4 respostas
  • Marko Smith

    Como exportar uma chave privada GPG e uma chave pública para um arquivo

    • 4 respostas
  • Marko Smith

    Como podemos executar um comando armazenado em uma variável?

    • 5 respostas
  • Marko Smith

    Como configurar o systemd-resolved e o systemd-networkd para usar o servidor DNS local para resolver domínios locais e o servidor DNS remoto para domínios remotos?

    • 3 respostas
  • Marko Smith

    apt-get update error no Kali Linux após a atualização do dist [duplicado]

    • 2 respostas
  • Marko Smith

    Como ver as últimas linhas x do log de serviço systemctl

    • 5 respostas
  • Marko Smith

    Nano - pule para o final do arquivo

    • 8 respostas
  • Marko Smith

    erro grub: você precisa carregar o kernel primeiro

    • 4 respostas
  • Marko Smith

    Como baixar o pacote não instalá-lo com o comando apt-get?

    • 7 respostas
  • Martin Hope
    user12345 Falha ao buscar o repositório de backports jessie 2019-03-27 04:39:28 +0800 CST
  • Martin Hope
    Carl Por que a maioria dos exemplos do systemd contém WantedBy=multi-user.target? 2019-03-15 11:49:25 +0800 CST
  • Martin Hope
    rocky Como exportar uma chave privada GPG e uma chave pública para um arquivo 2018-11-16 05:36:15 +0800 CST
  • Martin Hope
    Evan Carroll status systemctl mostra: "Estado: degradado" 2018-06-03 18:48:17 +0800 CST
  • Martin Hope
    Tim Como podemos executar um comando armazenado em uma variável? 2018-05-21 04:46:29 +0800 CST
  • Martin Hope
    Ankur S Por que /dev/null é um arquivo? Por que sua função não é implementada como um programa simples? 2018-04-17 07:28:04 +0800 CST
  • Martin Hope
    user3191334 Como ver as últimas linhas x do log de serviço systemctl 2018-02-07 00:14:16 +0800 CST
  • Martin Hope
    Marko Pacak Nano - pule para o final do arquivo 2018-02-01 01:53:03 +0800 CST
  • Martin Hope
    Kidburla Por que verdadeiro e falso são tão grandes? 2018-01-26 12:14:47 +0800 CST
  • Martin Hope
    Christos Baziotis Substitua a string em um arquivo de texto enorme (70 GB), uma linha 2017-12-30 06:58:33 +0800 CST

Hot tag

linux bash debian shell-script text-processing ubuntu centos shell awk ssh

Explore

  • Início
  • Perguntas
    • Recentes
    • Highest score
  • tag
  • help

Footer

AskOverflow.Dev

About Us

  • About Us
  • Contact Us

Legal Stuff

  • Privacy Policy

Language

  • Pt
  • Server
  • Unix

© 2023 AskOverflow.DEV All Rights Reserve