AskOverflow.Dev

AskOverflow.Dev Logo AskOverflow.Dev Logo

AskOverflow.Dev Navigation

  • 主页
  • 系统&网络
  • Ubuntu
  • Unix
  • DBA
  • Computer
  • Coding
  • LangChain

Mobile menu

Close
  • 主页
  • 系统&网络
    • 最新
    • 热门
    • 标签
  • Ubuntu
    • 最新
    • 热门
    • 标签
  • Unix
    • 最新
    • 标签
  • DBA
    • 最新
    • 标签
  • Computer
    • 最新
    • 标签
  • Coding
    • 最新
    • 标签
主页 / unix / 问题

问题[wget](unix)

Martin Hope
Amirali
Asked: 2025-03-12 23:17:39 +0800 CST

Wget 下载错误内容

  • 5

我正在尝试下载特定的 sitemap.xml ( https://www.irna.ir/sitemap/all/sitemap.xml )。问题是,当您加载特定的 sitemap.xml 几秒钟后,会出现一个带有标题的白页(您正在重定向...),然后消失。当我阅读下载的 sitemap.xml 时,它只是一个包含重定向页面详细信息的 HTML 文件,而不是我想要的确切 sitemap.xml。

下载文件的一部分(sitemap.xml):

<!DOCTYPE html>
<html lang="en">
<head>
<meta name="generator" content=
"HTML Tidy for HTML5 for Linux version 5.8.0">
<meta charset="UTF-8">
<meta name="viewport" content="width=device-width">
<link href="/cdn-cgi/assets/css/static-pages-2.6.0.css" rel=
"stylesheet">
<link rel="icon" type="image/x-icon" href="//#DOMAIN#/favicon.ico">
<title></title>
</head>
<body>
<section class=
"error-section error-section--waiting error-section--ltr error-section--hide"
id="en">
<div class="container">
<div class=
"error-section__wrapper error-section__wrapper--waiting">
<div class="error-section__information">
<h1 class="error-section__title"></h1>
<h2 class=
"error-section__subtitle error-section__subtitle--waiting">
Transferring to the website...</h2>
</div>
</div>
</div>
</section>
<section class=
"error-section error-section--waiting error-section--hide" id="fa">
<div class="container">
<div class=
"error-section__wrapper error-section__wrapper--waiting">
<div class="error-section__information">
<h1 class="error-section__title"></h1>
<h2 class=
"error-section__subtitle error-section__subtitle--waiting">در ﺣﺎل
اﻧﺘﻘﺎل ﺑﻪ ﺳﺎﯾﺖ ﻣﻮرد ﻧﻈﺮ ﻫﺴﺘﯿﺪ...</h2>
</div>
</div>
</div>
</section>
<script>
var _this = this;

使用的命令: wget https://www.irna.ir/sitemap/all/sitemap.xml

我想要的帽子的一部分(sitemap.xml):

<sitemapindex xmlns:image="http://www.google.com/schemas/sitemap-image/1.1" xmlns="http://www.sitemaps.org/schemas/sitemap/0.9" xmlns:news="http://www.google.com/schemas/sitemap-news/0.9" xmlns:video="http://www.google.com/schemas/sitemap-video/1.1">
<sitemap>
<loc>https://www.irna.ir/sitemap/1403/12/22/sitemap.xml</loc>
</sitemap>
<sitemap>
<loc>https://www.irna.ir/sitemap/1403/12/21/sitemap.xml</loc>
</sitemap>

我想下载 sitemap.xml 的 XML 内容,而不是初始页面(它们两个具有相同的 URL)

wget
  • 1 个回答
  • 50 Views
Martin Hope
Amirali
Asked: 2025-03-12 15:47:44 +0800 CST

使用 wget 下载网站的 HTML 文件只给我一个 index.html

  • 5

我正尝试使用 wget 以递归方式从特定站点( https://isna.ir/ )下载 1000 个 HTML 页面(这是我们课程作业的一部分),但它只下载一个 index.html 文件。

我尝试了 wget 提供的许多选项,但都不起作用,我也尝试了--reject="index.html"

命令: wget --recursive -nd -np --random-wait -U Googlebot -P ./isna_crawl https://isna.ir/

wget
  • 2 个回答
  • 90 Views
Martin Hope
Franck Dernoncourt
Asked: 2023-12-22 06:22:57 +0800 CST

如何下载非常大的 URL 列表,以便将下载的文件分成包含文件名首字母的子文件夹?

  • 5

我想下载很多文件(>数千万)。我有每个文件的 URL。我的文件中有 URL 列表URLs.txt:

http://mydomain.com/0wd.pdf
http://mydomain.com/asz.pdf
http://mydomain.com/axz.pdf
http://mydomain.com/b00.pdf
http://mydomain.com/bb0.pdf
etc.

我可以通过下载它们wget -i URLs.txt,但是它会超过一个文件夹中可以放置的最大文件数。

如何下载这么大的 URL 列表,以便将下载的文件分成包含文件名首字母的子文件夹?例如,:

0/0wd.pdf
a/asz.pdf
a/axz.pdf
b/b00.pdf
b/bb0.pdf
etc.

如果这很重要的话,我使用 Ubuntu。

wget
  • 2 个回答
  • 45 Views
Martin Hope
Duck
Asked: 2023-11-07 01:26:59 +0800 CST

可以和wget并行下载吗?

  • 5

我正在从列表中下载一堆文件,使用wget, 与此

wget -nc --input-file=list

这种方法的问题是,它会按顺序下载文件,并且需要很长时间。

我知道我可以将文件分成多个较小的文件并手动触发多个命令。我问是否可以自动完成。

wget
  • 1 个回答
  • 28 Views
Martin Hope
Amol
Asked: 2023-09-16 08:19:01 +0800 CST

wget 错误:证书所有者与主机名不匹配

  • 5

wget命令无法下载文件,并出现错误“证书所有者与主机名不匹配”

完整命令输出如下所示:

wget --continue --directory-prefix=/download https://server.example.com/repo/software-1.0.rpm

Resolving server.example.com (server.example.com)... 10.77.66.27

Connecting to server.example.com (server.example.com)|10.77.66.27|:443... connected.

The certificate's owner does not match hostname ‘server.example.com’

这是在 RedHat 8.6 系统上,该trust list命令不显示server.example.com. 然而有一个条目label: localhost

  • wget 命令在哪里查找服务器的证书?为什么这没有显示在详细输出中?
  • 如何打印或删除该证书的内容?
wget
  • 1 个回答
  • 30 Views
Martin Hope
João Pimentel Ferreira
Asked: 2023-06-13 02:32:24 +0800 CST

wget - 如果下载失败不覆盖文件

  • 5

假设您将文件下载到~/img.txt

wget https://picsum.photos/200 -O ~/img.jpg

图像文件被存储。现在想象你再试一次,但使用了错误的 URL

wget https://picsum.photooooooos/200 -O ~/img.jpg

然后删除/清空该文件。

如果 URL 返回 404 或者下载有任何错误,如何避免文件被覆盖?

wget
  • 1 个回答
  • 30 Views
Martin Hope
hollyjolly
Asked: 2022-09-22 01:03:54 +0800 CST

wget 给了我 html 文件而不是目标文件

  • 1

我正在使用 wget 下载文件,但似乎它提供了 HTML 文件而不是我需要的文件。

我的 wget 版本是基于 linux-gnu 构建的 GNU Wget 1.19.1,这是我使用的命令行:

wget --user=... --password=... https://transfer.usz.ch/messages/O6Xk6MAxMUYYIql5OTSRlo/attachments/dgzQv5Nl8Sv1eS6GDdtY3S/download/B201643229_T_S60_sort_merge_dup_recal_RGtag.bam

我想知道是什么导致了这个错误。

linux wget
  • 1 个回答
  • 31 Views
Martin Hope
Make42
Asked: 2022-07-02 10:11:03 +0800 CST

浏览器从本地“index.html”-file 重定向到“file:///”-root

  • 0

我下载了网站https://www.untools.co/

wget --mirror --convert-links https://www.untools.co/

并在我的文件系统上有相应的页面:

在此处输入图像描述

当我untools.co/index.html用 Firefox 打开时,我可以看到页面半秒钟,然后我被重定向到file:///.

我不认为这是 html 文件的问题,因为当我使用 Firefox 在虚拟机的 Windows 中打开它们时,我没有任何问题。

不仅 Firefox 如此,Chrome、Brave、Konqueror 等浏览器也是如此,所以我想这一定是我的 Kubuntu 20.04 的问题。

或者可能是其他一些奇怪的重定向正在进行,我不知道。例如在https://help.dreamhost.com/hc/en-us/articles/215747748-How-can-I-redirect-and-rewrite-my-URLs-with-an-htaccess-file-我读到了如何从 index.html 重定向 - 但是,我想确保我不会被重定向。

ubuntu wget
  • 1 个回答
  • 136 Views
Martin Hope
mhdadk
Asked: 2022-06-01 10:02:06 +0800 CST

是否可以搜索 .tar.gz 文件广度优先?

  • 8

我想从这里下载一个大 (199GB) .tar.gz 文件的一部分。首先,我使用以下命令列出 .tar.gz 文件中的所有文件:

wget -qO- https://www.cs.cornell.edu/projects/megadepth/dataset/Megadepth_v1/MegaDepth_v1.tar.gz | tar -tz

接下来,我尝试使用以下命令下载 .tar.gz 中文件夹的内容:

wget -qO- https://www.cs.cornell.edu/projects/megadepth/dataset/Megadepth_v1/MegaDepth_v1.tar.gz | tar -xz phoenix/S6/zl548/MegaDepth_v1/0000

但是,这需要很长时间,因为该tar命令会深度优先搜索并递归地搜索下面的每个文件夹phoenix/S6/zl548/MegaDepth_v1。我只对文件夹的内容感兴趣phoenix/S6/zl548/MegaDepth_v1/0000。有没有办法在不搜索其他文件夹的子文件夹的情况下下载该文件夹的内容,例如

phoenix/S6/zl548/MegaDepth_v1/0162
phoenix/S6/zl548/MegaDepth_v1/0001
phoenix/S6/zl548/MegaDepth_v1/0132

换句话说,有没有更快的方法来下载文件夹的内容phoenix/S6/zl548/MegaDepth_v1/0000?


上述命令的一些参考:

如何从 tar.gz 中提取特定文件

如何下载存档并解压缩而不将存档保存到磁盘?

https://stackoverflow.com/q/2700306/13809128

wget tar
  • 4 个回答
  • 1829 Views
Martin Hope
arara
Asked: 2022-05-23 10:21:46 +0800 CST

如何从 BLAST 数据库目录中获取所有 Betacoronavirus .tar.gz 文件?

  • 0

我正在尝试使用 wget 从https://ftp.ncbi.nlm.nih.gov/blast/db/下载所有以 .tar.gz 结尾的 Betacoronavirus 文件。我可以使用 wget 并将链接粘贴到这些文件中的一个,它会很好地下载它。但是当我尝试使用某种正则表达式时,例如带有 Betacoronavirus.*.tar.gz 的东西为我一次下载它们,它不起作用。我已经尝试了很多我在其他线程上看到的东西,但仍然没有工作。

wget
  • 2 个回答
  • 63 Views

Sidebar

Stats

  • 问题 205573
  • 回答 270741
  • 最佳答案 135370
  • 用户 68524
  • 热门
  • 回答
  • Marko Smith

    模块 i915 可能缺少固件 /lib/firmware/i915/*

    • 3 个回答
  • Marko Smith

    无法获取 jessie backports 存储库

    • 4 个回答
  • Marko Smith

    如何将 GPG 私钥和公钥导出到文件

    • 4 个回答
  • Marko Smith

    我们如何运行存储在变量中的命令?

    • 5 个回答
  • Marko Smith

    如何配置 systemd-resolved 和 systemd-networkd 以使用本地 DNS 服务器来解析本地域和远程 DNS 服务器来解析远程域?

    • 3 个回答
  • Marko Smith

    dist-upgrade 后 Kali Linux 中的 apt-get update 错误 [重复]

    • 2 个回答
  • Marko Smith

    如何从 systemctl 服务日志中查看最新的 x 行

    • 5 个回答
  • Marko Smith

    Nano - 跳转到文件末尾

    • 8 个回答
  • Marko Smith

    grub 错误:你需要先加载内核

    • 4 个回答
  • Marko Smith

    如何下载软件包而不是使用 apt-get 命令安装它?

    • 7 个回答
  • Martin Hope
    user12345 无法获取 jessie backports 存储库 2019-03-27 04:39:28 +0800 CST
  • Martin Hope
    Carl 为什么大多数 systemd 示例都包含 WantedBy=multi-user.target? 2019-03-15 11:49:25 +0800 CST
  • Martin Hope
    rocky 如何将 GPG 私钥和公钥导出到文件 2018-11-16 05:36:15 +0800 CST
  • Martin Hope
    Evan Carroll systemctl 状态显示:“状态:降级” 2018-06-03 18:48:17 +0800 CST
  • Martin Hope
    Tim 我们如何运行存储在变量中的命令? 2018-05-21 04:46:29 +0800 CST
  • Martin Hope
    Ankur S 为什么 /dev/null 是一个文件?为什么它的功能不作为一个简单的程序来实现? 2018-04-17 07:28:04 +0800 CST
  • Martin Hope
    user3191334 如何从 systemctl 服务日志中查看最新的 x 行 2018-02-07 00:14:16 +0800 CST
  • Martin Hope
    Marko Pacak Nano - 跳转到文件末尾 2018-02-01 01:53:03 +0800 CST
  • Martin Hope
    Kidburla 为什么真假这么大? 2018-01-26 12:14:47 +0800 CST
  • Martin Hope
    Christos Baziotis 在一个巨大的(70GB)、一行、文本文件中替换字符串 2017-12-30 06:58:33 +0800 CST

热门标签

linux bash debian shell-script text-processing ubuntu centos shell awk ssh

Explore

  • 主页
  • 问题
    • 最新
    • 热门
  • 标签
  • 帮助

Footer

AskOverflow.Dev

关于我们

  • 关于我们
  • 联系我们

Legal Stuff

  • Privacy Policy

Language

  • Pt
  • Server
  • Unix

© 2023 AskOverflow.DEV All Rights Reserve