AskOverflow.Dev

AskOverflow.Dev Logo AskOverflow.Dev Logo

AskOverflow.Dev Navigation

  • 主页
  • 系统&网络
  • Ubuntu
  • Unix
  • DBA
  • Computer
  • Coding
  • LangChain

Mobile menu

Close
  • 主页
  • 系统&网络
    • 最新
    • 热门
    • 标签
  • Ubuntu
    • 最新
    • 热门
    • 标签
  • Unix
    • 最新
    • 标签
  • DBA
    • 最新
    • 标签
  • Computer
    • 最新
    • 标签
  • Coding
    • 最新
    • 标签
主页 / computer / 问题

问题[wget](computer)

Martin Hope
KevinHJ
Asked: 2023-12-25 20:31:45 +0800 CST

阻止 wget 为 Options +Indexes 目录创建 index.html

  • 7

我正在使用此命令来镜像服务器上的目录树:

wget -m -e robots=off --no-parent --reject-regex index.html --reject-regex aaa --no-verbose --timestamp https://example.com/folders/

“folders”目录有一个.htaccess包含指令的文件Options +Indexes。

但是,对于每个目录,它都会创建一个index.html文件,反映服务器生成的显示该目录索引的页面。

由于它实际上不是一个文件,因此它没有修改时间戳标头。我想阻止 wget 创建该index.html文件。使用--reject-regex index.html不行。

wget
  • 1 个回答
  • 120 Views
Martin Hope
KevinHJ
Asked: 2023-12-24 21:21:35 +0800 CST

使用 wget 成功镜像远程目录后收到“无法写入”消息

  • 6

我一直在尝试使用 wget 镜像服务器上的目录,然后仅使用较新的文件更新下载的树。本地机器运行的是MacOS 12.6.3;服务器是 CloudLinux,版本 6。

该服务器是半私有的,这意味着它没有密码保护,但不做广告,并且有无机器人建议。

我想使用比设置 rsync (ssh 密钥等)更简单的东西。我在 Unix SE 网站上找到的建议似乎是实现此目的的简单方法。

所以我运行了这个命令:

wget -m -e robots=off https://example.com/folders

(“文件夹”目录Options +Indexes中有一个指令.htaccess)

这就创建了最初的目标。一切都下载得很好,并在我的本地计算机上创建了初始“文件夹”目录树,所有文件都完好无损。

然后,我在最初下载的服务器上的树中创建了一个新文件,然后尝试运行它以查看它是否会获取新文件:

wget -m -e robots=off --timestamp https://example.com/folders

但我收到这个错误:

Cannot write to ‘example.com/folders’ (Success).

完整输出:

--2023-12-24 05:29:07--  https://example.com/folders
Resolving example.com (example.com)... 123.456.789.123
Connecting to example.com (example.com)|123.456.789.123|:443... connected.
HTTP request sent, awaiting response... 301 Moved Permanently
Location: https://example.com/folders/ [following]
--2023-12-24 05:29:07--  https://example.com/folders/
Reusing existing connection to example.com:443.
HTTP request sent, awaiting response... 200 OK
Length: 3671 (3.6K) [text/html]
example.com/folders: Is a directory

Cannot write to ‘example.com/folders’ (Success).

我检查了提到的文件夹的权限,它们都很好。

搜索“无法写入”消息产生了一堆与我的用例无关的结果。

wget
  • 1 个回答
  • 42 Views
Martin Hope
dcannistraro
Asked: 2022-11-01 12:58:17 +0800 CST

有没有办法在不下载文件的情况下在域上 Grep 多个 HTML 页面?

  • 7

我本质上想在浏览器中Ctrl添加F多个站点。

我在域上有一系列 URLhttps://exampleblog.com/posts/{1-50}

我想/posts/一次 grep 下的所有页面。它们每个都用从 1 到 50 的有序 int 进行标识。

有没有办法在不下载的情况下做到这一点wget?我想 grep 我从中得到的信息curl。

我觉得有一个雄辩的管道或一个班轮可以让我从终端执行此操作而无需下载(尽管它可能很慢)。

grep pipe curl wget
  • 1 个回答
  • 46 Views
Martin Hope
Jack Wu
Asked: 2022-07-12 10:54:51 +0800 CST

通过 HTTPS 卷曲

  • 6

我刚刚设置了一个网站/网络服务器,并通过 ZeroSSL 对其进行了验证,但是当我尝试对其运行 curl 或 wget 时,它会出错。我可以通过运行绕过它,wget --no-check-certificate或者curl -k考虑到网站的相当一部分是围绕安装文件构建的,我宁愿让它开箱即用。有没有办法在不下载证书或不检查证书的情况下解决这个问题?

卷曲错误
curl https://gitnet.me
curl: (60) ssl certificate problem: unable to get local issuer certificate
Wget 错误
wget https://gitnet.me

Resolving gitnet.me... 104.207.144.166
Connecting to gitnet.me|104.207.144.166|:443... connected.
ERROR: cannot verify gitnet.me's certificate, issued by 'CN=ZeroSSL RSA Domain Secure Site CA,O=ZeroSSL,C=AT':
  Unable to locally verify the issuer's authority
website wget
  • 1 个回答
  • 118 Views
Martin Hope
qg_java_17137
Asked: 2021-11-30 19:20:20 +0800 CST

使用 wget 时,如何仅显示请求标头/响应标头并输出到 /dev/null?

  • 5

使用 wget 时,如何仅显示请求标头/响应标头并输出到 /dev/null?

我用--debug它来显示请求头和响应头:

wget --debug https://sb.scorecardresearch.com/internal-cs/default/beacon.js

我想使用-o /dev/null不保存内容,但它现在不显示标题:

wget --debug https://sb.scorecardresearch.com/internal-cs/default/beacon.js -o /dev/null &

wget
  • 1 个回答
  • 459 Views
Martin Hope
gMaximus
Asked: 2021-10-01 05:18:01 +0800 CST

如何停止当前正在运行的 cron 作业执行 wget?

  • 6

我添加了一个 cron 作业来准备我网站的缓存。命令是:

cd crawler && wget --recursive --no-parent --domains=example.com --level=inf --reject css,js,png,jpg,mp4,psd,pdf --delete-after --header "Cookie: has_js=1" -U "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36" https://example.com

该网站有大约20k页。但是我的缓存现在是 40k 页,并且在 48 小时后仍然存在。所以我想停止该命令的运行。

为此,我跑了:

ps fauxww | grep -A 1 '[C]RON'

那给了我

root      8174  0.0  0.0 184304  2748 ?        S    Sep28   0:16  \_ CROND
10037     8182  0.0  0.0 106112  1044 ?        Ss   Sep28   0:00  |   \_ /bin/sh -c cd crawler && wget --recursive --no-parent --domains=example.com --level=inf --reject css,js,png,jpg,mp4,psd,pdf --delete-after  --header "Cookie: has_js=1" -U "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36" https://example.com
--
root     23177  0.0  0.0 184300  3556 ?        S    13:00   0:00  \_ CROND
root     23180  0.0  0.2 345556 27648 ?        Ss   13:00   0:00  |   \_ /usr/bin/sw-engine -c /usr/local/psa/admin/conf/php.ini -dauto_prepend_file=sdk.php /usr/local/psa/admin/plib/modules/plesk-mobile/scripts/push_worker.php
root     24754  0.0  0.0 184300  3556 ?        S    13:01   0:00  \_ CROND
root     24755  0.0  0.0 106112  1276 ?        Ss   13:01   0:00      \_ /bin/bash /usr/bin/run-parts /etc/cron.hourly

我可以看到 8182 的进程 ID,所以我然后运行

kill 8182

现在当我跑 ps fauxww | grep -A 1 '[C]RON'

我明白了

10037     8182  0.0  0.0      0     0 ?        Zs   Sep28   0:00  |   \_ [sh] <defunct>
root      7120  0.0  0.0 184300  3556 ?        S    13:10   0:00  \_ CROND
guy       7123  0.0  0.0 106112  1164 ?        Ss   13:10   0:00  |   \_ /bin/sh -c /usr/local/psa/admin/sbin/fetch_url 'https://example.com/cron.php' > /dev/null
guy       7127  0.0  0.0 106112  1212 ?        S    13:10   0:00  |       \_ /bin/bash /usr/local/psa/admin/sbin/fetch_url https://example.com/cron.php
--
root     21941  0.0  0.0 184300  3556 ?        S    13:20   0:00  \_ CROND
root     21947  0.1  0.2 345556 27644 ?        Ss   13:20   0:00      \_ /usr/bin/sw-engine -c /usr/local/psa/admin/conf/php.ini -dauto_prepend_file=sdk.php /usr/local/psa/admin/plib/modules/plesk-mobile/scripts/push_worker.php
root      2737  0.0  0.0  21104   308 ?        Ss    2018   0:00 /usr/sbin/atd

关键是 wget 命令仍在运行。由于缓存文件的目录正在以秒为单位增长。

那么如何在我的服务器空间不足之前停止该 wget 命令呢?

linux wget
  • 1 个回答
  • 1095 Views
Martin Hope
Joe Jobs
Asked: 2021-08-04 08:47:52 +0800 CST

多个域进入 wget --accept-regex?

  • 4

我想递归下载页面https://en.wikipedia.org/wiki/Main_Page,但只下载来自 upload.wikimedia.org 和 de.wikipedia.org 的文件

它通过使用以下命令来工作:

wget -H -r -l1 --accept-regex upload.wikimedia.org https://en.wikipedia.org/wiki/Main_Page
wget -H -r -l1 --accept-regex de.wikipedia.org https://en.wikipedia.org/wiki/Main_Page

我的问题是:是否可以在一个命令中组合两个域?像这样的东西:

wget -H -r -l1 --accept-regex de.wikipedia.org||upload.wikimedia.org https://en.wikipedia.org/wiki/Main_Page

其中“||” 意思是“或”

wget
  • 1 个回答
  • 390 Views
Martin Hope
Nishit
Asked: 2021-07-24 10:40:56 +0800 CST

当url有参数时如何使用wget下载文件?

  • 6

网址是这样的:

https://software-download.microsoft.com/db/Win10_21H1_English_x64.iso?t=52dbec9b-63f5-47e9-b4b2-ccbcbb6beb7a&e=1627124449&h=42e9a2a8e1f843e5a4573960dc07feaa

错误是:

wget https://software-download.microsoft.com/db/Win10_21H1_English_x64.iso?t=5e79c7f7-ad0d-4431-ad01-7139b298f3bc&e=1627210844&h=94f2c2f458187bd78dc6eca220b4d504

--2021-07-24 00:07:57--  https://software-download.microsoft.com/db/Win10_21H1_English_x64.iso?t=52dbec9b-63f5-47e9-b4b2-ccbcbb6beb7a
Resolving software-download.microsoft.com (software-download.microsoft.com)... 117.18.232.200
Connecting to software-download.microsoft.com (software-download.microsoft.com)|117.18.232.200|:443... connected.
HTTP request sent, awaiting response... 403 Forbidden
2021-07-24 00:07:59 ERROR 403: Forbidden.

'e' is not recognized as an internal or external command,
operable program or batch file.
'h' is not recognized as an internal or external command,
operable program or batch file.
download wget
  • 1 个回答
  • 1098 Views
Martin Hope
ordinary_python_programmer
Asked: 2021-07-17 14:09:28 +0800 CST

wget 无法下载网页中的某些图像

  • 6

因此,当我尝试使用 wget 下载此网页时,文本和样式效果很好,但缺少一些图像。经过进一步研究,文件无法下载,因为 wget 尝试从中检索它们的 url 无效,如控制台输出所示:

URL transformed to HTTPS due to an HSTS policy
--2021-07-13 21:53:51--  https://www.inhaltsangabe.de/autoren/%7B%7B%20data.avatar_url%20%7D%7D
Reusing existing connection to [www.inhaltsangabe.de]:443.
HTTP request sent, awaiting response... 301 Moved Permanently
Location: https://www.inhaltsangabe.de/autoren/%7B%7B%20data.avatar_url%20%7D%7D/ [following]
--2021-07-13 21:53:52--  https://www.inhaltsangabe.de/autoren/%7B%7B%20data.avatar_url%20%7D%7D/
Reusing existing connection to [www.inhaltsangabe.de]:443.
HTTP request sent, awaiting response... 404 Not Found
2021-07-13 21:53:53 ERROR 404: Not Found.

网站上的实际图像是可访问的,并且具有以下 url:

https://www.inhaltsangabe.de/wp-content/themes/yootheme/cache/brecht-276fafb8.jpeg

其他图像在下载的文件中工作正常。这似乎与url编码有关,但我不知道如何解决这个问题。

我的命令:

wget -p www.inhaltsangabe.de/autoren/brecht

(也请温柔,因为这是我在这里提出的第一个问题)

download wget
  • 1 个回答
  • 673 Views
Martin Hope
Manu
Asked: 2021-07-06 15:24:59 +0800 CST

批量下载浏览器显示的网页

  • 5

Wget 不起作用,因为该页面是动态的,并且无论我放置什么选项,它都不会下载 Firefox 中显示的某些文本。

我用谷歌搜索了很多,但我找到的所有解决方案都很麻烦,比如编写一个发送 Firefox 特定击键的脚本。然而,有些答案是旧的,所以我想知道现在是否存在更好的东西。

我从页面中需要的只是文本,我不需要任何图像。

browser-addons wget
  • 1 个回答
  • 121 Views

Sidebar

Stats

  • 问题 205573
  • 回答 270741
  • 最佳答案 135370
  • 用户 68524
  • 热门
  • 回答
  • Marko Smith

    如何减少“vmmem”进程的消耗?

    • 11 个回答
  • Marko Smith

    从 Microsoft Stream 下载视频

    • 4 个回答
  • Marko Smith

    Google Chrome DevTools 无法解析 SourceMap:chrome-extension

    • 6 个回答
  • Marko Smith

    Windows 照片查看器因为内存不足而无法运行?

    • 5 个回答
  • Marko Smith

    支持结束后如何激活 WindowsXP?

    • 6 个回答
  • Marko Smith

    远程桌面间歇性冻结

    • 7 个回答
  • Marko Smith

    子网掩码 /32 是什么意思?

    • 6 个回答
  • Marko Smith

    鼠标指针在 Windows 中按下的箭头键上移动?

    • 1 个回答
  • Marko Smith

    VirtualBox 无法以 VERR_NEM_VM_CREATE_FAILED 启动

    • 8 个回答
  • Marko Smith

    应用程序不会出现在 MacBook 的摄像头和麦克风隐私设置中

    • 5 个回答
  • Martin Hope
    Vickel Firefox 不再允许粘贴到 WhatsApp 网页中? 2023-08-18 05:04:35 +0800 CST
  • Martin Hope
    Saaru Lindestøkke 为什么使用 Python 的 tar 库时 tar.xz 文件比 macOS tar 小 15 倍? 2021-03-14 09:37:48 +0800 CST
  • Martin Hope
    CiaranWelsh 如何减少“vmmem”进程的消耗? 2020-06-10 02:06:58 +0800 CST
  • Martin Hope
    Jim Windows 10 搜索未加载,显示空白窗口 2020-02-06 03:28:26 +0800 CST
  • Martin Hope
    andre_ss6 远程桌面间歇性冻结 2019-09-11 12:56:40 +0800 CST
  • Martin Hope
    Riley Carney 为什么在 URL 后面加一个点会删除登录信息? 2019-08-06 10:59:24 +0800 CST
  • Martin Hope
    zdimension 鼠标指针在 Windows 中按下的箭头键上移动? 2019-08-04 06:39:57 +0800 CST
  • Martin Hope
    jonsca 我所有的 Firefox 附加组件突然被禁用了,我该如何重新启用它们? 2019-05-04 17:58:52 +0800 CST
  • Martin Hope
    MCK 是否可以使用文本创建二维码? 2019-04-02 06:32:14 +0800 CST
  • Martin Hope
    SoniEx2 更改 git init 默认分支名称 2019-04-01 06:16:56 +0800 CST

热门标签

windows-10 linux windows microsoft-excel networking ubuntu worksheet-function bash command-line hard-drive

Explore

  • 主页
  • 问题
    • 最新
    • 热门
  • 标签
  • 帮助

Footer

AskOverflow.Dev

关于我们

  • 关于我们
  • 联系我们

Legal Stuff

  • Privacy Policy

Language

  • Pt
  • Server
  • Unix

© 2023 AskOverflow.DEV All Rights Reserve