我尝试立即使用以下链接下载所有数据文件(在 .txt 文件中)wget
。
https://svn.sdss.org/public/data/eboss/DR16cosmo/tags/v1_0_0/likelihoods/
无论我尝试什么都没有成功。它只下载index.html
. 我正在使用 ubuntu 20.04。有趣的是,如果我尝试wget
一个.txt
文件,它就可以工作。一次下载所有文件有什么帮助吗?
我尝试立即使用以下链接下载所有数据文件(在 .txt 文件中)wget
。
https://svn.sdss.org/public/data/eboss/DR16cosmo/tags/v1_0_0/likelihoods/
无论我尝试什么都没有成功。它只下载index.html
. 我正在使用 ubuntu 20.04。有趣的是,如果我尝试wget
一个.txt
文件,它就可以工作。一次下载所有文件有什么帮助吗?
我认为这是我的发行版的问题。每次下载(wget、chrome 或除 uGet 之外的任何内容)都会慢慢降低其速度。我不知道该怎么办,我需要安装一个 snap 包,它在 50% 左右停止。
另外,我不认为这是我的网络,因为在 Windows 和我的带有 Termux 的 Android 设备上一切正常。
我不知道发生了什么,但我准备提供更多信息。
我是 shell 脚本的新手。
我正在尝试以某种方式 cron 一项工作,该工作将获得一个 url 一次以触发任务,并在每 2 分钟后获取另一个 url 以保持任务有效。
到目前为止,我已经设法让第一个 url 正常工作,问题在于第二个 url wget 每 2 分钟重复 1 小时。
我已经尝试在 .sh 脚本中包含 cron,因为我在其他地方看到了建议,比如
*/2 * * * * wget $url
但终端只是将它抛出一个错误“没有这样的文件或目录”。
这样做的最佳方法是什么?
我正在使用 wget 下载一些页面,如果它已经下载,我不希望它下载相同的页面。我使用以下命令:
wget --no-clobber --input text04.txt --directory-prefix =/path/file
** text04.txt 文件每天都有新链接,可能与前几天相同
下载页面时,它们没有扩展名(在 .html 的情况下)。这不会让文件正常打开,但是如果我在 wget 下载后再次执行它时添加扩展名,“--no-clobber”命令是无用的,因为 wget 会考虑使用新文件添加 .html。
您想添加扩展名 (.html) 并且在重新执行 wget 时不要多次下载同一个文件?
我想在 Ubuntu 中使用 wget 递归地抓取一个网站,并在下载 300 个页面后停止它。我只保存页面的html文件。目前,这是我正在使用的命令:
wget -r --mirror -p --convert-links -P ./LOCAL-DIR WEBSITE-URL --follow-tags=a
我希望代码以某种方式计算 LOCAL-DIR 中的 html 文件,如果计数器显示 300,则停止爬行。有没有办法做到这一点?
我正在编写一个 bash 脚本来自动化我的下载过程。在一个部分中,它给出了一个错误:
意外标记 `newURL=$(echo $URL | sed 's/&:/$index/')' 附近的语法错误
那段代码在这里:
# Downloading the pdf's.
for index in {$startedNumber..$endedNumber} do
newURL=$(echo $URL | sed 's/&:/$index/')
wget $newURL
done
本节处理类似“ http://xxxx.com/xxx/yyy/zzz&:.pdf ”的 URL 并找到“&:”部分。当它发现时,它会将其更改为 $index。这样我就可以下载这些行: http://xxxx.com/xxx/yyy/zzz1.pdf http://xxxx.com/xxx/yyy/zzz2.pdf http://xxxx.com/xxx/yyy/ zzz3.pdf http://xxxx.com/xxx/yyy/zzz4.pdf(......一直持续到de $endedNumber)
我应该怎么做才能解决这个问题?
我正在尝试为驻留在我的业务 OneDrive 帐户中的客户端下载软件。通过 OneDrive 的网络界面,我可以:
这给了我一个这样的链接:
https://company-my.sharepoint.com/:u:/g/personal/path/lKuaRC_jkBwW9IJo4rOmN8tZju8mePVw?e=lRErX4
当我浏览到该链接时,我被重定向到一个下载页面,在那里我看到一个“下载”按钮,所以我点击下载,打开下载中心并选择“复制下载链接”,这样我就有了直接下载链接。当我将该链接复制到新的私人窗口时,我可以选择直接下载文件。
当我将该链接与 curl 或 wget 一起使用时,我仍然得到 403:FORBIDDEN
例如,这是我使用的命令:
wget https://company-my.sharepoint.com/personal/path/to/the/file.aspx?SourceUrl=%2Fpersonal%2Fme%5Fcompany%5Fcountry%2FDocuments%2Fpath%2FSoftware%2FDownloadPackageLocationLinuxSP16%2Etar
和输出:
Resolving company-my.sharepoint.com (company-my.sharepoint.com)... aa.bbb.cc.d
Connecting to company-my.sharepoint.com (company-my.sharepoint.com)|aa.bbb.cc.d|:443... connected.
HTTP request sent, awaiting response... 403 Forbidden
2020-01-24 14:46:48 ERROR 403: Forbidden.
我正在尝试从该网站下载整个目录:https ://data.geobasis-bb.de/geobasis/daten/dgm/xyz/
我尝试的是:
wget --show-progress -A 'dgm_*.zip' https://data.geobasis-bb.de/geobasis/daten/dgm/xyz/ -P /run/media/usr1/exthdd/dgm
据我了解,它应该做的是下载所有符合名称 schmea dgm_ .zip* 的文件。但是它只返回:
--2020-01-13 14:50:11-- https://data.geobasis-bb.de/geobasis/daten/dgm/xyz/
CA-Zertifikat »/etc/ssl/certs/ca-certificates.crt« wurde geladen
Auflösen des Hostnamens data.geobasis-bb.de (data.geobasis-bb.de)… 194.99.76.18, 194.76.232.112
Verbindungsaufbau zu data.geobasis-bb.de (data.geobasis-bb.de)|194.99.76.18|:443 … verbunden.
HTTP-Anforderung gesendet, auf Antwort wird gewartet … 200 OK
Länge: nicht spezifiziert [text/html]
Wird in »/run/media/lgoldmann/lg_backup_diss/dgm/index.html.tmp.2« gespeichert.
index.html.tmp.2 [ <=> ] 2,65M 4,69MB/s in 0,6s
2020-01-13 14:50:15 (4,69 MB/s) - »/run/media/lgoldmann/lg_backup_diss/dgm/index.html.tmp.2« gespeichert [2778920]
该网站还为 curl 提供了一个预先输入的命令,它工作得很好,但我试图找出我的 wget 命令出了什么问题。