我有一个文本文件(web.txt),其中包含一长串具有这种模式的 url
http://www.example.com/ab1.htm
http://www.example.com/ab2.htm
http://www.example.com/bc1.htm
http://www.example.com/qw3.htm
.
.
http://www.example.com/xc15.htm
我想获取 URL 列表,然后在 url (ab1,ab2,bc1..xc15) 中提取没有 .htm 的网页最后一个字符串作为变量,然后创建一个具有该名称的新文件夹。然后使用 wget 我想将该网页下载到新创建的文件夹中。
#!/bin/bash
NAMES=`cat web.txt` #urls from web.txt file
for NAME in $NAMES; do
echo "$NAME"
NEWNAME=#string from url
mkdir -p /home/$NEWNAME
wget $NAME
done
我能够从我的 web.txt 文件中获取 URL,但是我遇到了这两个问题
- 如何从url中提取字符串?
- 如何循环并将网页下载到新创建的文件夹?
看来您重读
man bash
的次数不够多。这很简单:恕我直言,一组很好的选项
wget
(阅读man wget
以查看它们是否也对您有好处)是--no-parent --relative --page-requisites --convert-links -nv -t 3 --waitretry=6 --random-wait
,但是 YMMV。