我遇到了一些关于无头铬浏览器没有正确创建 html 文件的问题。唯一创建的东西/文件是单个{}.html文件
我的 domain.txt 包含:
https://ibm.com/
https://www.linux.org/whats-new/
PS:我使用的是 Ubuntu 18.04 64bit linux
我使用的命令如下:
cat domains.txt | xargs -I {} -P 4 sh -c timeout 25s chromium-browser --headless --no-sandbox --user-agent='Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537. 36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36' --dump-dom https://{} 2> /dev/null > {}.html
这是取自此链接
编码:
这缺少围绕
sh -c
. 通过正确的引用,它还会将代码从 注入sh -c
脚本xargs
,这是一个安全漏洞。管道写得更好
https://ibm.com/.html
...但请注意,如果您在文件中有这些字符串(即写入奇怪命名的子目录中的文件),它仍然会写入称为事物的domains.txt
文件,并且它将尝试获取诸如https://https://ibm.com/
.我认为目的是在文件中只保留实际的域,而不是完整的 URL
domains.txt
,即就个人而言,我宁愿使用更简单的解决方案
curl
。