AskOverflow.Dev

AskOverflow.Dev Logo AskOverflow.Dev Logo

AskOverflow.Dev Navigation

  • 主页
  • 系统&网络
  • Ubuntu
  • Unix
  • DBA
  • Computer
  • Coding
  • LangChain

Mobile menu

Close
  • 主页
  • 系统&网络
    • 最新
    • 热门
    • 标签
  • Ubuntu
    • 最新
    • 热门
    • 标签
  • Unix
    • 最新
    • 标签
  • DBA
    • 最新
    • 标签
  • Computer
    • 最新
    • 标签
  • Coding
    • 最新
    • 标签
主页 / unix / 问题 / 759637
Accepted
Matteo
Matteo
Asked: 2023-10-23 19:48:52 +0800 CST2023-10-23 19:48:52 +0800 CST 2023-10-23 19:48:52 +0800 CST

wget — 通过集群上的多个节点下载多个文件

  • 772

您好,我正在尝试一次下载大量文件;准确地说是279。每个都是大 BAM (~90GB)。我正在工作的集群有多个节点,幸运的是我可以一次分配多个实例。

鉴于这种情况,我想知道是否可以使用wget批处理文件(参见下面的示例)将每个下载分配到单独的节点以独立执行。

批处理文件.txt

<https_link_1> -O DNK07.bam
<https_link_2> -O mixe0007.bam
<https_link_3> -O IHW9118.bam
.
.

原则上,这不仅会加快速度,还会防止运行失败,因为此执行的挂机时间为 24 小时,并且不足以在一台计算机上连续下载所有这些文件。

我的 BASH 脚本如下所示:

#!/bin/bash
#
#SBATCH --nodes=279 --ntasks=1 --cpus-per-task=1
#SBATCH --time=24:00:00
#SBATCH --mem=10gb
#
#SBATCH --job-name=download
#SBATCH --output=sgdp.out
##SBATCH --array=[1-279]%279
#
#SBATCH --partition=<partition_name>
#SBATCH --qos=<qos_type>
#
#SBATCH --account=<user_account>

#NAMES=$1
#d=$(sed -n "$SLURM_ARRAY_TASK_ID"p $NAMES)

wget -i sgdp-download-list.txt

正如你所看到的,我正在考虑使用 an array job(不确定是否有效);或者,我考虑分配 279 个节点,希望 SLURM 能够足够聪明地将每个下载发送到一个单独的节点(不确定......)。如果您知道一种有效的方法,欢迎提出任何建议。提前致谢!

bash
  • 3 3 个回答
  • 73 Views

3 个回答

  • Voted
  1. Best Answer
    terdon
    2023-10-23T20:07:01+08:002023-10-23T20:07:01+08:00

    将命令展开为多个wget命令,以便您可以将它们作为列表发送到 SLURM:

    while IFS= read -r url; do 
      printf 'wget "%s"\n' "$url"
    done < sgdp-download-list.txt > wget.sh
    

    或者,如果您sgdp-download-list.txt只是一个开头wget缺少命令的列表(这就是您的示例所建议的),只需使用:wget

    sed 's/^/wget /' sgdp-download-list.txt > wget.sh
    

    然后,将其wget.sh作为作业提交。

    • 0
  2. David G.
    2023-10-23T20:32:22+08:002023-10-23T20:32:22+08:00

    框架挑战

    您说的是 25 TB 的下载量。我想您会发现获取节点是您最不担心的事情。如果它们来自同一远程站点,则远程站点也可能存在 CPU 问题。更重要的是,网络带宽是一个问题。如果您尝试通过一个管道拉取此下载,那么拉动多少个节点实际上并不重要 - 管道将是限制。

    话虽如此,wget 并不是特别占用 CPU 资源。就 CPU 而言,在一个节点上并行运行 10 个程序应该不是问题。

    如果这是一项常规活动,我建议您查看是否可以下载增量。

    选择

    Usenet 有一个老笑话。有人问每天从洛杉矶发送大量数据到旧金山的最佳方式是什么。答案:UPS。网络速度提高了,但音量也提高了。亚马逊牢记这一点:他们可以向您运送一个盒子来将数据加载到其中,然后运回以将其放入他们的云中。

    • 0
  3. Matteo
    2023-12-05T02:36:41+08:002023-12-05T02:36:41+08:00

    嗨@terdon 和@David G.,

    这么晚才回复很抱歉。最后,集群上的技术支持向我推荐了一种使用数据移动器节点的临时方法,通过该方法我可以连续下载直到链接过期。

    然后,我只需重新生成它们并重新开始该过程。这不是总体上最快的过程(大约花了一周),但考虑到下载的大量数据也不算太糟糕!

    • 0

相关问题

  • 通过命令的标准输出以编程方式导出环境变量[重复]

  • 从文本文件传递变量的奇怪问题

  • 虽然行读取保持转义空间?

  • `tee` 和 `bash` 进程替换顺序

  • 运行一个非常慢的脚本直到它成功

Sidebar

Stats

  • 问题 205573
  • 回答 270741
  • 最佳答案 135370
  • 用户 68524
  • 热门
  • 回答
  • Marko Smith

    模块 i915 可能缺少固件 /lib/firmware/i915/*

    • 3 个回答
  • Marko Smith

    无法获取 jessie backports 存储库

    • 4 个回答
  • Marko Smith

    如何将 GPG 私钥和公钥导出到文件

    • 4 个回答
  • Marko Smith

    我们如何运行存储在变量中的命令?

    • 5 个回答
  • Marko Smith

    如何配置 systemd-resolved 和 systemd-networkd 以使用本地 DNS 服务器来解析本地域和远程 DNS 服务器来解析远程域?

    • 3 个回答
  • Marko Smith

    dist-upgrade 后 Kali Linux 中的 apt-get update 错误 [重复]

    • 2 个回答
  • Marko Smith

    如何从 systemctl 服务日志中查看最新的 x 行

    • 5 个回答
  • Marko Smith

    Nano - 跳转到文件末尾

    • 8 个回答
  • Marko Smith

    grub 错误:你需要先加载内核

    • 4 个回答
  • Marko Smith

    如何下载软件包而不是使用 apt-get 命令安装它?

    • 7 个回答
  • Martin Hope
    user12345 无法获取 jessie backports 存储库 2019-03-27 04:39:28 +0800 CST
  • Martin Hope
    Carl 为什么大多数 systemd 示例都包含 WantedBy=multi-user.target? 2019-03-15 11:49:25 +0800 CST
  • Martin Hope
    rocky 如何将 GPG 私钥和公钥导出到文件 2018-11-16 05:36:15 +0800 CST
  • Martin Hope
    Evan Carroll systemctl 状态显示:“状态:降级” 2018-06-03 18:48:17 +0800 CST
  • Martin Hope
    Tim 我们如何运行存储在变量中的命令? 2018-05-21 04:46:29 +0800 CST
  • Martin Hope
    Ankur S 为什么 /dev/null 是一个文件?为什么它的功能不作为一个简单的程序来实现? 2018-04-17 07:28:04 +0800 CST
  • Martin Hope
    user3191334 如何从 systemctl 服务日志中查看最新的 x 行 2018-02-07 00:14:16 +0800 CST
  • Martin Hope
    Marko Pacak Nano - 跳转到文件末尾 2018-02-01 01:53:03 +0800 CST
  • Martin Hope
    Kidburla 为什么真假这么大? 2018-01-26 12:14:47 +0800 CST
  • Martin Hope
    Christos Baziotis 在一个巨大的(70GB)、一行、文本文件中替换字符串 2017-12-30 06:58:33 +0800 CST

热门标签

linux bash debian shell-script text-processing ubuntu centos shell awk ssh

Explore

  • 主页
  • 问题
    • 最新
    • 热门
  • 标签
  • 帮助

Footer

AskOverflow.Dev

关于我们

  • 关于我们
  • 联系我们

Legal Stuff

  • Privacy Policy

Language

  • Pt
  • Server
  • Unix

© 2023 AskOverflow.DEV All Rights Reserve