AskOverflow.Dev

AskOverflow.Dev Logo AskOverflow.Dev Logo

AskOverflow.Dev Navigation

  • 主页
  • 系统&网络
  • Ubuntu
  • Unix
  • DBA
  • Computer
  • Coding
  • LangChain

Mobile menu

Close
  • 主页
  • 系统&网络
    • 最新
    • 热门
    • 标签
  • Ubuntu
    • 最新
    • 热门
    • 标签
  • Unix
    • 最新
    • 标签
  • DBA
    • 最新
    • 标签
  • Computer
    • 最新
    • 标签
  • Coding
    • 最新
    • 标签
主页 / user-29907806

Subject303's questions

Martin Hope
Subject303
Asked: 2025-04-29 12:36:03 +0800 CST

MPI 非阻塞集体写入 iwrite_all 与结合文件同步的“非阻塞”非集体 iwrite 之间有什么区别?

  • 5

我正在使用 MPI 库为大规模 CFD 代码设置 IO,并且随着问题规模的扩大,文件 IO 开始占用计算时间。

据我所知,现代背景下的“完成”的事情是大量利用集体 IO 操作,(ARCHER 上的并行 IO 性能- 2015 年白皮书)。

我的问题是,似乎有三种调用集体写入的方法:

  • MPI_File_write_all,阻塞

  • MPI_File_iwrite_all,非阻塞

并且有些推测:

  • MPI_File_iwrite然后调用MPI_File_sync,先非阻塞然后阻塞?

    我之所以说是推测,是因为前一个调用显然是非集体的,而后者(据我所知,后者实际上是将数据推送到存储)是集体的。

我的问题是,多个MPI_File_iwrites 后跟 a是否MPI_File_sync等同于一个MPI_File_write_all,因为文件同步使得非集体写入有效地变成了集体写入?编辑 - 为了清楚起见,我知道 sync 是一个集体例程,我问的是调用 sync 时发生的 IO 是否类似于 write_all 的集体 IO。

后续问题:MPI_File_iwrite_all调用是否需要MPI_File_sync调用,如果确实需要,那么集体非阻塞写入的目的是什么,如果它只是变成了阻塞?

我在这里非常关注阻塞与非阻塞,因为我试图从我的代码中完全删除所有同步以提高 CPU 利用率(即,只有当进程缺少来自邻居的所需信息时才会等待,而不是等待所有进程同步)但显然这在输出时会出现一些问题。

parallel-processing
  • 2 个回答
  • 38 Views
Martin Hope
Subject303
Asked: 2025-03-07 01:02:55 +0800 CST

6MPI waitall 错误“数组元素 0 中提供的请求无效 (kind=0)”

  • 5

我正在尝试将并行化实现到我的博士学位论文的 flowsolver 代码中,我继承了一个在预定义子域之间发送数据的子程序。该子程序通过 MPI_Isend 命令发送数据,并使用 MPI_Irecv 命令接收数据,然后调用 waitall。

(有问题的代码如下:)

        ! -----------------------------------------------------------
        ! Definition of instant send/receive passings with barrier at the end
        ! -----------------------------------------------------------

        spos=1                          ! Position of the first element to send within send array
        do i=1,isize                    ! loop over the number of exchanging segments
            if (nsendseg(i).ne.0) then  ! choose only domains with something to send
                call MPI_ISend(send(spos),nsendseg(i),MPI_REAL8,i-1,1,MPI_COMM_WORLD,reqs(i),ierr)
                spos=spos+nsendseg(i)
            end if
        enddo
    
        rpos=1
        do i=1,isize
            if (nrecvseg(i).ne.0) then
                call MPI_IRecv(recv(rpos),nrecvseg(i),MPI_REAL8,i-1,MPI_ANY_TAG,MPI_COMM_WORLD,reqs(i+sum(nsendseg)),ierr)
                rpos=rpos+nrecvseg(i)
            end if
        end do
        
        if (irank .eq. 0) print *, reqs
        
        call MPI_Waitall(sum(nsendseg)+sum(nrecvseg),reqs,MPI_STATUSES_IGNORE,ierr)

编辑澄清 sum(nsendseg)+sum(nrecvseg):我“相信”(我从一位前博士生那里继承了这段代码,而他自己又从另一位博士生那里继承了这段代码,所以有一些中国传言)nsendseg 代表段(核心)要发送的节点数和发送位置。例如,在 10 个核心上运行时,它们是 10 个整数的数组,表示跨核心的子域之间的共享节点,例如,如果段 3 与段 1 共享 12 个节点,与段 7 共享 3 个节点,而与其他任何段共享 0 个节点,则 nsendseg 为 (12,0,0,0,0,0,3,0,0,0)。任何段接收和发送的节点数都不同,因为许多段可以连接到一个段。这里的想法是每个核心都会遍历所有其他核心的列表,并仅从每个核心发送和接收相关数据。

此代码片段中止,并在部分或全部节点上复制下面的错误。

Abort(336210451) on node 13 (rank 13 in comm 0): Fatal error in PMPI_Waitall: Request pending due to failure, error stack:
PMPI_Waitall(352): MPI_Waitall(count=28734, req_array=0x18ac060, status_array=0x1) failed
PMPI_Waitall(328): The supplied request in array element 2 was invalid (kind=0)

我目前认为这里的错误在于 reqs 数组没有正确传递给它的通信句柄。下面的文本块是 reqs 数组的一个示例,它“感觉”像是 isend 或 irecv 子程序试图放入一个奇怪的数据类型(reqs 是一个默认整数数组)。

           0 -1409286132           0           0 -1409286133 -1409286135
 -1409286134           0           0           0           0           0
           0           0           0           0           0           0
           0           0           0           0           0           0
           0           0           0           0           0           0
           0           0           0           0           0           0
           0           0           0           0           0           0
           0           0           0           0           0           0
           0           0           0           0           0           0
           0           0           0           0           0           0
           0           0           0           0           0 -1409286131
           0           0 -1409286130 -1409286129 -1409286128           0
           0           0           0           0           0           0
           0           0           0           0           0           0
           0           0           0           0           0           0
           0           0           0           0           0           0
           0           0           0           0           0           0
           0           0           0           0           0           0
           0           0           0           0           0           0
           0           0           0           0           0           0
           0           0           0           0           0           0
           0           0

我知道这有点像是在瞎猜,因为我基本上是在要求随机的互联网用户猜测一段早已离开的人写的代码的含义。

有人能看到我的错误根源吗,或者告诉我 mpi 通信句柄应该是什么样子,或者任何其他明智的建议,我将不胜感激。<3

fortran
  • 1 个回答
  • 89 Views

Sidebar

Stats

  • 问题 205573
  • 回答 270741
  • 最佳答案 135370
  • 用户 68524
  • 热门
  • 回答
  • Marko Smith

    重新格式化数字,在固定位置插入分隔符

    • 6 个回答
  • Marko Smith

    为什么 C++20 概念会导致循环约束错误,而老式的 SFINAE 不会?

    • 2 个回答
  • Marko Smith

    VScode 自动卸载扩展的问题(Material 主题)

    • 2 个回答
  • Marko Smith

    Vue 3:创建时出错“预期标识符但发现‘导入’”[重复]

    • 1 个回答
  • Marko Smith

    具有指定基础类型但没有枚举器的“枚举类”的用途是什么?

    • 1 个回答
  • Marko Smith

    如何修复未手动导入的模块的 MODULE_NOT_FOUND 错误?

    • 6 个回答
  • Marko Smith

    `(表达式,左值) = 右值` 在 C 或 C++ 中是有效的赋值吗?为什么有些编译器会接受/拒绝它?

    • 3 个回答
  • Marko Smith

    在 C++ 中,一个不执行任何操作的空程序需要 204KB 的堆,但在 C 中则不需要

    • 1 个回答
  • Marko Smith

    PowerBI 目前与 BigQuery 不兼容:Simba 驱动程序与 Windows 更新有关

    • 2 个回答
  • Marko Smith

    AdMob:MobileAds.initialize() - 对于某些设备,“java.lang.Integer 无法转换为 java.lang.String”

    • 1 个回答
  • Martin Hope
    Fantastic Mr Fox msvc std::vector 实现中仅不接受可复制类型 2025-04-23 06:40:49 +0800 CST
  • Martin Hope
    Howard Hinnant 使用 chrono 查找下一个工作日 2025-04-21 08:30:25 +0800 CST
  • Martin Hope
    Fedor 构造函数的成员初始化程序可以包含另一个成员的初始化吗? 2025-04-15 01:01:44 +0800 CST
  • Martin Hope
    Petr Filipský 为什么 C++20 概念会导致循环约束错误,而老式的 SFINAE 不会? 2025-03-23 21:39:40 +0800 CST
  • Martin Hope
    Catskul C++20 是否进行了更改,允许从已知绑定数组“type(&)[N]”转换为未知绑定数组“type(&)[]”? 2025-03-04 06:57:53 +0800 CST
  • Martin Hope
    Stefan Pochmann 为什么 {2,3,10} 和 {x,3,10} (x=2) 的顺序不同? 2025-01-13 23:24:07 +0800 CST
  • Martin Hope
    Chad Feller 在 5.2 版中,bash 条件语句中的 [[ .. ]] 中的分号现在是可选的吗? 2024-10-21 05:50:33 +0800 CST
  • Martin Hope
    Wrench 为什么双破折号 (--) 会导致此 MariaDB 子句评估为 true? 2024-05-05 13:37:20 +0800 CST
  • Martin Hope
    Waket Zheng 为什么 `dict(id=1, **{'id': 2})` 有时会引发 `KeyError: 'id'` 而不是 TypeError? 2024-05-04 14:19:19 +0800 CST
  • Martin Hope
    user924 AdMob:MobileAds.initialize() - 对于某些设备,“java.lang.Integer 无法转换为 java.lang.String” 2024-03-20 03:12:31 +0800 CST

热门标签

python javascript c++ c# java typescript sql reactjs html

Explore

  • 主页
  • 问题
    • 最新
    • 热门
  • 标签
  • 帮助

Footer

AskOverflow.Dev

关于我们

  • 关于我们
  • 联系我们

Legal Stuff

  • Privacy Policy

Language

  • Pt
  • Server
  • Unix

© 2023 AskOverflow.DEV All Rights Reserve