AskOverflow.Dev

AskOverflow.Dev Logo AskOverflow.Dev Logo

AskOverflow.Dev Navigation

  • 主页
  • 系统&网络
  • Ubuntu
  • Unix
  • DBA
  • Computer
  • Coding
  • LangChain

Mobile menu

Close
  • 主页
  • 系统&网络
    • 最新
    • 热门
    • 标签
  • Ubuntu
    • 最新
    • 热门
    • 标签
  • Unix
    • 最新
    • 标签
  • DBA
    • 最新
    • 标签
  • Computer
    • 最新
    • 标签
  • Coding
    • 最新
    • 标签
主页 / coding / 问题 / 79490139
Accepted
Subject303
Subject303
Asked: 2025-03-07 01:02:55 +0800 CST2025-03-07 01:02:55 +0800 CST 2025-03-07 01:02:55 +0800 CST

6MPI waitall 错误“数组元素 0 中提供的请求无效 (kind=0)”

  • 772

我正在尝试将并行化实现到我的博士学位论文的 flowsolver 代码中,我继承了一个在预定义子域之间发送数据的子程序。该子程序通过 MPI_Isend 命令发送数据,并使用 MPI_Irecv 命令接收数据,然后调用 waitall。

(有问题的代码如下:)

        ! -----------------------------------------------------------
        ! Definition of instant send/receive passings with barrier at the end
        ! -----------------------------------------------------------

        spos=1                          ! Position of the first element to send within send array
        do i=1,isize                    ! loop over the number of exchanging segments
            if (nsendseg(i).ne.0) then  ! choose only domains with something to send
                call MPI_ISend(send(spos),nsendseg(i),MPI_REAL8,i-1,1,MPI_COMM_WORLD,reqs(i),ierr)
                spos=spos+nsendseg(i)
            end if
        enddo
    
        rpos=1
        do i=1,isize
            if (nrecvseg(i).ne.0) then
                call MPI_IRecv(recv(rpos),nrecvseg(i),MPI_REAL8,i-1,MPI_ANY_TAG,MPI_COMM_WORLD,reqs(i+sum(nsendseg)),ierr)
                rpos=rpos+nrecvseg(i)
            end if
        end do
        
        if (irank .eq. 0) print *, reqs
        
        call MPI_Waitall(sum(nsendseg)+sum(nrecvseg),reqs,MPI_STATUSES_IGNORE,ierr)

编辑澄清 sum(nsendseg)+sum(nrecvseg):我“相信”(我从一位前博士生那里继承了这段代码,而他自己又从另一位博士生那里继承了这段代码,所以有一些中国传言)nsendseg 代表段(核心)要发送的节点数和发送位置。例如,在 10 个核心上运行时,它们是 10 个整数的数组,表示跨核心的子域之间的共享节点,例如,如果段 3 与段 1 共享 12 个节点,与段 7 共享 3 个节点,而与其他任何段共享 0 个节点,则 nsendseg 为 (12,0,0,0,0,0,3,0,0,0)。任何段接收和发送的节点数都不同,因为许多段可以连接到一个段。这里的想法是每个核心都会遍历所有其他核心的列表,并仅从每个核心发送和接收相关数据。

此代码片段中止,并在部分或全部节点上复制下面的错误。

Abort(336210451) on node 13 (rank 13 in comm 0): Fatal error in PMPI_Waitall: Request pending due to failure, error stack:
PMPI_Waitall(352): MPI_Waitall(count=28734, req_array=0x18ac060, status_array=0x1) failed
PMPI_Waitall(328): The supplied request in array element 2 was invalid (kind=0)

我目前认为这里的错误在于 reqs 数组没有正确传递给它的通信句柄。下面的文本块是 reqs 数组的一个示例,它“感觉”像是 isend 或 irecv 子程序试图放入一个奇怪的数据类型(reqs 是一个默认整数数组)。

           0 -1409286132           0           0 -1409286133 -1409286135
 -1409286134           0           0           0           0           0
           0           0           0           0           0           0
           0           0           0           0           0           0
           0           0           0           0           0           0
           0           0           0           0           0           0
           0           0           0           0           0           0
           0           0           0           0           0           0
           0           0           0           0           0           0
           0           0           0           0           0           0
           0           0           0           0           0 -1409286131
           0           0 -1409286130 -1409286129 -1409286128           0
           0           0           0           0           0           0
           0           0           0           0           0           0
           0           0           0           0           0           0
           0           0           0           0           0           0
           0           0           0           0           0           0
           0           0           0           0           0           0
           0           0           0           0           0           0
           0           0           0           0           0           0
           0           0           0           0           0           0
           0           0

我知道这有点像是在瞎猜,因为我基本上是在要求随机的互联网用户猜测一段早已离开的人写的代码的含义。

有人能看到我的错误根源吗,或者告诉我 mpi 通信句柄应该是什么样子,或者任何其他明智的建议,我将不胜感激。<3

fortran
  • 1 1 个回答
  • 89 Views

1 个回答

  • Voted
  1. Best Answer
    Joachim
    2025-03-07T03:04:39+08:002025-03-07T03:04:39+08:00

    您需要reqs = MPI_REQUEST_NULL在循环之前进行初始化。

    等待空请求是有效的,并且会立即成功。在传递给 waitall 的数组中可以有空请求。请求数量的计算似乎很奇怪。您没有显示 reqs 的大小。对于以下解决方案,它的大小应该是 2*isize:

            integer,dimension(2*isize) :: reqs
    
            ! -----------------------------------------------------------
            ! Definition of instant send/receive passings with barrier at the end
            ! -----------------------------------------------------------
    
            spos=1                          ! Position of the first element to send within send array
            reqs = MPI_REQUEST_NULL
            do i=1,isize                    ! loop over the number of exchanging segments
                if (nsendseg(i).ne.0) then  ! choose only domains with something to send
                    call MPI_ISend(send(spos),nsendseg(i),MPI_REAL8,i-1,1,MPI_COMM_WORLD,reqs(i),ierr)
                    spos=spos+nsendseg(i)
                end if
            enddo
        
            rpos=1
            do i=1,isize
                if (nrecvseg(i).ne.0) then
                    call MPI_IRecv(recv(rpos),nrecvseg(i),MPI_REAL8,i-1,MPI_ANY_TAG,MPI_COMM_WORLD,reqs(i+isize),ierr)
                    rpos=rpos+nrecvseg(i)
                end if
            end do
            
            call MPI_Waitall(2*isize,reqs,MPI_STATUSES_IGNORE,ierr)
    

    请求数组中没有漏洞的解决方案(请求数量的上限仍为 2*isize):

            integer,dimension(2*isize) :: reqs
            integer :: ireq
    
            ! -----------------------------------------------------------
            ! Definition of instant send/receive passings with barrier at the end
            ! -----------------------------------------------------------
    
            spos=1                          ! Position of the first element to send within send array
            ireq=1
            reqs = MPI_REQUEST_NULL
            do i=1,isize                    ! loop over the number of exchanging segments
                if (nsendseg(i).ne.0) then  ! choose only domains with something to send
                    call MPI_ISend(send(spos),nsendseg(i),MPI_REAL8,i-1,1,MPI_COMM_WORLD,reqs(ireq),ierr)
                    spos=spos+nsendseg(i)
                    ireq=ireq+1
                end if
            enddo
        
            rpos=1
            do i=1,isize
                if (nrecvseg(i).ne.0) then
                    call MPI_IRecv(recv(rpos),nrecvseg(i),MPI_REAL8,i-1,MPI_ANY_TAG,MPI_COMM_WORLD,reqs(ireq),ierr)
                    rpos=rpos+nrecvseg(i)
                    ireq=ireq+1
                end if
            end do
            
            call MPI_Waitall(ireq,reqs,MPI_STATUSES_IGNORE,ierr)
    
    • 1

相关问题

  • 使用重载运算符对派生类型对象数组进行元素级操作

  • 即使有 INTENT(IN),也允许在 `SUBROUTINE` 中更改派生类型数据成员。如何保护数据?

  • 在 Fortran 中的类型中存储过程指针

  • Fortran 中的续行后跟空行

Sidebar

Stats

  • 问题 205573
  • 回答 270741
  • 最佳答案 135370
  • 用户 68524
  • 热门
  • 回答
  • Marko Smith

    重新格式化数字,在固定位置插入分隔符

    • 6 个回答
  • Marko Smith

    为什么 C++20 概念会导致循环约束错误,而老式的 SFINAE 不会?

    • 2 个回答
  • Marko Smith

    VScode 自动卸载扩展的问题(Material 主题)

    • 2 个回答
  • Marko Smith

    Vue 3:创建时出错“预期标识符但发现‘导入’”[重复]

    • 1 个回答
  • Marko Smith

    具有指定基础类型但没有枚举器的“枚举类”的用途是什么?

    • 1 个回答
  • Marko Smith

    如何修复未手动导入的模块的 MODULE_NOT_FOUND 错误?

    • 6 个回答
  • Marko Smith

    `(表达式,左值) = 右值` 在 C 或 C++ 中是有效的赋值吗?为什么有些编译器会接受/拒绝它?

    • 3 个回答
  • Marko Smith

    在 C++ 中,一个不执行任何操作的空程序需要 204KB 的堆,但在 C 中则不需要

    • 1 个回答
  • Marko Smith

    PowerBI 目前与 BigQuery 不兼容:Simba 驱动程序与 Windows 更新有关

    • 2 个回答
  • Marko Smith

    AdMob:MobileAds.initialize() - 对于某些设备,“java.lang.Integer 无法转换为 java.lang.String”

    • 1 个回答
  • Martin Hope
    Fantastic Mr Fox msvc std::vector 实现中仅不接受可复制类型 2025-04-23 06:40:49 +0800 CST
  • Martin Hope
    Howard Hinnant 使用 chrono 查找下一个工作日 2025-04-21 08:30:25 +0800 CST
  • Martin Hope
    Fedor 构造函数的成员初始化程序可以包含另一个成员的初始化吗? 2025-04-15 01:01:44 +0800 CST
  • Martin Hope
    Petr Filipský 为什么 C++20 概念会导致循环约束错误,而老式的 SFINAE 不会? 2025-03-23 21:39:40 +0800 CST
  • Martin Hope
    Catskul C++20 是否进行了更改,允许从已知绑定数组“type(&)[N]”转换为未知绑定数组“type(&)[]”? 2025-03-04 06:57:53 +0800 CST
  • Martin Hope
    Stefan Pochmann 为什么 {2,3,10} 和 {x,3,10} (x=2) 的顺序不同? 2025-01-13 23:24:07 +0800 CST
  • Martin Hope
    Chad Feller 在 5.2 版中,bash 条件语句中的 [[ .. ]] 中的分号现在是可选的吗? 2024-10-21 05:50:33 +0800 CST
  • Martin Hope
    Wrench 为什么双破折号 (--) 会导致此 MariaDB 子句评估为 true? 2024-05-05 13:37:20 +0800 CST
  • Martin Hope
    Waket Zheng 为什么 `dict(id=1, **{'id': 2})` 有时会引发 `KeyError: 'id'` 而不是 TypeError? 2024-05-04 14:19:19 +0800 CST
  • Martin Hope
    user924 AdMob:MobileAds.initialize() - 对于某些设备,“java.lang.Integer 无法转换为 java.lang.String” 2024-03-20 03:12:31 +0800 CST

热门标签

python javascript c++ c# java typescript sql reactjs html

Explore

  • 主页
  • 问题
    • 最新
    • 热门
  • 标签
  • 帮助

Footer

AskOverflow.Dev

关于我们

  • 关于我们
  • 联系我们

Legal Stuff

  • Privacy Policy

Language

  • Pt
  • Server
  • Unix

© 2023 AskOverflow.DEV All Rights Reserve