关于【parallel-processing】的问题- 第1页

Subject303

Asked: 2025-04-29 12:36:03 +0800 CST

MPI 非阻塞集体写入 iwrite_all 与结合文件同步的“非阻塞”非集体 iwrite 之间有什么区别？

5

我正在使用 MPI 库为大规模 CFD 代码设置 IO，并且随着问题规模的扩大，文件 IO 开始占用计算时间。

据我所知，现代背景下的“完成”的事情是大量利用集体 IO 操作，（ARCHER 上的并行 IO 性能- 2015 年白皮书）。

我的问题是，似乎有三种调用集体写入的方法：

MPI_File_write_all，阻塞
MPI_File_iwrite_all，非阻塞

并且有些推测：

MPI_File_iwrite然后调用MPI_File_sync，先非阻塞然后阻塞？

我之所以说是推测，是因为前一个调用显然是非集体的，而后者（据我所知，后者实际上是将数据推送到存储）是集体的。

我的问题是，多个MPI_File_iwrites 后跟 a是否MPI_File_sync等同于一个MPI_File_write_all，因为文件同步使得非集体写入有效地变成了集体写入？编辑 - 为了清楚起见，我知道 sync 是一个集体例程，我问的是调用 sync 时发生的 IO 是否类似于 write_all 的集体 IO。

后续问题：MPI_File_iwrite_all调用是否需要MPI_File_sync调用，如果确实需要，那么集体非阻塞写入的目的是什么，如果它只是变成了阻塞？

我在这里非常关注阻塞与非阻塞，因为我试图从我的代码中完全删除所有同步以提高 CPU 利用率（即，只有当进程缺少来自邻居的所需信息时才会等待，而不是等待所有进程同步）但显然这在输出时会出现一些问题。

Mars Love Moon

Asked: 2025-04-21 14:56:19 +0800 CST

如何查看OceanBase中表和索引的并行度？

5

在 OceanBase（MySQL 模式）中，我知道可以使用如下 SQL 命令设置表或索引的并行度：

alter table my_table parallel 4;
alter index my_index parallel 2;

但是，出于合规性和治理的原因，我们需要确保所有表和索引都具有默认程度（即没有明确的并行性）。

在 Oracle 中，我可以从 DBA_TABLES 或 DBA_INDEXES 查询 DEGREE 列来检查这一点。例如：

SELECT table_name, degree FROM dba_tables WHERE owner = 'MY_SCHEMA';

但在 OceanBase 中，虽然这些视图（DBA_TABLES、DBA_INDEXES）确实存在，但 DEGREE 列似乎总是返回空值或默认值，并且不能反映实际设置的内容。

我的问题是：

OceanBase 中是否支持在设置表或索引的并行度值后查询其实际并行度值？

我查看了官方文档和系统视图，但没有找到明确的方法来确认学位设置。

我查阅了官方文档和系统视图，但还没有找到明确的方法来确认度数设置。我期望找到一种方法——无论是通过系统视图、SQL 函数还是任何元数据查询——来确认表或索引是否具有特定的并行度集，类似于在 Oracle 中使用 DBA_TABLES 或 DBA_INDEXES 中的 DEGREE 列来实现。

k_g

Asked: 2024-04-18 00:08:58 +0800 CST

Julia pmap 实际上没有使用多线程？

5

我在跑

julia --threads 4

然后是命令

using Distributed
@time pmap(x->begin println(x); sleep(1); println(x); x end, 1:10);

我得到输出

1
1
2
2
3
3
4
4
5
5
6
6
7
7
8
8
9
9
10
10
 10.766960 seconds (2.50 M allocations: 140.642 MiB, 0.20% gc time, 6.88% compilation time)

这清楚地表明这是串行运行的。为什么代码不能并行运行？

R.Post

Asked: 2023-11-11 02:25:57 +0800 CST

为什么 std::execution::par_unseq 不起作用？

6

以下代码不并行运行的原因可能是什么？

#include <iostream>
#include <execution>
#include <unistd.h>

int main() {
    std::vector<int> parts(10);
    std::iota(parts.begin(), parts.end(), 0);

    std::for_each(std::execution::par_unseq,
                  parts.begin(), parts.end(), [&](int part) {
        usleep(1'000'000);
        std::cout << part << std::endl;
    });

    return 0;
}

这是在AMD上运行的Linux Debian，代码是通过以下命令编译的

g++ -std=c++17 -fopenmp -O2 -o test test.cpp

该代码应在大约 1 秒内输出数字 0..9。现在大约需要 10 秒，因为代码不并行运行。

顺便提一句。usleep() 函数可以用其他计算量大的函数替换，但这并不能改变这种情况。

MPI 非阻塞集体写入 iwrite_all 与结合文件同步的“非阻塞”非集体 iwrite 之间有什么区别？

如何查看OceanBase中表和索引的并行度？

Julia pmap 实际上没有使用多线程？

为什么 std::execution::par_unseq 不起作用？

重新格式化数字，在固定位置插入分隔符

为什么 C++20 概念会导致循环约束错误，而老式的 SFINAE 不会？

VScode 自动卸载扩展的问题（Material 主题）

Vue 3：创建时出错“预期标识符但发现‘导入’”[重复]

具有指定基础类型但没有枚举器的“枚举类”的用途是什么？

如何修复未手动导入的模块的 MODULE_NOT_FOUND 错误？

`(表达式，左值) = 右值` 在 C 或 C++ 中是有效的赋值吗？为什么有些编译器会接受/拒绝它？

在 C++ 中，一个不执行任何操作的空程序需要 204KB 的堆，但在 C 中则不需要

PowerBI 目前与 BigQuery 不兼容：Simba 驱动程序与 Windows 更新有关

AdMob：MobileAds.initialize() - 对于某些设备，“java.lang.Integer 无法转换为 java.lang.String”

问题[parallel-processing](coding)