AskOverflow.Dev

AskOverflow.Dev Logo AskOverflow.Dev Logo

AskOverflow.Dev Navigation

  • 主页
  • 系统&网络
  • Ubuntu
  • Unix
  • DBA
  • Computer
  • Coding
  • LangChain

Mobile menu

Close
  • 主页
  • 系统&网络
    • 最新
    • 热门
    • 标签
  • Ubuntu
    • 最新
    • 热门
    • 标签
  • Unix
    • 最新
    • 标签
  • DBA
    • 最新
    • 标签
  • Computer
    • 最新
    • 标签
  • Coding
    • 最新
    • 标签
主页 / server / 问题 / 422057
Accepted
user1219721
user1219721
Asked: 2012-08-29 07:30:59 +0800 CST2012-08-29 07:30:59 +0800 CST 2012-08-29 07:30:59 +0800 CST

允许非 root 用户使用 infiniband

  • 772

我在 RHEL 6.3 上运行了 Infiniband

[root@master ~]# ibv_devinfo 
hca_id: mthca0
transport:          InfiniBand (0)
fw_ver:             4.7.927
node_guid:          0017:08ff:ffd0:6f1c
sys_image_guid:         0017:08ff:ffd0:6f1f
vendor_id:          0x08f1
vendor_part_id:         25208
hw_ver:             0xA0
board_id:           VLT0060010001
phys_port_cnt:          2
    port:   1
        state:          PORT_ACTIVE (4)
        max_mtu:        2048 (4)
        active_mtu:     2048 (4)
        sm_lid:         2
        port_lid:       3
        port_lmc:       0x00
        link_layer:     InfiniBand

    port:   2
        state:          PORT_DOWN (1)
        max_mtu:        2048 (4)
        active_mtu:     512 (2)
        sm_lid:         0
        port_lid:       0
        port_lmc:       0x00
        link_layer:     InfiniBand

但它只作为 root 工作。

从非超级用户那里尝试时,我一无所获:

[nicolas@master ~]$ ibv_devices
device                 node GUID
------              ----------------
mthca0              001708ffffd06f1c

那么,如何让普通用户使用 infiniband 呢?

infiniband
  • 4 4 个回答
  • 2238 Views

4 个回答

  • Voted
  1. Best Answer
    user1219721
    2012-08-29T08:03:43+08:002012-08-29T08:03:43+08:00

    好的,这是 RHEL 6.3 版本中的一个错误

    缺少 Udev 规则:

    /etc/udev/rules.d/90-rdma.rules

    KERNEL=="umad*", SYMLINK+="infiniband/%k"
    KERNEL=="issm*", SYMLINK+="infiniband/%k"
    KERNEL=="ucm*", SYMLINK+="infiniband/%k", MODE="0666"
    KERNEL=="uverbs*", SYMLINK+="infiniband/%k", MODE="0666"
    KERNEL=="uat", SYMLINK+="infiniband/%k", MODE="0666"
    KERNEL=="ucma", SYMLINK+="infiniband/%k", MODE="0666"
    KERNEL=="rdma_cm", SYMLINK+="infiniband/%k", MODE="0666"
    

    请参阅https://www.centos.org/modules/newbb/viewtopic.php?topic_id=38586&forum=55

    • 3
  2. Calin Floare
    2013-02-01T02:14:12+08:002013-02-01T02:14:12+08:00

    最好用修复后的版本 rdma-3.3-4 简单地更新包。更多细节在这里: http ://rhn.redhat.com/errata/RHBA-2012-1423.html

    • 1
  3. Florin
    2013-01-31T18:46:38+08:002013-01-31T18:46:38+08:00

    这里有更完整的信息,供希望解决 RH 6.3 Linux 2.6.32-279.9.1.el6.x86_64 #1 SMP Fri Aug 31 09:04:24 EDT 2012 x86_64 x86_64 x86_64 GNU/Linux 上面临的问题的人使用

    **#ibstat**
    CA 'mlx4_0'
            CA type: MT4099
            Number of ports: 2
            Firmware version: 2.10.700
            Hardware version: 0
            Node GUID: 0x0002c90300129780
            System image GUID: 0x0002c901013029781
            Port 1:
                    State: Active
                    Physical state: LinkUp
                    Rate: 56
                    Base lid: 1
                    LMC: 0
                    SM lid: 1
                    Capability mask: 0x0251486a
                    Port GUID: 0x0002c901013029781
                    Link layer: InfiniBand
    

    1.以root身份创建丢失的文件:

    **vi /etc/udev/rules.d/90-rdma.rules**
    
    ------------ cut here ------------
    KERNEL=="umad*", SYMLINK+="infiniband/%k"
    KERNEL=="issm*", SYMLINK+="infiniband/%k"
    KERNEL=="ucm*", SYMLINK+="infiniband/%k", MODE="0666"
    KERNEL=="uverbs*", SYMLINK+="infiniband/%k", MODE="0666"
    KERNEL=="uat", SYMLINK+="infiniband/%k", MODE="0666"
    KERNEL=="ucma", SYMLINK+="infiniband/%k", MODE="0666"
    KERNEL=="rdma_cm", SYMLINK+="infiniband/%k", MODE="0666"
    ------------ cut here ------------
    

    在管理节点上(即头节点、服务节点等)

    2. 通过 ssh 或任何首选方法将此文件复制到集群中的任何计算节点。

    **#ssh compute000 cp /home/90-rdma.rules /etc/udev/rules.d/90-rdma.rules**
    
    **#ssh compute001 cp /home/90-rdma.rules /etc/udev/rules.d/90-rdma.rules**
    
    **#ssh compute002 cp /home/90-rdma.rules /etc/udev/rules.d/90-rdma.rules**
    
    **#ssh compute003 cp /home/90-rdma.rules /etc/udev/rules.d/90-rdma.rules**
    
    **#ssh compute004 cp /home/90-rdma.rules /etc/udev/rules.d/90-rdma.rules**
    

    ETC

    3.验证文件是否在每个计算节点的文件夹中创建/etc/udev/rules.d

    **#ssh compute000 ls /etc/udev/rules.d | grep rdm 
    *#90-rdma.rules ***
    

    4.重启所有计算节点和管理节点。

    注意 :更改后,用户在运行命令时仍会得到此结果

    ibv_devices
    
    [root@master ~]# ibv_devices
        device                 node GUID
        ------              ----------------
        mlx4_0              0002c901013029781
    

    但不要担心,只需运行您喜欢的 mpi 应用程序就可以了。

    b. 问题是无论使用任何 HCA 供应商,都直接连接到操作系统。

    C。这似乎是由于上游对 rdma 包所做的更改(不再有 udev 规则)引起的,内核创建的 infiniband 设备具有错误的权限。CentOS 6.3 和 Scientific Linux 6.3 的用户报告了这个问题

    希望能帮助别人

    • 0
  4. Y00
    2018-12-21T05:35:05+08:002018-12-21T05:35:05+08:00

    我想你会遇到像我一样的情况。

    我运行了 rping 和 ib_write_bw,输出如下

    无法分配 MR

    就像Dotan说的那样

    我怀疑您正在以非 root 用户身份工作,并且可以锁定(即固定)的内存页面数量有限制。增加这个大小应该可以解决问题。

    感谢多坦

    解决方案很简单,正如 Dotan 所说的那样https://www.rdmamojo.com/2014/10/11/working-rdma-redhatcentos-7/

    编辑文件 /etc/security/limits.conf 并添加以下行:

    • 软内存锁无限
    • 硬内存锁无限
    • 0

相关问题

  • InfiniBand 存储

Sidebar

Stats

  • 问题 205573
  • 回答 270741
  • 最佳答案 135370
  • 用户 68524
  • 热门
  • 回答
  • Marko Smith

    新安装后 postgres 的默认超级用户用户名/密码是什么?

    • 5 个回答
  • Marko Smith

    SFTP 使用什么端口?

    • 6 个回答
  • Marko Smith

    命令行列出 Windows Active Directory 组中的用户?

    • 9 个回答
  • Marko Smith

    什么是 Pem 文件,它与其他 OpenSSL 生成的密钥文件格式有何不同?

    • 3 个回答
  • Marko Smith

    如何确定bash变量是否为空?

    • 15 个回答
  • Martin Hope
    Tom Feiner 如何按大小对 du -h 输出进行排序 2009-02-26 05:42:42 +0800 CST
  • Martin Hope
    Noah Goodrich 什么是 Pem 文件,它与其他 OpenSSL 生成的密钥文件格式有何不同? 2009-05-19 18:24:42 +0800 CST
  • Martin Hope
    Brent 如何确定bash变量是否为空? 2009-05-13 09:54:48 +0800 CST
  • Martin Hope
    cletus 您如何找到在 Windows 中打开文件的进程? 2009-05-01 16:47:16 +0800 CST

热门标签

linux nginx windows networking ubuntu domain-name-system amazon-web-services active-directory apache-2.4 ssh

Explore

  • 主页
  • 问题
    • 最新
    • 热门
  • 标签
  • 帮助

Footer

AskOverflow.Dev

关于我们

  • 关于我们
  • 联系我们

Legal Stuff

  • Privacy Policy

Language

  • Pt
  • Server
  • Unix

© 2023 AskOverflow.DEV All Rights Reserve