V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
Distributions
Ubuntu
Fedora
CentOS
中文资源站
网易开源镜像站
ppj
V2EX  ›  Linux

高性能计算: RoCE v2 vs. InfiniBand 网络该怎么选?

  •  
  •   ppj · 2022-09-18 14:26:03 +08:00 · 2774 次点击
    这是一个创建于 802 天前的主题,其中的信息可能已经有所发展或是发生改变。

    RoCE 规范在以太网上实现了 RDMA 功能,ROCE 需要无损网络,RoCE 的主要优势在于它的延迟较低,因此可提高网络利用率;同时它可避开 TCP/IP 并采用硬件卸载,因此 CPU 利用率也较低。

    高性能计算:RoCE v2 vs. InfiniBand 网络该怎么选

    13 条回复    2022-09-19 22:28:24 +08:00
    ea3ba5c0
        1
    ea3ba5c0  
       2022-09-18 16:43:44 +08:00 via Android   ❤️ 2
    泼点冷水,这文章写的太水了。
    都 2022 年了,还怎么选。roce v2 早就占满了各个机房。
    A01514035
        2
    A01514035  
       2022-09-18 19:13:46 +08:00   ❤️ 1
    第一次在 V2 看到了 RDMA 。
    webcape233
        3
    webcape233  
       2022-09-18 19:17:55 +08:00
    hpc 里面基本都是 ib ,但是 ib 太贵了。
    abbottcn
        4
    abbottcn  
       2022-09-18 23:31:04 +08:00
    中文读上去有点怪,
    感觉像机器翻译的 RHEL 技术手册.

    不说十年前, 至少 8 年前, 我们机房的机器, 就在用 IB 了.
    High bandwidth and low latency, 这是关键, 当然还有高并发 I/O.
    应用很简单, 要么是一个任务使用上百个 MPI, 这种任务一般三五天; 要么就是一个用户, 一下发 2000 到 1 万个单 CPU 核心的计算任务, 每一个可能跑十来分钟.

    IB 是标配.

    现在看到好多小伙伴咸鱼搞 56G IB 网卡,
    拿回家在以太网模式玩集群并行计算, 好搞笑.
    ppj
        5
    ppj  
    OP
       2022-09-19 09:39:14 +08:00
    @abbottcn RoCE v2 已经广泛应用,只是目前国内超算 /高算的领导喜欢听人忽悠搞政绩而已。
    abbottcn
        6
    abbottcn  
       2022-09-19 09:50:14 +08:00
    @ppj 简单测试过 VASP.
    E5 2686v4 + 10GbE, 使用 RDMA 之后,
    双节点并行(72 个物理核心), 纯 MPI,
    加速效率 0.8 (理论上, 如果 36 核心需要 2 小时; 那么使用 72 核心应该是 1 小时), 已经算不错了.

    而使用 IB, 多达 8 个节点, 线性效率依旧能保持在 0.85 左右(测试数据来自挪威的一个实验室).

    如果使用更多节点的时候, 比如 3 个节点, 4 个节点, 以太网+RDMA, 效果很差劲.
    主要的问题是 high latency.

    VASP MPI 多核心并行, MPI Rank 之间频繁交换数据, 不过数据包很小.
    所以, 对于这类 MPI 并行, 大规模并行, latency 还是很重要的.

    未测试其他应用, 不敢妄加评论 RoCE 实际效果.
    Defined
        7
    Defined  
       2022-09-19 10:39:12 +08:00
    看钱啊,有钱整套网络设备都换掉,肯定是 IB 好啊,不管从性能还是稳定性考虑。
    spacezip
        8
    spacezip  
       2022-09-19 12:26:30 +08:00
    稳定性 肯定 ib
    前两年看人折腾过 intel opa 各种问题硬着头皮上
    ea3ba5c0
        9
    ea3ba5c0  
       2022-09-19 13:10:33 +08:00
    @abbottcn RoCE v2 最重要的是流控,估计是流控没做好。
    ppj
        10
    ppj  
    OP
       2022-09-19 13:11:22 +08:00
    @abbottcn 分布式并行存储用的什么?小文件并行计算,存储软件选择也是影响 latency 的因素。
    ea3ba5c0
        11
    ea3ba5c0  
       2022-09-19 13:12:17 +08:00
    @Defined 不觉得 IB 好,这种专有设备,机房都要特殊布线,出问题不好排查。
    RoCE v2 走以太网,更好的网络互联。
    abbottcn
        12
    abbottcn  
       2022-09-19 14:27:01 +08:00 via iPhone
    @ppj 我自己的集群,就四个节点,要什么高大上的并行文件系统,分布式存储?
    直接 NVMe RAID0 搞定。整个系统满负荷运行时,可以做到 CPU 99%被用户利用。稍有 iowait 占比。

    之前的浪潮,曙光产品,不晓得他们用啥做存储,有点卡。

    我只是个外行。只晓得怎么让我用过的程序,
    在集群上,跑得更快更稳定。其他不懂。

    我只会用 netdata 分析系统负载压力,其他不会。

    [容易忽略的性能短板] https://b23.tv/EnbjGkw
    lustyone
        13
    lustyone  
       2022-09-19 22:28:24 +08:00 via iPhone
    @ea3ba5c0 2022 年了,ib 可以稳定支撑 60k 节点规模网络稳定运行。至于 roce 如果你是业内人员的话应该知道没有一个集群可以稳定运行超过 1k 个节点,或者堆人力去运维或者损失很多带宽效率。至于国内的 harp 等是另外一个故事不展开。

    不要想当然认为全球的高性能计算专家都在黑钱。
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1209 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 23ms · UTC 23:08 · PVG 07:08 · LAX 15:08 · JFK 18:08
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.