basic-concepts.md

May 26, 2022 · View on GitHub

Remote direct memory access (RDMA) is a direct memory acess from the memory of one computer into that of another without involving either one's operating system(绕过了操作系统，实现零拷贝). 提供高吞吐、低延迟的网络，对大规模并行计算机集群很有用

由于 RDMA 是个新的通用网络协议，底层链路层就不一样，不像以太网是共享介质，所以最佳方案是用新的网卡和交换机(IB and IB Switch)。IB的厂商 Mellanox 被 NV 收购了。IB

可以看到传统 TCP/IP 协议，需要经过 user space -> kernel -> nic，中间需要几次拷贝，主要依赖 cpu 处理，但是 CPU 发展跟不上网络带宽的提速要求。

RDMA 是网卡直接可以绕过 kenrel 来进行传输，不需要拷贝，即直接从用户空间进行发送，不需要 CPU 参与。

所以 RDMA 用的不是 TCP/IP 这一套网络栈

RDMA 实现有三种：

InfiniBand(IB) is a point-to-point interconnect. 它需要 IB 网卡和 IB 交换机
Internet Wide Area RDMA Protocol(iWARP) : 以太网交换机就行
RDMA over Converged Ethernet(RoCE) :以太网交换机就行

GPU Direct RDMA

而在 GPU 机器上的 RDMA，可以利用 GPU Direct 技术，实现从一台主机的GPU memory 到另一台主机 GPU memory 的传输。提供了 GPU 显存直接到/从 NV 网卡设备之间的直接 P2P 数据传输路径。这样能显著降低 GPU到GPU的通信延迟，完全不需要CPU(completely offloads the CPU)。GPU Direct 使用 NV 网卡的 PeerDirect RDMA 和 PeerDirect ASYNC 能力

GPU Direct RDMA (GDR) 好处：