智东西(公众号:zhidxcom)
作者 | ZeR0
编辑 | 漠影
智东西4月17日报道,随着大语言模型研究日渐火热,庞大的参数规模带动计算量一路飙涨,对网络带宽提出更高要求。加速大语言模型训练和推理背后的网络基础设施也日益受到关注。
突破网络通信限制,不仅有助于提高大模型计算性能和效率,也有助于降低能耗和电力成本。近日,NVIDIA网络技术专家崔岩、NVIDIA网络市场总监孟庆与智东西等媒体进行深入交流,分享其全栈智能网络技术如何为大模型提供支撑。
孟庆谈道,在AI快速发展的过程中,后进入市场的参与者如果想要赶超已进入市场的参与者,有两种方式,一是按照已成功的范例来投入资源,二是投入同样的资源但要跑得更快,跑得更快必然需要提高效率,而提高效率就需要DPU。
OpenAI便是采用DPU节约时间成本的一大例证。微软前段时间发布的博客文章明确写道,OpenAI采用的硬件包括NVIDIA BlueField-2 DPU及其智能网卡InfiniBand 200G网络。这个被实践检验过的样本已经被很多公司参考。
一、用于两套高性能网络平台,BlueField-3 DPU今年开始大规模投放
面向全新应用,NVIDIA提供两套高性能网络平台,分别是Quantum-2 InfiniBand网络平台和Spectrum-4以太网网络平台,都是端到端400G高带宽高性能网络架构。BlueField-3 DPU是这两大网络平台里的共有组件,同时用到InfiniBand网络和以太网网络。
在前不久举行的NVIDIA GTC大会上,NVIDIA宣布BlueField-3 DPU全面投产。NVIDIA从今年开始向市场大规模投放BlueField-3 DPU产品。
NVIDIA BlueField-3 DPU会有以下的突破:
1、400G连接:2倍网络带宽、2倍网络管道线(Pipeline)、4倍主机带宽。
2、可编程计算:4倍Arm计算能力、5倍内存带宽、新增数据路径加速器。
3、零信任安全:4倍IPsec加密加速、2倍TLS加密加速、新增MACsec加密加速及平台认证。
4、弹性存储:2倍存储IO性能(IOPs)、2倍存储加密性能、新增NVMe over TCP加速。
现在的数据存储以分布式存储为主。BlueField-3 DPU可以通过虚拟存储设备的方式,让主机侧感知不到它的数据是来自于本地、还是远程,并为主机侧提供弹性存储资源。而且,数据的存储也是加密的,能够满足客户不同形态的存储类型同时保证数据的安全性。