ChatGPT成功背后的网络功臣，全栈智能网络技术揭秘

日期：2023-04-17 18:03 来源：互联网

智东西（公众号：zhidxcom）

作者 | ZeR0

编辑 | 漠影

智东西4月17日报道，随着大语言模型研究日渐火热，庞大的参数规模带动计算量一路飙涨，对网络带宽提出更高要求。加速大语言模型训练和推理背后的网络基础设施也日益受到关注。

突破网络通信限制，不仅有助于提高大模型计算性能和效率，也有助于降低能耗和电力成本。近日，NVIDIA网络技术专家崔岩、NVIDIA网络市场总监孟庆与智东西等媒体进行深入交流，分享其全栈智能网络技术如何为大模型提供支撑。

孟庆谈道，在AI快速发展的过程中，后进入市场的参与者如果想要赶超已进入市场的参与者，有两种方式，一是按照已成功的范例来投入资源，二是投入同样的资源但要跑得更快，跑得更快必然需要提高效率，而提高效率就需要DPU。

OpenAI便是采用DPU节约时间成本的一大例证。微软前段时间发布的博客文章明确写道，OpenAI采用的硬件包括NVIDIA BlueField-2 DPU及其智能网卡InfiniBand 200G网络。这个被实践检验过的样本已经被很多公司参考。

一、用于两套高性能网络平台，BlueField-3 DPU今年开始大规模投放

面向全新应用，NVIDIA提供两套高性能网络平台，分别是Quantum-2 InfiniBand网络平台和Spectrum-4以太网网络平台，都是端到端400G高带宽高性能网络架构。BlueField-3 DPU是这两大网络平台里的共有组件，同时用到InfiniBand网络和以太网网络。

在前不久举行的NVIDIA GTC大会上，NVIDIA宣布BlueField-3 DPU全面投产。NVIDIA从今年开始向市场大规模投放BlueField-3 DPU产品。

NVIDIA BlueField-3 DPU会有以下的突破：

1、400G连接：2倍网络带宽、2倍网络管道线（Pipeline）、4倍主机带宽。

2、可编程计算：4倍Arm计算能力、5倍内存带宽、新增数据路径加速器。

3、零信任安全：4倍IPsec加密加速、2倍TLS加密加速、新增MACsec加密加速及平台认证。

4、弹性存储：2倍存储IO性能（IOPs）、2倍存储加密性能、新增NVMe over TCP加速。

现在的数据存储以分布式存储为主。BlueField-3 DPU可以通过虚拟存储设备的方式，让主机侧感知不到它的数据是来自于本地、还是远程，并为主机侧提供弹性存储资源。而且，数据的存储也是加密的，能够满足客户不同形态的存储类型同时保证数据的安全性。

（责任编辑：AK007）