谷歌首次公布AI超级计算机技术细节 希望摆脱英伟达芯片依赖

谷歌研究人员当地时间4月4日在线发表一篇论文,首次公布了用于训练人工智能模型的超级计算机的技术细节,并宣称该系统比英伟达的超算系统更快且功耗更低。

谷歌新发表的这篇题为《TPU v4:用于机器学习的光学可重构超级计算机,硬件支持嵌入》的文章介绍了谷歌自己设计的定制TPU芯片。谷歌目前90%以上的人工智能训练工作都使用这些芯片。

谷歌称已经将4000多个TPU芯片连接成一台超级计算机,这些芯片通过协同来训练模型。目前各家科技公司都在竞争AI超算系统,以支撑起人工智能大模型的算力。谷歌的AI聊天机器人Bard正在奋力追赶OpenAI的ChatGPT,这意味着大量的数据已经无法存储在单个芯片上。

谷歌表示,其AI超级计算机可以轻松地动态配置芯片之间的连接,有助于提升超级计算机的性能。“电路切换将能更轻松地绕过故障组件。”谷歌研究员Norm Jouppi和谷歌杰出工程师David Patterson写道,“这种灵活性甚至允许我们改变超级计算机互连的拓扑结构以加速机器学习模型。”

谷歌在论文中表示,对于同等大小的系统,其TPU芯片比基于英伟达A100芯片的系统快1.7倍,能效高1.9倍。不过谷歌没有将其第四代TPU芯片与英伟达目前最新版的旗舰人工智能GPU芯片H100进行比较,H100拥有800亿个晶体管,并采用更新的N4(4纳米)芯片制造工艺。

谷歌还暗示,该公司正在开发下一代的TPU,将与H100竞争,但没有提供任何细节。

而英伟达也在试图通过使用AI来改进芯片设计,从而开发性能更强的GPU芯片。上周,英伟达在一篇论文中展示了这种新的被称为的AutoDMP的芯片“宏布局”技术,通过AI来优化晶体管的布局。

根据此前市场分析数据,在AI大模型方面,英伟达的A100占据了约95%的市场份额。针对谷歌是否已经全面转向使用自研芯片来训练人工智能模型,英伟达未予评论。不过一位英伟达方面技术人士告诉第一财经记者:“谷歌同时使用英伟达的芯片和谷歌自己的芯片,很多时候竞争与合作是并存的。”

虽然谷歌现在才公布有关其超级计算机的详细信息,但自2020年以来,谷歌一直在公司内部位于俄克拉荷马州梅斯县的数据中心接入超算系统。 谷歌表示,AI图像生成公司Midjourney也使用该系统训练其模型。

“谷歌一直都在尝试摆脱英伟达芯片的统治,但是这并没有说起来那么容易。”Gartner芯片分析师盛陵海对第一财经记者表示,“英伟达也是做了几十年才能够坐稳现在的行业地位,谷歌的TPU目前还是自用为主。”

(责任编辑:AK007)