整理 |?王子彧
出品 | CSDN(ID:CSDNnews)
据报道,4 月 3 日,在谷歌内部专门从事 IT 迁移的 Alphabet Cloud 团队支持下,谷歌芯片设计团队已将其 IT 工作负载迁移到了谷歌云平台。
其实,迁移到云端并非首次。
此前,谷歌在许多领域都将其部分或全部工作负载迁移到云端,如 DeepMind、Vertex AI、YouTube 和 Waze。此举使得谷歌芯片设计团队能够通过云计算的可伸缩性、灵活性和成本效益受益。
诞生于计算机机架上
芯片设计团队诞生于数据中心的一台计算机机架上,随着工作负载越来越复杂,其规模也显著扩大,迅速成长为数十个机架和数百台服务器。随着项目增多,挑战也随之增加,每个新计划都需要新的工程师和基础设施。当团队优先考虑招聘工程师来管理和优化遗留机器时,却忽视了重点:增长和创新。
其实在完全迁移到谷歌云之前,该团队采用了一种使用谷歌内部软件设计环境的混合解决方案,并将一些电子设计自动化 (EDA) 工作负载发送到云端。虽然该方法在短期有效,但这种混合方法在转移工作负载进行分析时存在明显的延迟。同时运行两个桌面(一个用于其设计环境,一个用于其在谷歌云中的结果)的额外负担引发了更多思考。
基于此,芯片设计团队与 Alphabet Cloud 团队合作,全面迁移到谷歌云。
移入云端有何优势?
迁移到谷歌云带来了巨大的商业利益。
据该公司称,将工作负载迁移到云端使得新计算基础设施的交付周期从六个月缩短到了几天,运营成本也随之降低。因此,团队可以更快地创新,因为在数据中心维护上花费的时间更少。
不仅如此,该团队还利用谷歌云的 AI 和 ML 功能来设计更高效的芯片。他们利用谷歌云中现成的各种 ML 算法来高效地导航大型搜索空间,并在芯片设计的各个阶段应用独特的优化。这缩短了芯片设计流程,缩短了上市时间,扩大了 ML 加速器的产品领域,并提高了效率。
该公司还表示:“自从迁移到谷歌云以来,该团队在过去一年里将每日作业提交量增加了 170%,同时保持了平稳的调度延迟。跨多个谷歌云区域的 250+ GKE 集群支持工作负载,还调解了对在谷歌云上运行作业所需的 EDA 工具许可证的访问。
芯片设计的未来
去年,谷歌在芯片市场迈出了重要的一步。2022 年 10 月,谷歌联合英特尔发布了 E2000 芯片,并为 YouTube 开发了 Argos 视频编码半导体。在 2023 年 2 月,谷歌宣布为其云服务准备了两款 Arm 处理器。
即使如此,谷歌公司最大的半导体成功仍是其用于 AI 工作负载的 TPU 芯片系列。