随着以ChatGPT为代表的生成式AI兴起,其背后以大模型为基础的人工智能成为业界投入的方向。
所谓“大模型”,通常是在无标注的大数据集上,采用自监督学习的方法进行训练。之后在其他场景的应用中,开发者只需要对模型进行微调,或采用少量数据进行二次训练,就可以满足新应用场景的需要。
据腾讯研究院,当前的人工智能大多是针对特定的场景应用进行训练,生成的模型难以迁移到其他应用,属于“小模型”的范畴。整个过程不仅需要大量的手工调参,还需要给机器喂养海量的标注数据,这拉低了人工智能的研发效率,且成本较高。
相比之下,大模型的改进可以使所有的下游小模型受益,大幅提升人工智能的使用场景和研发效率。
同时,在大模型的框架下,ChatGPT所使用的GPT模型,每一代参数量均高速扩张,预训练的数据量需求和成本亦快速提升。
国盛证券计算机分析师刘高畅、杨然在发表于2月12日的报告《Chatgpt 需要多少算力》中估算,GPT-3训练一次的成本约为140万美元,对于一些更大的LLM模型,训练成本介于200万美元至1200万美元之间。
这一成本于全球科技大企业而言并不便宜,但尚在可接受范围内。
初始投入近十亿美元,单日电费数万美元
国盛证券估算,今年1月平均每天约有1300万独立访客使用ChatGPT,对应芯片需求为3万多片英伟达A100GPU,初始投入成本约为8亿美元,每日电费在5万美元左右。
1)计算假设:
英伟达A100:
根据OneFlow报道,目前,NVIDIA A100是AWS最具成本效益的GPU选择。
英伟达DGXA100服务器:
单机搭载8片A100GPU,AI算力性能约为5PetaFLOP/s,单机最大功率约为6.5kw,售价约为19.9万美元/台。
标准机柜:
19英寸、42U。单个DGXA100服务器尺寸约为6U,则标准机柜可放下约7个DGXA100服务器。
则,单个标准机柜的成本为140万美元、56个A100GPU、算力性能为35PetaFLOP/s、最大功率45.5kw。
2)芯片需求量:
每日咨询量:
根据Similarweb数据,截至2023年1月底,chat.openai.com网站(即ChatGPT官网)在2023/1/27-2023/2/3这一周吸引的每日访客数量高达2500万。