ChatGPT大模型训练一次最多1200万美元！但也不算太贵

日期：2023-02-14 17:33 来源：互联网

随着以ChatGPT为代表的生成式AI兴起，其背后以大模型为基础的人工智能成为业界投入的方向。

所谓“大模型”，通常是在无标注的大数据集上，采用自监督学习的方法进行训练。之后在其他场景的应用中，开发者只需要对模型进行微调，或采用少量数据进行二次训练，就可以满足新应用场景的需要。

据腾讯研究院，当前的人工智能大多是针对特定的场景应用进行训练，生成的模型难以迁移到其他应用，属于“小模型”的范畴。整个过程不仅需要大量的手工调参，还需要给机器喂养海量的标注数据，这拉低了人工智能的研发效率，且成本较高。

相比之下，大模型的改进可以使所有的下游小模型受益，大幅提升人工智能的使用场景和研发效率。

同时，在大模型的框架下，ChatGPT所使用的GPT模型，每一代参数量均高速扩张，预训练的数据量需求和成本亦快速提升。

国盛证券计算机分析师刘高畅、杨然在发表于2月12日的报告《Chatgpt 需要多少算力》中估算，GPT-3训练一次的成本约为140万美元，对于一些更大的LLM模型，训练成本介于200万美元至1200万美元之间。

这一成本于全球科技大企业而言并不便宜，但尚在可接受范围内。

ChatGPT大模型训练一次最多1200万美元！但也不算太贵

初始投入近十亿美元，单日电费数万美元

国盛证券估算，今年1月平均每天约有1300万独立访客使用ChatGPT，对应芯片需求为3万多片英伟达A100GPU，初始投入成本约为8亿美元，每日电费在5万美元左右。

1)计算假设：

英伟达A100：

根据OneFlow报道，目前，NVIDIA A100是AWS最具成本效益的GPU选择。

英伟达DGXA100服务器：

单机搭载8片A100GPU，AI算力性能约为5PetaFLOP/s，单机最大功率约为6.5kw，售价约为19.9万美元/台。

标准机柜：

19英寸、42U。单个DGXA100服务器尺寸约为6U，则标准机柜可放下约7个DGXA100服务器。

则，单个标准机柜的成本为140万美元、56个A100GPU、算力性能为35PetaFLOP/s、最大功率45.5kw。

ChatGPT大模型训练一次最多1200万美元！但也不算太贵

2）芯片需求量：

每日咨询量：

根据Similarweb数据，截至2023年1月底，chat.openai.com网站（即ChatGPT官网）在2023/1/27-2023/2/3这一周吸引的每日访客数量高达2500万。

（责任编辑：AK007）