探营腾讯混元大模型

目前,中国大模型领域的竞争,已经进入一个群雄逐鹿的乱战时代。

截止4月上旬,国内已有多家头部企业发布/或预发布了自己的大模型,其中包括了:

1、 百度(NASDAQ:BIDU)的文心一言

2、华为的大模型盘古

3、阿里(NYSE:BABA)的大模型通义千问

4、商汤科技的日日新大模型

5、腾讯(HK:00700)的混元大模型

一时间,“寻找或成为中国的OpenAI”,成为了国内各企业最首要的问题。

虽然科技创新讲究的就是一个“快”字,但“快”也不是一味的。

如何在保证速度的同时,解决好资金、算力、数据、人才,以及更多未知的工程化方法,都是一个颇为考验“内功”的环节。

目前,互联网行业中的一些企业,已经在大模型领域展现出了自己的实力,比如阿里这类领军企业,但同时,还有像腾讯这样实力不容小觑的企业尚未发力。

腾讯作为互联网行业的领军企业之一,拥有强大的技术实力、丰富的数据积累以及AI基础设置,让其在AIGC领域的布局备受关注。

01 万亿大模型

自OpenAI发布Chatgpt以来,大模型领域一个明显的趋势,就是随着算力的发展,模型容量持续提升,模型通用性和泛化能力也更强。

然而,此前国内基于万亿大模型的应用探索极少,在高速网络、训练/推理框架、模型算法和落地应用等方面,也没有全面深入的公开性研究。

在这种情况下,作为头部企业之一的腾讯,自然动了欲作开拓者的野心。

然而,若要问鼎“万亿大模型”这枚王冠,强大的算力则是必不可少的。于是,腾讯设计的一套“先蒸馏后加速”的大模型压缩方案——太极-HCF ToolKit,就应运而生了。

太极平台,包含了从模型蒸馏、压缩量化到模型加速的完整能力,为AI工程师打造从数据预处理、模型训练、模型评估到模型服务的全流程高效开发工具。

由于太极框架封装了很多功能和验证,因此只要配置正确,就不需要再进行额外的测试。这大大加快了开放的进度。

以太极平台的基础,配合强大的底层算力与低成本的高速网络基础设施,腾讯打造了首个可在工业界海量业务场景直接落地,并投入应用的万亿NLP大模型——HunYuan-NLP 1T(以下简称混元)。

(责任编辑:AK007)