文 / 书航
1、百度从官宣有「文心一言」这么个东西到发布成品用了一个月多一点,这件事本身并不稀奇。因为文心一言和文心大模型的关系就是 ChatGPT 和 GPT-3 的关系。
百度的大模型已经训练很久了,做个前端应用出来没那么难。相信这一个月的时间里,绝大部分都是用在谈商务合作,找人宣传,内部测试各种刁钻古怪的用例,以及找 bug 上面。
2、百度的工具箱里不只有文心大模型,还有支撑它的底层技术,包括它使用自研芯片来训练。BAT 均宣布了自研芯片用于内部训练,百度对外宣布的「昆仑」已经到第二代,采用 7nm 制程,同时也强调通用性。而第三代会在明年部署。
尽管百度也会将自己的各个模块比如芯片层、框架层和模型层等分别拓展其对外兼容性和开发者生态,但它依然认为,都是自己家的东西协同起来,效果肯定好于一堆通用的方案拼起来的(我们倒是可以将华为的5G技术和OpenRAN阵营,或者x86、ARM阵营和RISC-V阵营之间的比较,作为这个观点的证据)。
GPT-4 已经发布了,但非常值得注意的是 OpenAI 这一次公布的技术细节少之又少,跟以前作为慷慨的服务于全人类的非盈利研究机构的感觉大不一样。这也说明如果某个东西真的是好东西,制作它的人不可能太慷慨。
3、所有人都在注视「中国的 ChatGPT」,放眼全球似乎也只有中国有机会在现在的时间点做出美国公司之外开发的竞品。能做出来有这个东西,跟这东西是不是一样的品质,是两个不同的问题。
复旦做的 MOSS 发布倒是最早,但被骂的很惨。当然作为学术实验项目,口碑不与未来的应用前景关联,所以可能不是最重要的东西。真正要出产品的公司,其实都在猛打预防针,不断降低国内外关注者的心理预期。具体地说,就是先肯定自己现在一定是做不出 ChatGPT 这么好的效果,会出更多问题,会更笨拙。
比如,小冰前阵子说的「小冰链」的说辞是,在全功能但高成本、低效率的大模型中,拆出一部分可以快速商用的做成产品,可能加上一些人工调优,会比当前的小冰模型更胜任聊天机器人等角色。即使不考虑类 GPT 的技术,小冰此前也自主实现了其中一些用例,比如文章、图片、视频的生成,以及尽可能的多轮对话。这些已经做出来的东西,其实也没必要扔掉,反正外面看来都是在同一个黑箱里面。
4、那么,百度可能会怎样说呢?如果我们浏览百度的工具箱,可以发现除了芯片和全技术栈之外,还有一个东西很可能被忽略:知识图谱。
目前我们知道的百度知识图谱最新数据来自 2020 年,具体表述是「百度打造了世界上最大的多源异构知识图谱,拥有超过 50 亿实体和 5500 亿事实,并在不断演进和更新,每天的调用次数超过 400 亿次」。