来源:量子位
谷歌硬刚ChatGPT消息一出,科技圈全坐不住了。
就在昨晚,阿里百度网易京东一众公司全宣布要推出类ChatGPT新产品,战况那叫一个激烈。
阿里内测中的达摩院版ChatGPT,也被提前曝光。
竟然连画画技能都具备了?!
ChatGPT类型的对话功能,同样不在话下。先来个NBA话题铺垫:
当被问到“乔丹和科比谁更伟大”时,开始暴露篮球迷身份,连“毋庸置疑”、“奉为神迹”这种话都出来了:
还是个乔丹死忠粉,能对你老婆的观点提出异议(手动狗头)
看起来这个达摩院版ChatGPT,不仅有纯文本任务能力,还融合了多模态任务能力。
这究竟采用了什么样的技术?阿里这次内测中的类ChatGPT产品,能力如何?
基于通义融合升级
据透露,新产品可实现的功能包括知识问答、AI绘画、代码生成、小说续写、文案撰写、写诗作词等。
一言以蔽之,不仅ChatGPT具备的能力它都能实现,而且多了“AI绘画”这项功能。
能取得这样的多任务、跨模态效果,背后本质上离不开阿里通义大模型的能力。
新达摩院版ChatGPT,正是基于通义大模型体系进行融合升级。
据报道,推出的通义大模型底座基于统一学习范式OFA等底层技术打造,具备了能搞定多种任务的“大一统”能力:
不引入新增结构,单一模型即可同时处理图像描述、视觉定位、文生图、视觉蕴含、文档摘要等10余项单模态和跨模态任务。
升级后,更是可以处理超过包括语音和动作在内的30多种跨模态任务。
这里“大一统”技术的关键,在于提出并实现了三个“统一”:
架构统一。使用Transformer(encoder-decoder,编解码器)架构,统一进行预训练和微调,无需在应对不同任务时,增加任何特定的模型层。 模态统一。不管是NLP、CV这种单模态,还是图文等多模态任务,全都采用同一个框架和训练思路。 任务统一。将所有单模态、多模态任务统一表达成序列到序列(Seq2seq)生成的形式,同类任务的输入几乎就是“一个模子里刻出来的”。目前推出的通义大模型,在电商跨模态搜索、AI辅助设计、法律文书学习、医疗文本理解、开放域人机对话等200多个场景中应用落地时,均能达到2%~10%的效果提升。
从阿里的研发来看,他们实际上于2020年左右已经开始布局此类技术研究。
2021年推出“中文版GPT-3”PLUG,参数量270亿,但跟GPT-3一样是“万能写作神器”。
例如这是小说续写的效果: