作者|ZeR0 编辑|漠影
智东西3月13日报道,昨日,由中国人民大学高瓴人工智能学院主办的AIGC论坛在北京举行,本次会议以“AIGC:从不存在到存在”为议题,探讨对话生成模型、多媒体内容生成等人工智能(AI)前沿技术的发展趋势。
在对话与语言生成模型专场,哈尔滨工业大学计算机学院教授车万翔、中国科学院自动化研究所研究员张家俊、中国人民大学高瓴人工智能学院长聘副教授严睿、新浪微博资深算法专家张俊林分别作报告。
这场学术盛会干货满满,不仅系统性地回顾了自然语言处理(NLP)的五个发展阶段,对大型语言模型研究的三个主要技术路径进行解读,并拆解了ChatGPT的四项关键技术,还就大型语言模型研究重心的变迁与未来趋势进行探讨。
一、NLP五级进阶路:从基于规则到遵循人的价值观
新浪微博资深算法专家张俊林认为,要想探寻大型语言模型未来怎么走,需要先回顾此前是怎么一路变迁的。他将自然语言处理发展到大型语言模型的历程分为五个阶段:规则、统计机器学习、深度学习、预训练、大型语言模型。
机器翻译是NLP中难度最高、综合性最强的任务。因此张俊林以机器翻译任务为例来对比不同阶段的特点以及技术栈、数据的变化,以此展示NLP如何一步步演进。
规则阶段大致从1956年到1992年,基于规则的机器翻译系统是在内部把各种功能的模块串到一起,由人先从数据中获取知识,归纳出规则,写出来教给机器,然后机器来执行这套规则,从而完成特定任务。
统计机器学习阶段大致从1993年到2012年,机器翻译系统可拆成语言模型和翻译模型,这里的语言模型与现在的GPT-3/3.5的技术手段一模一样。该阶段相比上一阶段突变性较高,由人转述知识变成机器自动从数据中学习知识,主流技术包括SVM、HMM、MaxEnt、CRF、LM等,当时人工标注数据量在百万级左右。
深度学习阶段大致从2013-2018年,相对上一阶段突变性较低,从离散匹配发展到embedding连续匹配,模型变得更大。该阶段典型技术栈包括Encoder-Decoder、LSTM、Attention、Embedding等,标注数据量提升到千万级。
预训练阶段是从2018年到2022年,相比之前的最大变化是加入自监督学习,张俊林认为这是NLP领域最杰出的贡献,将可利用数据从标注数据拓展到了非标注数据。该阶段系统可分为预训练和微调两个阶段,将预训练数据量扩大3到5倍,典型技术栈包括Encoder-Decoder、Transformer、Attention等。