这篇论文由8名发量茂密的AI科学家联合撰写,他们在论文里创造性地提出了一种“注意力机制”,并基于此开发一个名叫Transformer(变形金刚)的深度学习模型——一位作者认为叫“注意力模型”过于无聊,就用玩梗的心态起了这个名字。
8名作者大都离开Google,选择创业
从Transformer模型被提出的那一刻起,人工智能的历史进程被骤然加速了。研究者发现Transformer在自然语言处理(NLP)领域的效率奇高,相比传统RNN(循环神经网络)优势明显,于是很快便成为NLP研究者们推崇的首选模型。
Google的重大进展,却让OpenAI的工程师们彻夜难眠。OpenAI当年成立的初衷,就是打破Google在人工智能领域的垄断,而面对这只横空出世的“变形金刚”,他们做了一个重大决定:干脆就用Transformer这件敌人的武器,来跟Google正面硬刚。
2018年6月,在“变形金刚”诞生一周年之际,OpenAI推出了基于Transformer模型的GPT-1,其中GPT里面的“T”,就是Transformer的首字母。此后,OpenAI沿着这条路线把GPT-1持续迭代到本周刚发布的GPT-4,并让ChatGPT火遍了全球。
Transformer家族谱系,量子学派
标杆旗帜一出,全球科技巨头就蜂拥而至,纷纷推出了自家基于Transformer的大模型,如Google的BERT,微软的Turing-NLG,英伟达的Megatron、国内华为的鹏程盘古、阿里的M6、百度的文心一言等大模型都是基于Transformer来构建。
更进一步,研究者发现Transformer不仅能够处理语言,处理图像能力也很猛,远胜于传统CNN(卷积神经网络)模型。2020年,Google科学家提出了Vision Transformer ( ViT )概念[1],给计算机视觉领域的人工智能也装上了火箭助推器。
到本文开始撰写时,Attention Is All You Need这篇论文已经被引用了68,147次,成为人工智能历史上被引数量第三高的论文。应该说,Transformer的出现扣动了此轮人工智能热潮的板机,你在朋友圈刷到的所有AI热点,几乎都跟这个“变形金刚”有关。
站在Transformer模型上,OpenAI成为全球最耀眼的明星,而发明人Google也让世界在AlphaGo之后再次敬畏起了它的实力,两家公司一度打起了大模型的军备竞赛,而全球其他科技巨头也不想只做围观者,要么已经躬身入局,要么正在摩拳擦掌。
其实,受Transformer启发,把它运用到炉火纯青并点燃另一场AI革命的公司还有一家,就是