划重点:
- 1PaLM-E是迄今为止已知的最大VLM(视觉语言模型)。作为一种多模态具身VLM,它不仅可以理解图像,还能理解、生成语言,执行各种复杂的机器人指令而无需重新训练。它还展示出了强大的涌现能力(模型有不可预测的表现)。
- 2通过将PaLM-E集成到控制回路中,它可以抵抗任务期间可能发生的中断。在一个视频示例中,研究人员从机器人手中抓取薯片并移动它们,但机器人找到薯片并再次抓取它们。
“距AGI(通用人工智能)的问世不会太遥远,不过过程中肯定会出现许多误判。预计在未来五年时间里,AI能够在大多数人类目前从事的工作上表现得比人类更好。”在ChatGPT发布前一个月,OpenAI联合创始人、ChatGPT项目的主要负责人John Schulman在强化学习播客《TalkRL》上说道。
AGI似乎并不遥远,但对于如何通向AGI,目前研究者都还在探索。就在近日,一个新的研究成果发布——用视觉数据来增强语言处理能力。它的表现令人惊喜,展示出了强大的涌现能力(模型有不可预测的表现)。
北京时间3月7日,谷歌和柏林工业大学的团队重磅推出了史上最大的视觉语言模型——PaLM-E,参数量高达5620亿(GPT-3的参数量为1750亿)。
PaLM-E的应用示意
“PaLM-E是迄今为止已知的最大VLM(视觉语言模型)。我们观察到诸如多模态思维链推理(允许模型分析包括语言和视觉信息的一系列输入),只接受单图像提示训练的多图像推理(使用多个图像作为输入来做出推理或预测)等涌现能力。”论文的第一作者、谷歌AI研究员Danny Driess说。
论文的第一作者、谷歌AI研究员Danny Driess的推文
在这个意义上,随着时间推移,深度学习模型变得越来越复杂,PaLM-E似乎延续了“产生惊喜”的这个趋势。
PaLM-E(Pathways Language Model with Embodied )是PaLM-540B语言模型与ViT-22B视觉Transformer模型的结合。它被称为“PaLM-E”是因为它基于谷歌现有的 “PaLM”大语言模型 (类似于ChatGPT背后的技术)。谷歌通过添加感官信息和机器人控制,使PaLM“具身化(embodiment,与身体联系紧密的状态)”。由于它基于语言模型,PaLM-E会进行连续观察,例如图像信息或传感器数据,并将它们编码为一系列与语言标记大小相同的向量。这允许模型以与处理语言相同的方式“理解”感官信息。PaLM-E还借鉴了谷歌之前在ViT-22B视觉Transformer模型上的工作,ViT-22B已经接受过各种视觉任务的训练,例如图像分类、对象检测、语义分割和图像字幕。