5620亿参数！谷歌发布史上最大“通才”AI模型，可让机器人更自主

日期：2023-03-09 09:05 来源：互联网

划重点：

1PaLM-E是迄今为止已知的最大VLM（视觉语言模型）。作为一种多模态具身VLM，它不仅可以理解图像，还能理解、生成语言，执行各种复杂的机器人指令而无需重新训练。它还展示出了强大的涌现能力（模型有不可预测的表现）。
2通过将PaLM-E集成到控制回路中，它可以抵抗任务期间可能发生的中断。在一个视频示例中，研究人员从机器人手中抓取薯片并移动它们，但机器人找到薯片并再次抓取它们。

“距AGI（通用人工智能）的问世不会太遥远，不过过程中肯定会出现许多误判。预计在未来五年时间里，AI能够在大多数人类目前从事的工作上表现得比人类更好。”在ChatGPT发布前一个月，OpenAI联合创始人、ChatGPT项目的主要负责人John Schulman在强化学习播客《TalkRL》上说道。

AGI似乎并不遥远，但对于如何通向AGI，目前研究者都还在探索。就在近日，一个新的研究成果发布——用视觉数据来增强语言处理能力。它的表现令人惊喜，展示出了强大的涌现能力（模型有不可预测的表现）。

北京时间3月7日，谷歌和柏林工业大学的团队重磅推出了史上最大的视觉语言模型——PaLM-E，参数量高达5620亿（GPT-3的参数量为1750亿）。

PaLM-E的应用示意

“PaLM-E是迄今为止已知的最大VLM（视觉语言模型）。我们观察到诸如多模态思维链推理（允许模型分析包括语言和视觉信息的一系列输入），只接受单图像提示训练的多图像推理（使用多个图像作为输入来做出推理或预测）等涌现能力。”论文的第一作者、谷歌AI研究员Danny Driess说。

论文的第一作者、谷歌AI研究员Danny Driess的推文

在这个意义上，随着时间推移，深度学习模型变得越来越复杂，PaLM-E似乎延续了“产生惊喜”的这个趋势。

PaLM-E（Pathways Language Model with Embodied ）是PaLM-540B语言模型与ViT-22B视觉Transformer模型的结合。它被称为“PaLM-E”是因为它基于谷歌现有的 “PaLM”大语言模型 (类似于ChatGPT背后的技术）。谷歌通过添加感官信息和机器人控制，使PaLM“具身化（embodiment，与身体联系紧密的状态）”。由于它基于语言模型，PaLM-E会进行连续观察，例如图像信息或传感器数据，并将它们编码为一系列与语言标记大小相同的向量。这允许模型以与处理语言相同的方式“理解”感官信息。PaLM-E还借鉴了谷歌之前在ViT-22B视觉Transformer模型上的工作，ViT-22B已经接受过各种视觉任务的训练，例如图像分类、对象检测、语义分割和图像字幕。

（责任编辑：AK007）

5620亿参数！谷歌发布史上最大“通才”AI模型，可让机器人更自主

相关推荐