斯坦福最新研究警告:别太迷信大模型涌现能力,那是度量选择的结果

「别太迷信大模型的涌现,世界上哪儿有那么多奇迹?」斯坦福大学的研究者发现,大模型的涌现与任务的评价指标强相关,并非模型行为在特定任务和规模下的基本变化,换一些更连续、平滑的指标后,涌现现象就不那么明显了,更接近线性。

近期,由于研究者们观察到大型语言模型(LLMs),如 GPT、PaLM、LaMDA 可以在不同的任务中表现出所谓的「涌现能力」,这一术语在机器学习领域得到了极大关注:

事实上,复杂系统的新兴特性一直以来都是物理学、生物学、数学等学科在研究的重点。

值得注意的一个观点是,诺贝尔物理学奖获得者 P.W.Anderson 提出了「More Is Different」。这一观点认为,随着系统复杂性的增加,新的属性可能会具象化,即使从对系统微观细节的精确定量理解中并不能(容易或根本无法)预测到。

大模型领域的「涌现」如何定义?一种通俗的说法是「在小规模模型中不存在,但在大规模模型中存在的能力」,因此,它们不能通过简单地推断小规模模型的性能改进来预测。

这种涌现的能力可能首先在 GPT-3 家族中被发现。后续的一些工作强调了这一发现:「虽然模型性能在一般水平上是可以预测的,但在特定任务上,其性能有时会在规模上出现相当难以预测的涌现」。事实上,这些涌现能力非常令人惊讶,以至于「突然的、特定的能力扩展」已经被认为是 LLM 的两个最高定义特征之一。此外,「breakthrough capabilities」和「sharp left turns」等术语也被使用。

综上所述,我们可以确定 LLM 涌现能力的两个决定性属性:

1. 敏锐性,从「不存在」到「存在」似乎只是瞬间的过渡;

2. 不可预测性,在看似不可预见的模型规模内过渡。

与此同时,还有一些问题悬而未决:是什么控制了哪些能力会涌现?什么控制着能力的涌现?我们怎样才能使理想的能力更快地涌现,并确保不理想的能力永不涌现?

这些问题与人工智能的安全和对齐息息相关,因为涌现的能力预示着更大的模型可能有一天会在没有警告的情况下获得对危险能力的掌握,这是人类不希望发生的。

在最新的一篇论文中,斯坦福大学的研究者对 LLM 拥有涌现能力的说法提出了质疑。

论文:https://arxiv.org/pdf/2304.15004.pdf

具体而言,此处的质疑针对的是在特定任务中模型输出作为模型规模的函数而发生的涌现和不可预测的变化。

(责任编辑:AK007)