GPT-4数学再提30分 代码解析器任督二脉被打开 网友:像大脑的工作方式

GPT-4数学能力还能更强!

新研究发现GPT-4代码解释器做题准确率与其使用代码的频率有关。

为此,研究人员提出新方法对症下药,直接将其数学能力拔至新SOTA:

在MATH数据集上,做题准确率从53.9%增加到了84.3%。

GPT-4数学再提30分 代码解析器任督二脉被打开 网友:像大脑的工作方式

你没听错,就是前段时间被称为ChatGPT推出后最强模式的那个代码解析器(Code Interpreter)。

研究人员窥探了其代码生成和执行机制,使用自我验证、验证引导加权多数投票的方法,直接打开其做数学题的任督二脉。

好奇网友随即而来:

还想看他们做高数。

GPT-4数学再提30分 代码解析器任督二脉被打开 网友:像大脑的工作方式

还有网友认为:

这也就是大脑的工作方式,人类在解决数学问题时也会自我验证。

GPT-4数学再提30分 代码解析器任督二脉被打开 网友:像大脑的工作方式

一起来康康这项研究的细节~

两步提升数学能力

GPT-4代码解析器的代码生成和执行机制究竟是怎样的?

来自港中文MMLab、南京大学、中科大、清华、城大、长沙理工等多个机构的学者为解开这一问题,使用特定代码约束提示进行了一项试验。

GPT-4数学再提30分 代码解析器任督二脉被打开 网友:像大脑的工作方式

他们设计了3种不同的提示方法,限制GPT-4代码解析器使用代码的频率:

Prompt 1:完全不允许使用代码,输出完全依赖自然语言推理,禁止将代码合并到解决方案中。Prompt 2:只允许使用1次代码,也就是在生成解决方案时,只能在单个代码块内使用代码。Basic Prompt:没有限制,GPT-4代码解析器可以进行一系列推理步骤,每个步骤都可由文字+Python代码组成。

GPT-4数学再提30分 代码解析器任督二脉被打开 网友:像大脑的工作方式

△(a)不同提示回答准确率比较(b)代码使用频率与五个难度级别准确率都成比例,数学问题相对复杂时更明显

(责任编辑:AK007)