GPT-4数学再提30分代码解析器任督二脉被打开网友：像大脑的工作方式

日期：2023-08-18 10:10 来源：互联网

GPT-4数学能力还能更强！

新研究发现GPT-4代码解释器做题准确率与其使用代码的频率有关。

为此，研究人员提出新方法对症下药，直接将其数学能力拔至新SOTA：

在MATH数据集上，做题准确率从53.9%增加到了84.3%。

GPT-4数学再提30分代码解析器任督二脉被打开网友：像大脑的工作方式

你没听错，就是前段时间被称为ChatGPT推出后最强模式的那个代码解析器（Code Interpreter）。

研究人员窥探了其代码生成和执行机制，使用自我验证、验证引导加权多数投票的方法，直接打开其做数学题的任督二脉。

好奇网友随即而来：

还想看他们做高数。

GPT-4数学再提30分代码解析器任督二脉被打开网友：像大脑的工作方式

还有网友认为：

这也就是大脑的工作方式，人类在解决数学问题时也会自我验证。

GPT-4数学再提30分代码解析器任督二脉被打开网友：像大脑的工作方式

一起来康康这项研究的细节～

两步提升数学能力

GPT-4代码解析器的代码生成和执行机制究竟是怎样的？

来自港中文MMLab、南京大学、中科大、清华、城大、长沙理工等多个机构的学者为解开这一问题，使用特定代码约束提示进行了一项试验。

GPT-4数学再提30分代码解析器任督二脉被打开网友：像大脑的工作方式

他们设计了3种不同的提示方法，限制GPT-4代码解析器使用代码的频率：

Prompt 1：完全不允许使用代码，输出完全依赖自然语言推理，禁止将代码合并到解决方案中。Prompt 2：只允许使用1次代码，也就是在生成解决方案时，只能在单个代码块内使用代码。Basic Prompt：没有限制，GPT-4代码解析器可以进行一系列推理步骤，每个步骤都可由文字+Python代码组成。

GPT-4数学再提30分代码解析器任督二脉被打开网友：像大脑的工作方式

△（a）不同提示回答准确率比较（b）代码使用频率与五个难度级别准确率都成比例，数学问题相对复杂时更明显

（责任编辑：AK007）

GPT-4数学再提30分 代码解析器任督二脉被打开 网友：像大脑的工作方式

相关推荐

GPT-4数学再提30分代码解析器任督二脉被打开网友：像大脑的工作方式