GPT-4数学能力还能更强!
新研究发现GPT-4代码解释器做题准确率与其使用代码的频率有关。
为此,研究人员提出新方法对症下药,直接将其数学能力拔至新SOTA:
在MATH数据集上,做题准确率从53.9%增加到了84.3%。
你没听错,就是前段时间被称为ChatGPT推出后最强模式的那个代码解析器(Code Interpreter)。
研究人员窥探了其代码生成和执行机制,使用自我验证、验证引导加权多数投票的方法,直接打开其做数学题的任督二脉。
好奇网友随即而来:
还想看他们做高数。
还有网友认为:
这也就是大脑的工作方式,人类在解决数学问题时也会自我验证。
一起来康康这项研究的细节~
两步提升数学能力
GPT-4代码解析器的代码生成和执行机制究竟是怎样的?
来自港中文MMLab、南京大学、中科大、清华、城大、长沙理工等多个机构的学者为解开这一问题,使用特定代码约束提示进行了一项试验。
他们设计了3种不同的提示方法,限制GPT-4代码解析器使用代码的频率:
Prompt 1:完全不允许使用代码,输出完全依赖自然语言推理,禁止将代码合并到解决方案中。Prompt 2:只允许使用1次代码,也就是在生成解决方案时,只能在单个代码块内使用代码。Basic Prompt:没有限制,GPT-4代码解析器可以进行一系列推理步骤,每个步骤都可由文字+Python代码组成。
△(a)不同提示回答准确率比较(b)代码使用频率与五个难度级别准确率都成比例,数学问题相对复杂时更明显