一直以来,昆仑万维完全自研的天工大模型(以下简称“天工”)作为通用基座大模型,始终追求技术创新,致力于突破基座技术壁垒。9月16日,在权威推理榜单Benchmark GSM8K 测试中,天工以80%的正确率脱颖而出,大幅领先GPT-3.5(57.1%)和LLaMA2-70B(56.8%),这标志着天工的推理能力达到全球领先,接近GPT-4。
天工大模型不仅在推理性能上有着强大的竞争力,在MMLU、C-EVAL、HumanEval等三项数据集测试中也同样表现出色。在MMLU数据集测试中,天工以65%准确率超越了LLaMA-65B的63.4%;在C-EVAL数据集测试中,天工以65%准确率超越了GPT3.5的54.4%。在HumanEval数据集测试中,天工以37.2%的准确率超过了PaLM-540B(26.2%)、LLaMA-65B(23.7%)、LLaMa2 -70B(30.5%)。
根据公开测试数据搜集整理
推理能力对于判断一个基座大模型是否“聪明”至关重要。在GSM8K、MMLU、C-EVAL、HumanEval四项数据集测试中,天工大模型均获得较高的正确率,表明天工大模型的通用能力很强,核心性能均达到了国际领先水准。
01 天工多项数据集测试均表现优秀
在上述几个数据集里,GSM8K英文数据集测试是目前全球公认的评判基座大模型推理能力的权威标准。
GSM8K包含8500个高质量的数学问题。这些问题被分为7500个训练问题和1000个测试问题,一般需要2到8个步骤来解决。这些问题的解决主要涉及算术运算。GSM8K数据集的目的是用来测试推理多步数学问题的能力。研究人员通常使用GSM8K来评估大型语言模型在解决英文数学问题时的性能表现。
目前国内外多个大模型都进行了GSM8K的测试。例如,微软与中国科学院在2023年8月联合发布了一项关于WizardMath的研究结果,该研究主要在 GSM8K和MATH这两个常见的数学基准上测试了多个模型的性能,涵盖了大量主流模型,参与测试的模型包括:
闭源模型:OpenAI 的 GPT-3、GPT-3.5、ChatGPT、GPT-4,谷歌的 PaLM 2、PaLM、 Minerva,Anthropic 的 Claude Instant、Claude 1.3、Claude 2, DeepMind 的 Chinchilla;
开源模型:Llama 1、Llama 2、GAL、GPT-J、GPT-Neo、Vicuna、MPT、Falcon、Baichuan、ChatGLM、Qwen 和 RFT
在这项研究中,最后这些模型的得分如下:
据论文,Google PaLM 的正确率不超过56.5%,LLaMA2不同参数规模的正确率最高不超过56.8%,GPT-3.5的正确率为57.1%,GPT-4的正确率为92%。