Baichuan 3通用中文评测基准总分77.4分：国内排名第二优于GPT-3.5

日期：2024-02-02 18:11 来源：互联网

　　2月2日，国内大模型评测机构SuperCLUE发布了Baichuan 3大模型的评测结果。在SuperCLUE通用综合测评基准上，Baichuan 3以总分77.47分的成绩排名国内第二，跻身国内大模型第一梯队。

　　Baichuan 3是百川智能1月29日发布的超千亿参数大语言模型，在多个英文评测上表现出色，达到接近GPT-4的水平。此外，Baichuan 3还突破“迭代式强化学习”技术，进一步提升了语义理解和生成能力。

　　SuperCLUE是国内权威的中文通用大模型综合性评测基准之一，主要考察模型在中文能力上的表现，包括语言与知识、专业与技能、AI智能体和安全四大能力维度的上百个任务。

　　在本次评测中，Baichuan 3的综合表现优于GPT-3.5，与GPT-4差距已缩小至2.37分，与GPT4 Turbo相差13.16分，还有一定提升空间。

　　SuperCLUE认为，在本次测评中，Baichuan3在各项能力上表现均衡，尤其在计算、逻辑推理、角色扮演、语言理解能力上处于国内领先位置，适用于复杂逻辑应用及个性化拟人场景。代码能力还有一定提升空间。

　　作为超千亿参数的模型，与上一代开源模型Baichuan2-13B-Chat相比，Baichuan3各维度的能力均大幅升级。其中，计算能力提升幅度最大高达41.15%，逻辑推理能力提升18.03%、代码能力提升29.61%、知识百科能力提升14.38%、语言理解能力提升19.30%、角色扮演能力提升17.92%、工具使用能力提升20.09%、生成创作能力提升4.49%、上下文对话能力提升5.47%、传统安全能力提升3.10%。

　　评测结果显示，Baichuan 3的综合能力表现不俗，计算、逻辑推理、语言理解、角色扮演、上下文对话等基础能力上较为领先。

（责任编辑：AK007）

Baichuan 3通用中文评测基准总分77.4分：国内排名第二 优于GPT-3.5

相关推荐

Baichuan 3通用中文评测基准总分77.4分：国内排名第二优于GPT-3.5