百川智能发布超千亿大模型Baichuan 3

  1月29日,百川智能发布超千亿参数的大语言模型Baichuan 3。多个专业评测显示,Baichuan 3不仅英文效果达到接近GPT-4的水平,还在多项通用中文任务的表现上实现了对GPT-4的超越。

  基础能力方面,Baichuan 3在多个英文评测中表现出色,达到接近GPT-4的水平。而在CMMLU、GAOKAO、HumanEval和MBPP等多个中文评测榜单上,超越GPT-4展现了其在中文任务上的优势。



  此外,在MT-Bench、IFEval等对齐榜单的评测中,Baichuan 3超越了GPT-3.5、Claude等大模型,处于行业领先水平。


  与百亿、几百亿级别参数模型训练不同,超千亿参数模型在训练过程中对高质量数据,训练稳定性、训练效率的要求都高出几个量级。为更好解决相关问题,百川智能在训练过程中针对性地提出了“动态数据选择”、“重要度保持”以及“异步CheckPoint存储”等多种创新技术手段及方案,有效提升了Baicuan 3的各项能力。

  在医疗领域,大模型的全能特性发挥着至关重要的作用。大模型医疗背后蕴含着巨大的社会价值和产业价值,从疾病的诊断、治疗到患者护理与药物研发,大模型不仅能够帮助医生提高诊疗效率和质量,帮助患者获得更好的服务和体验,还能帮助社会降低医疗成本和风险,助力医疗资源实现普惠和平权。并且医疗问题专业性强、知识更新速度快、准确性要求高、个体差异大,能充体现大模型的各项能力,被称为“大模型皇冠上的明珠”。

  Baichuan 3在多个权威医疗评测任务中表现优异,不仅MCMLE、MedExam、CMExam等中文医疗任务的评测成绩超过GPT-4,USMLE、MedMCQA等英文医疗任务的评测成绩也逼近了GPT-4的水准。


  语义理解和文本生成,作为大模型最基础的底层能力,是其他能力的支柱。为提升这两项能力,业界进行了大量探索和实践,OpenAI、Google以及Anthropic等引入的RLHF(基于人类反馈的强化学习)和RLAIF(基于AI反馈的强化学习)便是其中的关键技术。

  强化学习训练框架方面,百川智能自研了训练推理双引擎融合、多模型并行调度的PPO训练框架,能够很好支持超千亿模型的高效训练,训练效率相比业界主流框架提升400%。偏序数据方面,百川智能创新性的采用了RLHF与RLAIF结合的方式来生成高质量优质偏序数据,在数据质量和数据成本之间获得了更好的平衡。

(责任编辑:AK007)