史上AI最高分!谷歌大模型创美国医师执照试题新纪录

杨净 羿阁 发自 凹非寺

量子位 | 公众号 QbitAI

史上AI最高分,谷歌新模型刚刚通过美国医师执照试题验证!

而且在科学常识、理解、检索和推理能力等任务中,直接与人类医生水平相匹敌。在一些临床问答表现中,最高超原SOTA模型17%以上。

此进展一出,瞬间引爆学界热议,不少业内人士感叹:终于,它来了。

广大网友在看完Med-PaLM与人类医生的对比后,则是纷纷表示已经在期待AI医生上岗了。

还有人调侃这个时间点的精准,恰逢大家都以为谷歌会因ChatGPT而“死”之际。

来看看这到底是一个什么样的研究?

史上AI最高分

由于医疗的专业性,今天的AI模型在该领域的应用很大程度上没有充分运用语言。这些模型虽然有用,但存在聚焦单任务系统(如分类、回归、分割等)、缺乏表现力和互动能力等问题。

大模型的突破给AI+医疗带来了新的可能性,但由于该领域的特殊性,仍需考虑潜在的危害,比如提供虚假医疗信息。

基于这样的背景,谷歌研究院和DeepMind团队以医疗问答为研究对象,做出了以下贡献:

提出了一个医学问答基准MultiMedQA,包括医学考试、医学研究和消费者医学问题;

在MultiMedQA上评估了PaLM及微调变体Flan-PaLM

提出了指令提示x调整,让Flan-PaLM进一步与医学接轨,产生了Med-PaLM

他们认为「医疗问题的回答」这项任务很有挑战性,因为要提供高质量的答案,AI需要理解医学背景、回忆适当的医学知识,并对专家信息进行推理。

现有的评价基准往往局限于评估分类准确度或自然语言生成指标,而不能对实际临床应用中详细分析。

首先,团队提出了一个由7个医学问题问答数据集组成的基准。

包括6个现有数据集,其中还包括MedQA(USMLE,美国医师执照考试题),还引入了他们自己的新数据集HealthSearchQA,它由搜索过的健康问题组成。

这当中有关于医学考试、医学研究以及消费者医学问题等。

(责任编辑:AK007)