天工大模型登顶多模态榜单!解决幻觉、跨语言两大难题

  国产大模型,登顶多模态榜单!

  昆仑万维最近在大模型圈可谓“风生水起”。

  几天前刚被曝挖来了AI大牛颜水成,出任天工智能联席CEO。

  现在,其“天工”大模型Skywork-MM又登顶多模态榜单,在腾讯优图实验室联合厦门大学开展的多模态大语言模型(Multimodal Large Language Model,简称“MLLM”)测评中,综合得分排名第一。

 

 △MME感知榜第一,认知榜第二,总榜第一

  腾讯优图实验室联合厦门大学在新建的评测基准MME上首次对全球范围内MLLM模型进行了全面定量评测并公布了16个排行榜,包含感知、认知两个总榜单以及14个子榜单。

  MME数据集是一个最近发布的多模态语言模型测评基准。

  它通过大型多模态语言模型在涵盖感知和认知任务的14个子任务上的表现来全面评估模型。

  而Skywork-MM只用了不到50M的图文数据——远小于其他大模型(>100M),拿下了第一(榜单地址见文末)。

  如何做到?

  主要是解决了现有多模态大模型中颇为困扰的两大问题:

  幻觉和较弱的跨语言能力。

  多模态两大难

  所谓幻觉,是指多模态大模型在回答问题时,倾向于肯定的答案,即使我们所给的问题中根本没有相关特征。

  例如面对下面这张图像。


  如果问它“这个男人的头发是什么颜色?”,即使优秀如LLaVA、MiniGPT-4等多模态大模型,也会“睁着眼说瞎话”:黑色。

  再如这张图片:一个玻璃杯、一个茶杯、一个浴缸里面有条小金鱼。


  如果问它“图片中的所有物品都是黄色的吗?”,没有谁能答对。


  至于跨语言能力问题,主要表现在应对中文场景中的问题回答不尽如人意。

  比如辨认下面这张图片是“科罗拉多大峡谷还是苏州园林”时,3个双语多模态语言模型:LLaVA、 LLaVA-Chinese、ImageBind-LLm全部回答成前者。

(责任编辑:AK007)