国产大模型,登顶多模态榜单!
昆仑万维最近在大模型圈可谓“风生水起”。
几天前刚被曝挖来了AI大牛颜水成,出任天工智能联席CEO。
现在,其“天工”大模型Skywork-MM又登顶多模态榜单,在腾讯优图实验室联合厦门大学开展的多模态大语言模型(Multimodal Large Language Model,简称“MLLM”)测评中,综合得分排名第一。
△MME感知榜第一,认知榜第二,总榜第一
腾讯优图实验室联合厦门大学在新建的评测基准MME上首次对全球范围内MLLM模型进行了全面定量评测并公布了16个排行榜,包含感知、认知两个总榜单以及14个子榜单。
MME数据集是一个最近发布的多模态语言模型测评基准。
它通过大型多模态语言模型在涵盖感知和认知任务的14个子任务上的表现来全面评估模型。
而Skywork-MM只用了不到50M的图文数据——远小于其他大模型(>100M),拿下了第一(榜单地址见文末)。
如何做到?
主要是解决了现有多模态大模型中颇为困扰的两大问题:
幻觉和较弱的跨语言能力。
多模态两大难
所谓幻觉,是指多模态大模型在回答问题时,倾向于肯定的答案,即使我们所给的问题中根本没有相关特征。
例如面对下面这张图像。
如果问它“这个男人的头发是什么颜色?”,即使优秀如LLaVA、MiniGPT-4等多模态大模型,也会“睁着眼说瞎话”:黑色。
再如这张图片:一个玻璃杯、一个茶杯、一个浴缸里面有条小金鱼。
如果问它“图片中的所有物品都是黄色的吗?”,没有谁能答对。
至于跨语言能力问题,主要表现在应对中文场景中的问题回答不尽如人意。
比如辨认下面这张图片是“科罗拉多大峡谷还是苏州园林”时,3个双语多模态语言模型:LLaVA、 LLaVA-Chinese、ImageBind-LLm全部回答成前者。