天工大模型登顶多模态榜单！解决幻觉、跨语言两大难题

日期：2023-09-07 13:30 来源：互联网

　　国产大模型，登顶多模态榜单！

　　昆仑万维最近在大模型圈可谓“风生水起”。

　　几天前刚被曝挖来了AI大牛颜水成，出任天工智能联席CEO。

　　现在，其“天工”大模型Skywork-MM又登顶多模态榜单，在腾讯优图实验室联合厦门大学开展的多模态大语言模型(Multimodal Large Language Model，简称“MLLM”)测评中，综合得分排名第一。

　△MME感知榜第一，认知榜第二，总榜第一

　　腾讯优图实验室联合厦门大学在新建的评测基准MME上首次对全球范围内MLLM模型进行了全面定量评测并公布了16个排行榜，包含感知、认知两个总榜单以及14个子榜单。

　　MME数据集是一个最近发布的多模态语言模型测评基准。

　　它通过大型多模态语言模型在涵盖感知和认知任务的14个子任务上的表现来全面评估模型。

　　而Skywork-MM只用了不到50M的图文数据——远小于其他大模型(>100M)，拿下了第一(榜单地址见文末)。

　　如何做到？

　　主要是解决了现有多模态大模型中颇为困扰的两大问题：

　　幻觉和较弱的跨语言能力。

　　多模态两大难

　　所谓幻觉，是指多模态大模型在回答问题时，倾向于肯定的答案，即使我们所给的问题中根本没有相关特征。

　　例如面对下面这张图像。

　　如果问它“这个男人的头发是什么颜色？”，即使优秀如LLaVA、MiniGPT-4等多模态大模型，也会“睁着眼说瞎话”：黑色。

　　再如这张图片：一个玻璃杯、一个茶杯、一个浴缸里面有条小金鱼。

　　如果问它“图片中的所有物品都是黄色的吗？”，没有谁能答对。

　　至于跨语言能力问题，主要表现在应对中文场景中的问题回答不尽如人意。

　　比如辨认下面这张图片是“科罗拉多大峡谷还是苏州园林”时，3个双语多模态语言模型：LLaVA、 LLaVA-Chinese、ImageBind-LLm全部回答成前者。

（责任编辑：AK007）