多模态大模型能力评估:Bard 是您所需要的吗

多模态大模型能力评估:Bard 是您所需要的吗

为了全面、系统地评估多模态大模型的能力,上海人工智能实验室、香港大学、北京大学、香港中文大学的多位研究人员联合提出了综合评估框架LVLM-eHub和Tiny LVLM-eHub 。

继ChatGPT之后,OpenAI直播展示了GPT-4支持视觉输入的强大多模态能力,尽管视觉输入尚未得到广泛应用。随后,学术界和工业界也将目光集中在多模态大模型(主要是视觉语言模型)上,如学术界的LLaMA-Adapter、MiniGPT-4,以及工业界最具代表性的来自Google的Bard。而巴德后来居上,向大规模用户开放。然而,学术界发表的大多数模型仅在一些多模态能力(少数相关数据集)上进行了评估,也缺乏对真实用户体验的性能比较。巴德开放视觉输入后并没有给出官方的多模态能力报告。

在此背景下,我们首次提出了多模态大模型多模态能力综合评估框架LVLM-eHub,集成了6类多模态能力,基本覆盖了大部分多模态场景,包含47+相关数据集。同时发布了多模态大型模型竞技场,这是一个比较模型能力的众包用户评估平台,让真实用户可以提问并投票选出哪个模型表现更好。

多模态大模型能力评估:Bard 是您所需要的吗

在此基础上,我们还将每个原始数据集减少到50个样本(随机采样),并推出了Tiny LVLM-eHub,方便模型的快速评估和迭代。综合各种评价提示下的ChatGPT评价结果(多数投票),设计了一种更准确、鲁棒、更符合人类评价结果的评价方法。最后同时添加了更多的多模态大模型,其中Google的Bard表现最好。

多模态大模型能力评估:Bard 是您所需要的吗

多模式能力和数据集

我们整合了6大类多式联运能力:

A。视觉感知

b. 视觉知识获取

C。视觉推理

d. 视觉常识

e. 体现智力

F。幻觉

前两类涉及基本的感知能力,中间两类上升到高级推理能力,最后两类涉及大模型与机器人连接后,以及在大语言模型上的更高层次的规划和决策能力(法学硕士)。同样危险和麻烦的是幻觉问题。

具身智能是大模型能力的应用和扩展。其未来发展潜力巨大,在学术界和工业界方兴未艾。幻觉问题是大型模型推广应用过程中的众多巨大风险点之一,需要大量的测试和评估来协助后续的改进和优化。

多模态大模型能力评估:Bard 是您所需要的吗

六、多模态能力结构图

多模态大型模型赛场

多模态大模型竞技场是一个用于比较模型能力的众包用户评价平台。与上述传统数据集上的刷点相比,更能真实反映模型的用户体验。用户上传图片并提出相应问题后,平台从后台模型库中随机抽取两个模型。两个模型分别给出答案,然后用户可以投票选出哪个模型表现更好。为了保证公平性,我们保证每个模型都有平等的被抽样的机会,并且只有在用户投票后才会显示被抽样模型的名称。请参阅下图了解示例流程。

多模态大模型能力评估:Bard 是您所需要的吗

多模态大模型场示意图

评估方法

多模态大模型能力评估:Bard 是您所需要的吗

评估方法图

LVLM-eHub默认使用单词匹配(只要模型输出中出现真实答案,就判断为正确)进行快速自动评估。特别是,对于VCR数据集,为了更好地评估模型性能,我们采用了多轮推理评估方法:类似于最小到最大提示方法,首先经过多轮ChatGPT提出子问题和给出待评估模型的答案,最终回答目标问题。另外,对于体现智能,我们目前采用人工方法从物体识别、空间关系、简洁性、合理性和可执行性五个维度进行综合评估。

多提示词投票评价方法

Tiny LVLM-eHub设计并采用了多重提示投票评估方法,可以克服单词匹配评估方法的缺点。具体来说,在以下两种情况下,单词匹配会失败: (1)可能存在包含该答案的真实多个答案;(2)模型输出在语义上与问题的参考答案相同,但表达方式不同。

多模态大模型能力评估:Bard 是您所需要的吗

基于ChatGPT的多指令综合评价方法示意图

此外,我们通过实验发现(结果如下表所示),我们提出的评估方法与人类评估结果更加一致。

多模态大模型能力评估:Bard 是您所需要的吗

CEE评估方法和单词匹配方法与人工评估的一致性比较

评价结果

在传统标准数据集上(除了其他五类体现智能的多模态能力),评估结果表明InstructBLIP表现最好。通过比较模型训练数据集之间的差异,我们猜测这很可能是因为InstructBLIP在BLIP2的基础上在13个类似VQA的数据集上进行了微调,而这些微调后的数据集与上述5种类型一致动态能力对应的多模态数据集在任务以及具体数据形式和内容上有很多相似之处。相比之下,在具身智能任务上,BLIP2和InstructBLIP表现最差,而LLaMA-Adapter-v2和LLaVA表现最好,很大程度上是因为后两个模型使用专门的视觉语言指令来跟随数据集进行命令微调。简而言之,大型模型之所以在很多任务上具有良好的泛化性能,很大程度上是因为它们在训练或微调阶段已经看到了相应的任务或相似的数据,因此领域差距较小;而具身智能则需要高层次的推理、规划甚至决策的任务,需要像ChatGPT或GPT-4这样更具逻辑性、规划性和可执行性的输出(这一点可以通过下面Bard的评估结果得到证实:Bard拥有最好的具身智能)智力)。

多模态大模型能力评估:Bard 是您所需要的吗

LVLM-eHub 中八个主要模型在六种多模式功能上的性能图表

到目前为止,我们在多模态大模型竞技场平台上已经收集了2750个有效样本(经过过滤后),最新的模型得分和排名如下表所示。从真实用户体验的角度来看,虽然InstructBLIP在传统标准数据集上表现最好(除具身智能的其他五类多模态能力外),但在Elo中排名并不好,BLIP2的用户评价最差。相应地,ChatGPT优化的指令在数据集上进行微调后,模型输出更受用户青睐。我们看到,在高质量数据上进行微调的模型Otter-Image排名第一,在Otter模型的基础上实现了质的飞跃。

多模态大模型能力评估:Bard 是您所需要的吗

多模态竞技场模型排行榜

在 Tiny LVLM-eHub 上,巴德在多种能力上表现出色,但在有关物体形状、颜色以及物体幻觉的视觉常识方面却有所欠缺。Bard是12个模型中唯一的行业闭源模型,因此该模型的具体规模、设计以及训练数据集均不得而知。相比之下,其他型号只有7B-10B。当然,我们目前的测试大部分都是单轮问答,而Bard支持多轮对话。我相信巴德的能力还不止于此,还需要探索。

多模态大模型能力评估:Bard 是您所需要的吗

吟游诗人演示

巴德对图像的不寻常之处有着很好的把握,拥有类似人类的理解力。它甚至可以根据图像进行联想,指出生活与艺术的关系。

多模态大模型能力评估:Bard 是您所需要的吗

巴德对复杂的食物链有相对较好的理解,并回答了问题(图中蓝色框出的部分),同时对问题范围之外的食物链给出了更详细的解释。

多模态大模型能力评估:Bard 是您所需要的吗

巴德具有一定的多模态推理能力,可以正确回答需要基于图(蓝色)进行一定推理的问题,但在准确识别图片中的细节(红色)方面仍然存在一些问题。

多模态大模型能力评估:Bard 是您所需要的吗

Bard可以相对准确地以文本形式生成目标框。

多模态大模型能力评估:Bard 是您所需要的吗

与GPT-4类似,巴德能够将手绘网页设计转换为HTML代码,并且更准确地识别网页的布局,甚至成功地将“照片”部分识别为需要导入图像的区域。

多模态大模型能力评估:Bard 是您所需要的吗

对于一道小学数学题,巴德误解了问题并给出了错误的答案,尽管随后的计算是正确的。

多模态大模型能力评估:Bard 是您所需要的吗

巴德仍然容易受到幻觉问题的影响。我们发现,如果提示中给出了一些错误的线索,巴德仍然会在上面胡言乱语。

多模态大模型能力评估:Bard 是您所需要的吗

我们手动在图像中添加了红色对角线十字,但巴德回答说图像中没有红色物体。另外,奇怪的是,巴德似乎完全忽略了我们在回答问题时添加的红十字。

多模态大模型能力评估:Bard 是您所需要的吗

未来的工作

虽然 (Tiny) LVLM-eHub 中的评估很全面,但我们仅评估各种 LVLM 的多模态能力边界。事实上,LVLM的评估还必须考虑其他关键因素,例如内容安全、偏见和种族歧视等。由于这些模型生成的有偏见或有害内容可能造成伤害,因此必须彻底评估 LVLM 生成安全和公正内容的能力,以避免有害的成见或歧视态度长期存在。尤其是,如何增强视觉常识的理解,缓解幻觉问题,是进一步探索LVLM发展时应该考虑的问题。

(1)
上一篇 2023年9月4日 下午1:52
下一篇 2023年9月12日 下午9:18

更多相关内容

开始你的AI探索之旅,开启无限可能,学习AI道路上我们一起前进。