BattleAgent:再现历史事件,对历史战役进行多模态动态模拟|大模型论文

今日值得关注的大模型前沿论文

BattleAgent:再现历史事件,对历史战役进行多模态动态模拟

ID-Aligner:利用奖励反馈学习增强“文生图”身份保持

Cantor:激发 MLLM 的多模态思维链

MMT-Bench:大型视觉语言模型综合多模态评估基准

超越思维链(CoT),大模型的“Chain-of-X”范式调查

利用指令跟随模型自动规划版面设计

1.BattleAgent:再现历史事件,对历史战役进行多模态动态模拟

来自罗格斯大学的研究团队及其合作者提出了 BattleAgent,这是一个结合了大型视觉语言模型(LVLM)和多智能体(agent)系统的仿真系统,旨在模拟多个智能体之间以及智能体与其环境之间特定时间内的复杂动态互动。

它既能模拟领导者的决策过程,也能模拟士兵等普通参与者的观点,展示了当前智能体的能力,具有智能体与环境之间细粒度多模态交互的特点。它开发了可定制的智能体结构,从而满足特定的情境要求,例如侦察和挖掘战壕等各种与战斗相关的活动。这些组件相互协作,以生动全面的方式再现历史事件,同时从不同的视角洞察个人的思想和情感。

BattleAgent 为历史战役建立了详细和身临其境的场景,使单个智能体能够参与、观察和动态响应不断变化的战役场景。这种方法有可能大大加深我们对历史事件的理解,特别是通过个人叙述。由于传统的历史叙事往往缺乏文献记载,而且优先考虑决策者的观点,忽略了普通人的经历,因此这种举措也有助于历史研究。

论文链接:https://arxiv.org/abs/2404.15532

2.ID-Aligner:利用奖励反馈学习增强“文生图”身份保持

扩散模型的快速发展催生了各种应用。尤其是身份保持的文本到图像生成(ID-T2I),因其广泛的应用场景(如人工智能肖像和广告)而备受关注。

虽然现有的 ID-T2I 方法已经取得了令人瞩目的成果,但仍存在几个关键挑战:1)很难准确保持参考肖像的身份特征;2)生成的图像缺乏美感,尤其是在要求身份保持时;3)无法同时兼容基于 LoRA 和基于 Adapter 的方法。

为了提高 ID-T2I 的性能,来自中山大学和字节跳动的研究团队,提出了一种通用反馈学习框架——ID-Aligner。同时,为了解决身份特征丢失的问题,他们提出了身份一致性奖励微调,利用人脸检测和识别模型的反馈来改进生成的身份保存。此外,他们还提出了身份美学奖励微调,利用人类标注的偏好数据奖励和自动构建的字符结构生成反馈,从而提供美学调整信号。

得益于其通用反馈微调框架,该方法可轻松应用于 LoRA 和 Adapter 模型,从而实现一致的性能提升。在 SD1.5 和 SDXL 扩散模型上进行的大量实验验证了该方法的有效性。

论文链接:https://arxiv.org/abs/2404.15449项目地址:https://idaligner.github.io/

3.Cantor:激发 MLLM 的多模态思维链

随着由思维链(CoT)方法加强的大型语言模型(LLMs)的出现,视觉推理问题通常被分解成易于管理的子任务,并利用各种外部工具依次解决。然而,这种范式面临的挑战是,由于视觉信息不足和低级感知工具的局限性,决策过程中可能出现“确定性幻觉”,无法提供全面推理所需的抽象总结。

来自厦门大学和腾讯的研究团队认为,将视觉情境获取与逻辑推理结合起来是解决视觉推理任务的关键。他们深入探讨了多模态 CoT 领域,从而利用多模态大语言模型(MLLM)及其认知能力解决复杂的视觉推理任务。

为此,他们提出了一个创新的多模态协同推理框架——Cantor,其特点是感知-决策架构。Cantor 首先充当决策生成器,整合视觉输入来分析图像和问题,确保与实际情境更加一致。此外,Cantor 还利用 MLLM 的高级认知功能,发挥多面专家的作用,获取更高层次的信息,从而增强 CoT 生成过程。

大量实验证明了 Cantor 的有效性,在两个复杂的视觉推理数据集上显示出多模态 CoT 性能的显著提高,而无需进行微调或 ground-truth 论证。

论文链接:https://arxiv.org/abs/2404.16033项目地址:https://ggg0919.github.io/cantor/

4.MMT-Bench:大型视觉语言模型综合多模态评估基准

大型视觉语言模型(LVLM)在通用多模态应用(如视觉对话和嵌入式导航)方面取得了长足进步。然而,现有的多模态评估基准仅涵盖有限的多模态任务,只能测试最基本的能力。

在这项工作中,来自上海 AI Lab、上海交通大学和香港大学的研究团队及其合作者,提出了一个综合基准 MMT-Bench,用于评估大规模多模态任务中的 LVLM,这些任务需要专家知识和审慎的视觉识别、定位、推理和规划。MMT-Bench 包括 31325 个多选视觉问题,这些问题来自车辆驾驶和模拟导航等各种多模态场景,涵盖多模态理解中的 32 个核心元任务和 162 个子任务。由于任务覆盖面广,MMT-Bench 可以使用任务地图对 LVLM 进行评估,便于发现领域内和领域外的任务。

论文链接:https://arxiv.org/abs/2404.16006

5.超越思维链(CoT),大模型的“Chain-of-X”范式调查

思维链(CoT)是一种被广泛采用的提示方法,能激发大型语言模型(LLM)令人印象深刻的推理能力。受 CoT 的顺序思维结构的启发,人们开发了许多 Chain-of-X (CoX) 方法,从而应对涉及 LLM 的不同领域和任务中的各种挑战。

在这项工作中,来自上海交通大学、加州大学圣地亚哥分校的研究团队及其合作者,全面考察了不同背景下的 LLMs Chain-of-X 方法。具体来说,他们按照节点分类法(即 CoX 中的 X)和应用任务对这些方法进行了分类。他们还讨论了现有 CoX 方法的发现和影响,以及潜在的未来方向。

论文链接:https://arxiv.org/abs/2404.15676

6.利用指令跟随模型自动规划版面设计

最近在指令跟随模型方面取得的进步使用户与模型的交互更加友好和高效,从而扩大了模型的适用范围。在平面设计领域,由于技能和资源有限,非专业用户往往难以设计出具有视觉吸引力的布局。

在这项工作中,加州大学圣巴巴拉分校、Adobe 研究团队提出了一个新颖的多模态指令跟随框架,允许用户通过指定画布尺寸和设计目的,如书籍封面、海报、宣传册或菜单,轻松地将视觉元素排列成定制布局。

他们开发了三个布局推理任务来训练模型理解和执行布局指令的能力。在两个基准测试中的实验表明,该方法不仅简化了非专业人员的设计流程,且性能超过了少样本 GPT-4V 模型,在 Crello 上的 mIoU 高出了 12%。这一进展凸显了多模态指令跟随模型在自动化和简化设计流程方面的潜力。

论文链接:https://arxiv.org/abs/2404.15271

|点击关注我 记得标星|