🤖 Magma: 多模态 AI Agent 基础模型

1 微软研究院；2 马里兰大学；3 威斯康星大学麦迪逊分校； 4 韩国科学技术院 (KAIST)；5 华盛顿大学

CVPR 2025

📄 arXiv 论文 🌐 项目主页 🤗 Hugging Face 模型 ☁️ Azure AI Foundry 📺 视频

通往多模态 AI Agent 之路

:sparkles: 亮点

数字与物理世界： Magma 是首个面向多模态 AI Agent 的基础模型，旨在处理虚拟和真实环境中的复杂交互！
多功能能力： Magma 作为单一模型，不仅具备通用的图像和视频理解能力，还能生成目标导向的视觉计划和动作，使其能够胜任各种 Agent 任务！
SOTA 性能： Magma 在多项多模态任务上达到了 State-of-the-art (SOTA) 性能，包括 UI 导航、机器人操控，以及通用的图像和视频理解，特别是在空间理解和推理方面表现出色！
可扩展的预训练策略： 除了现有的 Agent 数据外，Magma 还被设计为能够从野外未标注的视频中进行可扩展学习，这赋予了它强大的泛化能力，非常适合实际应用场景！

[2025.04.29] 带有 SoM (Set-of-Mark) 提示标注的 Mind2Web 和 AITW 数据集已在 Hugging Face 上发布！我们使用这些数据进行了 Magma 的下游微调，并报告了相关结果。
[2025.04.12] 🔥 我们在 Hugging Face 上发布了带有视觉轨迹的预训练视频 Magma-Video-ToM。
[2025.04.06] 带有视觉轨迹的 Open X-Embodiment 预训练数据可从 Magma-OXE-ToM 下载。
[2025.03.16] 我们在 SoM 和 ToM 生成中发布了用于生成教学视频 SoM 和 ToM 的演示代码（即论文中的算法 2）。
[2025.03.09] 🔥 我们发布了 Magma 训练代码，以及在 Magma-820K 数据集上训练 Magma-8B 的示例。查看模型训练。
[2025.03.06] 我们发布了一个展示机器人规划能力的新演示。运行 python agents/robot_traj/app.py 即可启动！
[2025.02.28] 我们在 Hugging Face 上发布了两个演示：Magma-UI 和 Magma-Gaming。查看我们模型的动作定位和规划能力！
[2025.02.26] ⭐ 激动人心的消息！Magma 被 CVPR 2025 录用！
[2025.02.25] 🎉 重大消息！我们在 Hugging Face 和 Azure AI Foundry 上发布了 Magma 模型！
[2025.02.23] 我们发布了 Magma 推理代码！
[2025.02.20] Magma 登上了 Hacker News 头条！
[2025.02.19] 我们将在 2 月 25 日下周二的 MSR 论坛上发布代码、模型和 UI 导航演示！
[2025.02.18] 我们在 MSR 的旗舰项目 Magma 已发布在 arXiv！

我们将陆续发布以下内容：