[CVPR 2025] Magma: A Foundation Model for Multimodal AI Agents
Magma 是由微软研究院推出的多模态 AI 智能体基础模型,入选 CVPR 2025。该模型旨在打破虚拟与物理世界的壁垒,通过统一的架构解决复杂的多模态交互任务与智能体决策问题。
模型具备通用图像与视频理解能力,能够精准分析视觉内容。它支持生成目标导向的视觉规划与执行动作,实现从认知到行动的闭环。在 UI 导航、机器人操控及空间推理等任务中表现领先,达到业界顶尖水准。采用大规模无标注视频预训练策略,使其具备强大的泛化能力,能有效应对复杂多变的真实场景。
该项目适用于从事多模态大模型研究、智能体开发以及机器人自动化控制的开发者与科研人员。其核心应用场景涵盖自动化 UI 交互、物理世界机器人操控以及需要深度视觉理解的智能感知任务。