[CVPR 2025] Magma: A Foundation Model for Multimodal AI Agents
Magma 是由微软研究院推出的针对多模态 AI 智能体设计的基座模型,入选 CVPR 2025。该模型旨在通过统一的架构处理复杂的数字世界与物理环境交互,解决多模态任务中跨场景的感知与操作难题。
支持对图像和视频进行通用的深度理解与推理,实现对复杂视觉信息的精准把控。具备目标驱动的视觉规划能力,能够生成具体的操作步骤并执行相应的动作指令。在界面 UI 导航、机器人操控等多种代理任务中均达到了行业领先的性能水平。采用可扩展的预训练策略,能够从海量的无标签视频数据中高效学习并提升泛化能力。
该模型适用于需要处理复杂视觉与动作决策的 AI 智能体开发人员,特别适合在机器人控制、自动化 UI 交互及真实世界环境下的多模态感知任务中使用。