[CVPR 2024 🔥] Grounding Large Multimodal Model (GLaMM), the first-of-its-kind model capable of generating natural language responses that are seamlessly integrated with object segmentation masks.
GLaMM是一个端到端训练的大型多模态模型,是首个能够生成与对象分割掩码无缝集成的自然语言响应的模型。该项目旨在通过视觉定位技术增强大模型的交互能力,从而实现对话生成与像素级定位的深度融合。
模型能够同时处理图像和特定区域输入,实现视觉与语言的紧密对齐。
它支持生成包含引用对象分割掩码的对话内容,实现精准的像素级交互。
该系统集成了短语定位、指代对象分割以及视觉语言对话等多种核心功能。
该项目适用于需要实现细粒度视觉理解与自然语言交互的AI研究人员及开发者,特别适合应用于机器人视觉感知、自动标注系统以及智能辅助交互等前沿视觉任务场景。