mbzuai-oryx/groundingLMM — FindAgent

m

mbzuai-oryx/groundingLMM

[CVPR 2024 🔥] Grounding Large Multimodal Model (GLaMM), the first-of-its-kind model capable of generating natural language responses that are seamlessly integrated with object segmentation masks.

foundation-modelsllm-agentlmmvision-and-languagevision-language-model

⭐

958

Stars

🔱

56

Forks

👁

30

Watchers

📋

36

Issues

PythonApache-2.0创建于 2023/11/2更新于 1 周前

在 GitHub 上查看访问主页

README

由 Gemini 翻译整理

GLaMM: 像素级定位大型多模态模型 [CVPR 2024]

Hanoona Rasheed, Muhammad Maaz, Sahal Shaji, Abdelrahman Shaker, Salman Khan, Hisham Cholakkal, Rao M. Anwer, Eric Xing, Ming-Hsuan Yang 和 Fahad Khan

穆罕默德·本·扎耶德人工智能大学, 澳大利亚国立大学, 阿尔托大学, 卡内基梅隆大学, 加州大学默塞德分校, 林雪平大学, Google Research

📢 最新更新

2024年11月7日: 发布 VideoGLaMM。它将定位对话生成任务扩展到了视频领域 🎥 ！详情请查看 VideoGLaMM 🔥🔥
2024年3月21日: 我们很高兴地宣布发布 GranD 数据集以及 GranD 自动标注流水线 🔥
2024年2月27日: 我们非常激动地分享 GLaMM 已被 CVPR 2024 录用！🎊
2023年12月27日: 发布 GLaMM 训练与评估代码、预训练检查点（checkpoints）以及 GranD-f 数据集点击查看详情 🔥🔥
2023年11月29日: 发布 GLaMM 在线交互演示演示链接 🔥
2023年11月7日: 发布 GLaMM 论文 arXiv 链接 🌟
🌟 精选: GLaMM 现在被置顶于 HuggingFace 的 AK 每日论文页面！🌟

GLaMM 概述

定位大型多模态模型 (GLaMM) 是一种端到端训练的 LMM，它提供了视觉定位能力，能够灵活处理图像和区域输入。这实现了全新的统一任务——“定位对话生成”(Grounded Conversation Generation)，该任务结合了短语定位、指代分割以及视觉-语言对话。凭借对细粒度区域的理解、像素级定位能力以及对话能力，GLaMM 为用户提供了与多粒度视觉输入进行交互的通用解决方案。

🏆 主要贡献

GLaMM 介绍。 我们提出了定位大型多模态模型 (GLaMM)，这是首个能够生成与对象分割掩码无缝集成的自然语言响应的模型。
新任务与评估。 我们提出了一个名为“定位对话生成”(GCG) 的新任务，并为该任务引入了一套全面的评估协议。
GranD 数据集创建。 我们创建了 GranD (Grounding-anything Dataset)，这是一个大规模的高密度标注数据集，包含在 8.1 亿个区域中定位的 750 万个独特概念。

🚀 深入了解：GLaMM 的训练与评估

通过我们关于模型训练和评估方法的详细指南，深入探索 GLaMM 的核心。

安装: 提供设置 conda 环境以运行 GLaMM 训练、评估和演示的指南。
数据集: 提供下载和整理训练与评估所需数据集的详细说明。
GranD: 提供下载 GranD 数据集并运行自动标注流水线的详细说明。
模型库 (Model Zoo): 提供所有预训练 GLaMM 检查点的下载链接。
训练: 提供关于如何训练 GLaMM 模型以实现各种功能（包括定位对话生成 (GCG)、区域级字幕和指代分割）的说明。
评估: 概述了使用预训练检查点评估 GLaMM 模型的程序，涵盖了论文中报告的定位对话生成 (GCG)、区域级字幕和指代分割。
演示: 指导您设置本地演示，以展示 GLaMM 的功能。

👁️💬 GLaMM: 定位大型多模态模型