© 2026FindAgent  · @simprr
返回列表
S

SamurAIGPT/Generative-Media-Skills

Multi-modal Generative Media Skills for AI Agents (Claude Code, Cursor, Gemini CLI). High-quality image, video, and audio generation powered by muapi.ai.

agent-toolsai-agentsai-artai-musicai-videoclaude-codefluxgenerative-aiimage-generationklingmcpmidjourneymuapimultimodal-aiskillssunotext-to-audiotext-to-imagetext-to-videovideo-generation
⭐

3.0k

Stars

🔱

328

Forks

👁

34

Watchers

📋

0

Issues

ShellMIT创建于 2023/5/25更新于 今天
在 GitHub 上查看
README
由 Gemini 翻译整理

🎭 AI 代理的多模态生成媒体技能 (Generative Media Skills)

面向 Claude Code、Cursor 和 Gemini CLI 的终极多模态工具集。 这是一套高性能、基于 Schema 驱动的架构,旨在赋能 AI 代理生成、编辑和展示专业级的图像、视频和音频——由 muapi-cli 提供驱动。

🚀 快速开始 | 🎨 专家库 | ⚙️ 核心原语 | 🤖 MCP Server | 📖 参考文档


✨ 核心特性

  • 🤖 代理原生设计 (Agent-Native Design) — 提供带有结构化 JSON 输出、语义退出码和 --jq 过滤功能的 CLI 脚本,实现无缝的 AI 代理流水线集成。
  • 🧠 专家知识层 (Expert Knowledge Layer) — 针对特定领域构建的技能,内置了专业电影摄影、原子设计 (Atomic Design) 和品牌设计逻辑。
  • ⚡ CLI 驱动的核心 (CLI-Powered Core) — 所有原语均委托给 muapi-cli 处理,无需处理 curl、JSON 解析或繁琐的样板代码。
  • 🖼️ 直接媒体显示 (Direct Media Display) — 使用 --view 标志,即可自动下载生成的媒体并在系统查看器中打开。
  • 📁 本地文件支持 (Local File Support) — 自动将本地的图像、视频、人脸和音频文件上传至 CDN 进行处理。
  • 🌈 100+ AI 模型 — 一键访问 Midjourney v7, Flux Kontext, Seedance 2.0, Kling 3.0, Veo3 等顶级模型。
  • 🔌 MCP Server — 运行 muapi mcp serve,即可将全部 19 个工具直接暴露给 Claude Desktop、Cursor 或任何支持 MCP 的 AI 代理。

🏗️ 可扩展架构

本仓库采用 Core/Library (核心/库) 分离架构,以确保 LLM 的执行效率和高信噪比发现能力:

⚙️ 核心原语 (/core)

这是对 muapi-cli 的轻量级封装,用于底层的 API 访问。

  • core/media/ — 文件上传
  • core/edit/ — 图像编辑(基于 Prompt)
  • core/platform/ — 设置、身份验证及结果轮询

📚 专家库 (/library)

高价值技能库,将创作意图转化为技术指令。

  • Cinema Director (电影导演) (/library/motion/cinema-director/) — 专业电影指导与摄影技术。
  • Nano-Banana (/library/visual/nano-banana/) — 基于推理能力的图像生成(Gemini 3 风格)。
  • UI Designer (UI 设计师) (/library/visual/ui-design/) — 高保真移动端/Web 原型图(基于原子设计)。
  • Logo Creator (Logo 创建器) (/library/visual/logo-creator/) — 极简主义矢量品牌设计(几何原语)。
  • Seedance 2 (豆包视频) (/library/motion/seedance-2/) — 导演级别的电影级视频生成,支持文生视频、图生视频、视频扩展,并具备原生的音视频同步能力。

🚀 快速开始

1. 安装 muapi CLI

核心脚本依赖 muapi-cli。安装一次即可:

# 通过 npm 安装(推荐 — 无需 Python)
npm install -g muapi-cli

# 通过 pip 安装
pip install muapi-cli

# 或者无需安装直接运行
npx muapi-cli --help

2. 配置 API Key

# 交互式配置
muapi auth configure

# 或者直接传入
muapi auth configure --api-key "YOUR_MUAPI_KEY"

# 在 https://muapi.ai/dashboard 获取您的 key

3. 安装技能 (Skills)

# 为您的 AI 代理安装所有技能
npx skills add SamurAIGPT/Generative-Media-Skills --all

# 或者安装特定技能
npx skills add SamurAIGPT/Generative-Media-Skills --skill muapi-media-generation

# 安装到特定代理
npx skills add SamurAIGPT/Generative-Media-Skills --all -a claude-code -a cursor

4. 生成第一张图像

muapi image generate "a cyberpunk city at night" --model flux-dev

# 自动下载结果
muapi image generate "a sunset over mountains" --model hidream-fast --download ./outputs

# 仅提取 URL(代理友好型)
muapi image generate "product on white bg" --model flux-schnell --output-json --jq '.outputs[0]'

5. 运行专家技能

# 使用 Nano-Banana 推理能力生成 2K 杰作
bash library/visual/nano-banana/scripts/generate-nano-art.sh \
  --file ./my-source-image.jpg \
  --subject "a glass hummingbird" \
  --style "macro photography" \
  --resolution "2k" \
  --view

6. 指导电影场景

cd library/motion/cinema-director

# 创建一个 10 秒的史诗感展示视频
bash scripts/generate-film.sh \
  --subject "a cybernetic dragon over Tokyo" \
  --intent "epic" \
  --model "kling-v3.0-pro" \
  --duration 10 \
  --view

# 将参考图片制作成动画视频
bash library/motion/seedance-2/scripts/generate-seedance.sh \
  --mode i2v \
  --file ./concept.jpg \
  --subject "camera slowly pulls back to reveal the full landscape" \
  --intent "reveal" \
  --view

# 扩展现有的视频
bash library/motion/seedance-2/scripts/generate-seedance.sh \
  --mode extend \
  --request-id "YOUR_REQUEST_ID" \
  --subject "camera continues pulling back to reveal the vast city" \
  --duration 10

🤖 MCP Server

将 muapi 作为 Model Context Protocol (MCP) server 运行,从而让 Claude Desktop、Cursor 或任何 MCP 兼容的代理使用上述工具。

贡献者
A
项目信息
默认分支main
LicenseMIT License
创建时间2023/5/25
最近更新今天
GAI 中文摘要

Generative-Media-Skills 是一套为 AI Agent 设计的多模态生成工具集,专门集成于 Claude Code、Cursor 和 Gemini CLI 等开发环境。它通过高度标准化的架构,让 AI 能够高效地调用顶级模型进行高质量的图像、视频和音频生成与编辑。

项目提供由 muapi-cli 驱动的命令行接口,支持跨平台的媒体生成任务并能直接在本地系统查看结果。内置的专家知识库将复杂的创作逻辑转化为专业指令,涵盖电影级摄影、UI 设计和品牌徽标创建。系统包含 MCP 服务器支持,能够无缝接入 Claude Desktop 等代理工具,实现开箱即用的多模态生成工作流。支持包括 Midjourney v7、Flux、Kling 3.0 等百余种主流 AI 模型,并具备本地文件自动上传与处理能力。

该项目非常适合 AI 开发者、自动化工作流构建者以及需要通过命令行高效生成多媒体资产的创意工作者,适用于构建智能内容生产管线或增强 AI Agent 的视觉与媒体处理能力。