© 2026FindAgent  · @simprr
返回列表
b

bytedance/UI-TARS-desktop

The Open-Source Multimodal AI Agent Stack: Connecting Cutting-Edge AI Models and Agent Infra

agentagent-tarsbrowser-usecomputer-usecoworkgui-agentgui-operatormcpmcp-servermultimodaltarsui-tarsvisionvlm
⭐

29.1k

Stars

🔱

2.9k

Forks

👁

229

Watchers

📋

365

Issues

TypeScriptApache-2.0创建于 2025/1/19更新于 今天
在 GitHub 上查看访问主页
README
由 Gemini 翻译整理

UI-TARS-desktop

简介

English | 简体中文

TARS* 是一个多模态 AI Agent 技术栈,目前发布了两个项目:Agent TARS 和 UI-TARS-desktop。

Agent TARSUI-TARS-desktop
功能简介Agent TARS 是一个通用的多模态 AI Agent 技术栈,它将 GUI Agent 和视觉能力带入你的终端、计算机、浏览器和产品中。主要通过 CLI 和 Web UI 提供使用。旨在通过先进的多模态 LLM 以及与各种现实世界 MCP 工具的无缝集成,提供更接近人类的任务完成工作流。UI-TARS Desktop 是一款桌面应用程序,提供基于 UI-TARS 模型的原生 GUI Agent。主要提供本地和远程计算机以及浏览器操作功能。

目录

  • 新闻动态
  • Agent TARS
    • 展示
    • 核心特性
    • 快速开始
    • 文档
  • UI-TARS Desktop
    • 展示
    • 特性
    • 快速开始
  • 贡献指南
  • 许可证
  • 引用

新闻动态

  • [2025-11-05] 🎉 我们很高兴发布 Agent TARS CLI v0.3.0!该版本带来了针对多种工具的流式支持(Shell 命令、多文件结构化显示)、带有工具调用和深度思考时间统计的运行时设置,以及用于数据流跟踪和调试的 Event Stream Viewer。此外,它还独家支持将 AIO agent Sandbox 作为隔离的一体化工具执行环境。
  • [2025-06-25] 我们发布了 Agent TARS Beta 和 Agent TARS CLI - 介绍 Agent TARS Beta,这是一个多模态 AI Agent,旨在通过丰富的多模态能力(如 GUI Agent、视觉)和与各种现实世界工具的无缝集成,探索更接近人类的任务完成形式。
  • [2025-06-12] - 🎁 我们很高兴发布 UI-TARS Desktop v0.2.0!此更新引入了两个强大的新功能:远程计算机操作员和远程浏览器操作员——完全免费。无需配置:只需点击即可远程控制任何计算机或浏览器,体验全新的便利性和智能化。
  • [2025-04-17] - 🎉 我们很高兴发布新的 UI-TARS Desktop v0.1.0 应用程序,采用了重新设计的 Agent UI。该应用程序增强了计算机使用体验,引入了新的浏览器操作功能,并支持 先进的 UI-TARS-1.5 模型 以获得更好的性能和精准控制。
  • [2025-02-20] - 📦 引入了 UI TARS SDK,这是一个用于构建 GUI 自动化 Agent 的强大跨平台工具包。
  • [2025-01-23] - 🚀 我们在中文版 GUI 模型部署教程 中更新了 云端部署 章节,加入了与 ModelScope 平台相关的新信息。现在你可以使用 ModelScope 平台进行部署。

Agent TARS

Agent TARS 是一个通用的多模态 AI Agent 技术栈,它将 GUI Agent 和视觉能力带入你的终端、计算机、浏览器和产品中。 它主要通过 CLI 和 Web UI 提供使用。 旨在通过先进的多模态 LLM 以及与各种现实世界 MCP 工具的无缝集成,提供更接近人类的任务完成工作流。

展示

Please help me book the earliest flight from San Jose to New York on September 1st and the last return flight on September 6th on Priceline

https://github.com/user-attachments/assets/772b0eef-aef7-4ab9-8cb0-9611820539d8

预订酒店使用额外 MCP 服务器生成图表
BookingChart
指令:我在 9 月 1 日至 9 月 6 日期间在洛杉矶,预算为 5,000 美元。请帮我在 booking.com 上预订一家离机场最近的丽思卡尔顿酒店,并为我编写一份交通指南。指令:为我绘制一张杭州一个月的天气图表。

更多用例,请查看 #842。

核心特性

  • 🖱️ 开箱即用的 CLI
贡献者
uyZcsmsWhl
项目信息
默认分支main
LicenseApache License 2.0
创建时间2025/1/19
最近更新今天
GAI 中文摘要

UI-TARS-desktop 是一款基于 UI-TARS 模型构建的开源桌面应用程序,旨在提供原生的图形用户界面(GUI)AI 智能体解决方案。它通过集成前沿的多模态大模型技术,赋予了桌面应用与浏览器自主交互、执行复杂任务并模拟人类操作的能力。

该应用支持本地与远程两种运行模式,能够灵活适配不同的计算环境和性能需求。它内置了专门的计算机控制与浏览器操作引擎,实现了对图形化界面元素的精准识别与自动化交互。系统通过多模态感知能力,能够理解视觉信息并转化为具体的操作指令,从而完成端到端的任务闭环。

本项目主要面向需要自动化处理复杂桌面工作流的开发者、研究人员及效率工具用户,适用于自动化测试、日常办公流程自动化以及需要 AI 协助进行跨应用操作的场景。