AI agent using GPT-4V(ision) capable of using a mouse/keyboard to interact with web UI
GPT-4V-Act 是一个基于 GPT-4V 视觉能力的 AI 智能体项目,旨在通过模拟人类操作网页的行为实现自动化交互。它通过视觉识别与 DOM 元素自动标注技术,让 AI 能够精准地执行鼠标点击和键盘输入,从而提升用户界面的易用性并辅助完成工作流自动化与 UI 测试任务。
该项目利用 DOM 自动标注工具为可交互元素分配唯一 ID,使模型能够定位页面元素并进行精准操作。
核心功能涵盖了对网页元素进行自动识别与标注,支持向指定位置发送鼠标点击指令,以及执行基础的字符与字符串键盘输入操作。
该工具适用于需要进行自动化 UI 测试的开发者,或希望通过 AI 助手实现复杂网页交互及工作流自动化的用户,是探索多模态智能体在 Web 端应用的高效实践方案。