AI agent using GPT-4V(ision) capable of using a mouse/keyboard to interact with web UI
GPT-4V-Act 是一个基于 JavaScript 开发的多模态人工智能助手,旨在将 GPT-4V 的视觉理解能力与网页浏览器深度结合。该项目通过模拟人类操作员的输入与输出,实现对鼠标和键盘的精准控制,从而有效提升用户界面的易用性并推动工作流自动化的发展。
利用内置的自动标注器为网页中的可交互元素分配唯一数值 ID,实现基于视觉的任务识别与反馈。 能够根据输入的任务指令和网页截图,智能分析并推断完成操作所需的后续动作。 支持通过指定的数值标签精确定位像素坐标,实现高准确度的鼠标点击交互。 具备基础的键盘输入能力,可处理字符、数字及各类字符串的录入需求。
该项目适用于开发者、UI 测试工程师及自动化办公需求者,可用于构建网页自动交互工具、提升产品无障碍体验或实现复杂的网页自动化测试流程。