[ICML'24] SeeAct is a system for generalist web agents that autonomously carry out tasks on any given website, with a focus on large multimodal models (LMMs) such as GPT-4V(ision).
SeeAct 是一个面向通用网页智能体的开源系统,旨在利用大型多模态模型(LMMs,如 GPT-4V)实现网页任务的自动化执行。该系统通过构建稳健的代码库和创新的框架,让智能体能够自主理解并操作任意网站,解决网页自动化交互的通用性难题。
支持在实时网站上部署和运行自动化网页智能体。 集成先进的视觉定位技术,利用多模态能力精准识别网页元素。 兼容多种交互模式,包括网页操作模拟以及网页数据采集功能。 提供完整的配套工具链,支持从任务规划到动作执行的全流程自动化。
适用于人工智能研究人员、自动化测试工程师及开发者,可用于构建能够自主完成网页搜索、信息提取或复杂交互任务的智能助手。