SeeAct: GPT-4V(ision) 是一个通用型网页智能体（需结合 Grounding）

SeeAct 是一个面向通用型网页智能体的系统，能够自主在任何给定的网站上执行任务。该系统专注于大型多模态模型（LMMs），例如 GPT-4V(ision)。它包含两个主要组件： (1) 一个支持在实时网站上运行网页智能体的健壮代码库； (2) 一个利用 LMM 作为通用型网页智能体的创新框架。

演示视频 GIF

网站 • 论文 • 数据集 • Twitter

更新日志

2024/11/10: 我们开源了 SeeAct Chrome 扩展程序的源代码！欢迎前往 SeeActChromeExtension 体验！
2024/9/30: WebOlympus: An Open Platform for Web Agents on Live Websites 已被 EMNLP'24 Demo Track 录用！
2024/8/17: 新增爬虫模式（Crawler mode）！
2024/7/9: 支持 SoM (Set-of-Mark) Grounding 策略！
2024/5/18: 支持 Gemini 和 LLaVA！
2024/5/1: SeeAct 已被 ICML'24 录用！
2024/4/28: 发布了 SeeAct Python 软件包，包含多项更新及更多即将推出的功能。尝试使用 pip install seeact。
2024/3/18: 发布 Multimodal-Mind2Web 数据集。我们将每个 HTML 文档与相应的网页截图进行了配对，省去了下载 Mind2Web Raw Dump 的麻烦。

SeeAct 工具

SeeAct 工具通过 PlayWright 支持在实时网站上运行网页智能体，充当智能体与 Web 浏览器之间的接口。它高效地将来自浏览器的输入传输给智能体，并将智能体预测的动作转化为浏览器事件进行执行。该工具可用于运行网页智能体演示，并在实时网站上评估其性能。

设置

创建 conda 环境并安装依赖：

conda create -n seeact python=3.11
conda activate seeact
pip install seeact

设置 PlayWright 并安装浏览器内核。

playwright install

使用方法

import asyncio
import os
from seeact.agent import SeeActAgent

# 在此处设置您的 API Key，或通过环境变量传递
os.environ["OPENAI_API_KEY"] = "Your API KEY Here"

async def run_agent():
    agent = SeeActAgent(model="gpt-4-turbo")
    await agent.start()
    while not agent.complete_flag:
        prediction_dict = await agent.predict()
        await agent.execute(prediction_dict)
    await agent.stop()

if __name__ == "__main__":
    asyncio.run(run_agent())

SeeActAgent 主要输入参数

名称	描述	类型	默认值	必填
model	执行任务的首选 LLM 模型	str	gpt-4o	否
default_task	默认执行的任务	str	Find the pdf of the paper "GPT-4V(ision) is a Generalist Web Agent, if Grounded"	否
default_website	默认起始网站	str	https://www.google.com/	否
grounding_strategy	Grounding 策略：`text_choice` (使用文本选择) 或 `text_choice_som` (使用带标记的文本选择)	str	text_choice_som	否
config_path	配置文件路径	str	None	否
save_file_dir	保存输出文件的文件夹	str	seeact_agent_files	否
temperature	传递给 LLM 的 temperature 参数	num	0.9	否
crawler_mode	启用爬虫模式的标志	bool	False	否
crawler_max_steps	允许爬虫遍历的最大步数	int	10	否

支持的模型

SeeAct 最初支持 OpenAI GPT-4V，现在已支持其他模型。以下是目前支持的模型列表，要使用其中的模型，只需调用 SeeActAgent(model="模型名称") 并在需要时指定 API Key 即可。

提供商	模型	兼容性	API KEY	备注
OpenAI	gpt-4-vision-preview	高	环境中的 OPENAI_API_KEY
OpenAI	gpt-4-turbo	高	环境中的 OPENAI_API_KEY
OpenAI	gpt-4o	高	环境中的 OPENAI_API_KEY
Google	gemini-1.5-pro-latest	高	环境中的 GEMINI_API_KEY	Google 限制为 2 RPM，代码中需添加等待时间
Ollama	llava	低	N/A	安装并启动 Ollama，运行 `ollama pull llava`

API Keys

如果您计划使用 OpenAI 系列模型，请在 Python 中或通过环境变量传入 API Key：

os.environ["OPENAI_API_KEY"] = "Your API KEY Here"

您的 OpenAI API Key 可在 OpenAI 账户页面获取。

要使用 Gemini，请在 Python 中或通过环境变量传入 API Key：

os.environ["GEMINI_API_KEY"]

OSU-NLP-Group/SeeAct