© 2026FindAgent  · @simprr
返回列表
l

lavague-ai/LaVague

Large Action Model framework to develop AI Web Agents

aibrowserlarge-action-modelllmossrag
⭐

6.3k

Stars

🔱

577

Forks

👁

53

Watchers

📋

102

Issues

PythonApache-2.0创建于 2024/2/26更新于 今天
在 GitHub 上查看访问主页
README
由 Gemini 翻译整理

欢迎来到 LaVague

一个用于开发 AI Web Agent 的 Large Action Model 框架。

LaVague:面向构建者的 Web Agent 框架

LaVague 是一个开源框架,专为希望创建 AI Web Agent 以实现终端用户流程自动化的开发者而设计。

我们的 Web Agent 可以接收一个目标(例如:“打印 Hugging Face Diffusers 库的安装步骤”),并生成并执行实现该目标所需的动作。

LaVague Agent 由以下部分组成:

  • World Model(世界模型):接收目标和当前状态(即当前网页),并输出一组适当的指令。
  • Action Engine(动作引擎):将这些指令“编译”为动作代码(例如 Selenium 或 Playwright 代码)并执行它们。

LaVague QA:专为 QA 工程师打造的工具

🌊 基于 LaVague 构建

LaVague QA 是为利用我们框架的 QA 工程师量身定制的工具。

它允许你将 Gherkin 规范转化为易于集成的测试,从而实现测试编写的自动化。LaVague QA 是一个在后台利用 LaVague 框架的项目,旨在使 Web 测试效率提升 10 倍。

有关详细信息和安装说明,请访问 LaVague QA 文档。

🚀 快速开始

演示

以下是一个示例,展示了 LaVague 如何采取多个步骤来实现“进入 PEFT 的快速导览(quicktour)”这一目标:

动手实践

你可以通过以下步骤实现:

  1. 下载 LaVague:
pip install lavague
  1. 使用我们的框架构建一个 Web Agent 并实现目标:
from lavague.core import  WorldModel, ActionEngine
from lavague.core.agents import WebAgent
from lavague.drivers.selenium import SeleniumDriver

selenium_driver = SeleniumDriver(headless=False)
world_model = WorldModel()
action_engine = ActionEngine(selenium_driver)
agent = WebAgent(world_model, action_engine)
agent.get("https://huggingface.co/docs")
agent.run("Go on the quicktour of PEFT")

# 启动 Gradio Agent 演示
agent.demo("Go on the quicktour of PEFT")

有关此示例以及如何使用 LaVague 的更多信息,请参阅我们的 快速导览 (quick-tour)。

注意:这些示例使用我们默认的 OpenAI API 配置,你需要先在本地环境中设置 OPENAI_API_KEY 变量,并确保使用有效的 API Key 才能正常运行。

如需查看 Google Colab 中的端到端 LaVague 示例,请参阅我们的 快速导览 Notebook。

核心功能

  • ✅ 内置上下文 (Built-in Contexts)(即配置)
  • ✅ 可自定义配置
  • ✅ 测试运行器,用于测试和基准测试 LaVague 的性能
  • ✅ Token 计数器,用于估算 Token 使用量和成本
  • ✅ 日志记录工具
  • ✅ 可选的交互式 Gradio 界面
  • ✅ 调试工具
  • ✅ Chrome 扩展程序

支持的驱动程序

我们支持三种驱动选项:

  • Selenium Webdriver
  • Playwright webdriver
  • Chrome 扩展程序驱动

请注意,并非所有驱动程序都支持所有 Agent 功能:

功能SeleniumPlaywrightChrome 扩展程序
无头 (Headless) Agent✅⏳N/A
处理 iframe✅✅❌
打开多个标签页✅⏳✅
高亮显示元素✅✅✅

✅ 已支持 ⏳ 即将推出 ❌ 不支持

🔎 技术支持

如果你在使用 LaVague 时遇到任何问题,可以:

  • 查看我们的 故障排除指南,其中列出了常见问题的解决方法。
  • 在 GitHub 上提交 issue 描述你的问题。
  • 在我们的 Discord 服务器的 '#support' 频道中给我们留言。

🙋 贡献指南

我们非常欢迎你的帮助和支持,共同构建一个健壮且可靠的 Web 自动化 Large Action Model。

为了避免多人重复工作,我们制定了以下贡献流程:

  1. 📢 我们会列出任务。
贡献者
lJmaddpjmy
项目信息
默认分支main
LicenseApache License 2.0
创建时间2024/2/26
最近更新今天
GAI 中文摘要

LaVague 是一个基于大型行动模型(Large Action Model)的开源开发框架,旨在帮助开发者构建能够自动执行网络任务的 AI Web 智能体。它通过理解用户目标并将其转化为浏览器操作指令,有效解决了网页交互自动化开发的复杂性问题。

该框架将用户目标与当前页面状态结合,自动生成相应的执行逻辑。它内置了强大的动作引擎,能够将智能体生成的指令编译为 Selenium 或 Playwright 等自动化代码。支持通过自然语言描述目标,实现复杂的多步骤网页操作流程。此外,其衍生工具 LaVague QA 专门面向质量保证工程师,能够将 Gherkin 规范直接转化为自动化测试脚本。

该框架适用于需要进行网页流程自动化、数据抓取或自动化测试的开发者与 QA 工程师。它特别适合用于构建自动执行任务的智能助手,或提升 Web 端回归测试与功能验证的效率。