AutoWebGLM：基于大语言模型的网页导航智能体

这是 AutoWebGLM 的官方实现。如果您觉得我们的开源工作对您有所帮助，请给本项目点个 🌟 以支持我们的后续开发！

概览

paper

AutoWebGLM 是一个旨在构建更高效、由语言模型驱动的自动化网页导航智能体的项目。该项目基于 ChatGLM3-6B 模型构建，扩展了其网页导航能力，使其能更有效地应对现实世界的浏览挑战。

特性

HTML 简化算法：受人类浏览模式启发，我们设计了一种 HTML 简化算法，在保留关键信息的同时，使网页内容更易于被 LLM 智能体理解。
人机混合训练：我们结合人类与 AI 的知识构建了用于课程训练的网页浏览数据，增强了模型实际的导航能力。
强化学习与拒绝采样：通过强化学习和拒绝采样进行引导，我们增强了模型的网页理解能力、浏览器操作能力以及高效的任务分解能力。
双语网页导航基准测试：我们推出了 AutoWebBench——一个面向现实网页浏览任务的双语（中英）基准测试。该基准测试为测试和完善 AI 网页导航智能体的能力提供了一个强有力的工具。

评估

我们已公开了评估代码、数据和环境。您可以通过以下代码进行实验。

AutoWebBench 与 Mind2Web

您可以在 AutoWebBench 和 Mind2Web 获取我们的评估数据集。关于模型推理的代码，请参考 ChatGLM3-6B。获得输出文件后，可以通过 python eval.py [result_path] 获取分数。

WebArena

为了适配我们系统的交互，我们对 WebArena 环境进行了修改；详情请见 WebArena。相关的修改内容和执行说明可在其 README 中找到。

MiniWob++

我们同样对 MiniWob++ 环境进行了修改，详情请见 MiniWob++。相关的修改内容和执行说明可在其 README 中找到。

许可协议

本仓库采用 Apache-2.0 License 许可协议。所有开源数据仅供研究目的使用。

引用

如果您在研究中使用了此代码，请引用我们的论文。

@inproceedings{lai2024autowebglm,
    author = {Lai, Hanyu and Liu, Xiao and Iong, Iat Long and Yao, Shuntian and Chen, Yuxuan and Shen, Pengbo and Yu, Hao and Zhang, Hanchen and Zhang, Xiaohan and Dong, Yuxiao and Tang, Jie},
    title = {AutoWebGLM: A Large Language Model-based Web Navigating Agent},
    booktitle = {Proceedings of the 30th ACM SIGKDD Conference on Knowledge Discovery and Data Mining},
    pages = {5295–-5306},
    year = {2024}
}

THUDM/AutoWebGLM

AutoWebGLM：基于大语言模型的网页导航智能体

概览

特性

评估

AutoWebBench 与 Mind2Web

WebArena

MiniWob++

许可协议

引用