inclusionAI/AReaL

Lightning-Fast RL for LLM Reasoning and Agents. Made Simple & Flexible.

agentllmllm-agentllm-reasoningmachine-learning-systemsmlsysreinforcement-learningrl

GAI 中文摘要

AReaL 是一个开源的大规模全异步强化学习训练系统，专门针对大语言模型的推理能力与智能体开发而设计。该系统由清华大学交叉信息院及蚂蚁集团团队共同开发，旨在提供高效率、高灵活性且易于复现的基础设施，帮助开发者更轻松、低成本地构建高性能 AI 智能体。

提供高度灵活的配置接口，仅需替换基础路径即可无缝适配各种智能体强化学习与在线训练任务。

具备工业级的全异步训练稳定性与计算速度，能够高效支持大规模模型的高性能训练需求。

集成最先进的自进化数据合成引擎，在数学推理、代码编写及复杂任务搜索等领域实现了业界领先的性能表现。

提供从训练细节、数据集到模型权重的全套开源资源，确保研究成果与模型训练过程的高度可复现性。

适用于需要进行大规模强化学习训练的研究人员与开发者，特别适合在数学、编程及客服等复杂场景中构建具备高级推理能力的 AI 智能体。

⭐

4.9k

Stars

🔱

437

Forks

👁

Watchers

📋

Issues

PythonApache-2.0创建于 2025/2/24更新于今天

在 GitHub 上查看访问主页

README

由 Gemini 翻译整理

AReaL：大规模异步强化学习系统

论文	文档	中文文档	Ask DeepWiki	🤗 模型与数据	微信群

AReaL 是一个开源的完全异步强化学习训练系统，专为大型推理和智能体（Agentic）模型设计，由清华大学 IIIS 和蚂蚁集团 AReaL 团队成员共同开发。该项目构建于开源项目 ReaLHF 之上，我们致力于秉持开源精神，提供复现结果所需的训练细节、数据、基础设施以及模型本身。AReaL 旨在帮助每个人轻松、经济地构建自己的 AI 智能体。我们的团队热爱奶茶，因为奶茶美味、可定制且价格亲民——我们希望您能像享受美味奶茶一样享受我们的项目。干杯！

AReaL 亮点

⚡ 灵活性：通过简单替换 base_url，即可无缝定制智能体 RL 和在线 RL 训练。
📈 可扩展性：稳定的完全异步 RL 训练，具备行业领先的速度。
✨ 前沿性能：支持最先进的数学、编程、搜索和客户服务智能体。

📰 新闻

[2026/03/02] 我们提供了一个完整示例，只需将 base_url 和 api_key 替换为 AReaL 的 RL 服务，即可训练您自己的 🦞 OpenClaw 智能体——无需复杂的依赖，无需更改代码，适用于任何智能体运行时！

[2026/02/06] 我们很高兴推出 AReaL-SEA，这是一个自进化数据合成引擎。结合 AReaL 上的 RL 训练，其 235B MoE 模型在 $\tau^2$-bench 上超越了 GPT-5，并达到了与 Gemini 3.0 Pro 相当的性能！查看论文、模型、数据和代码。

[2026/01/15] 祝贺 CAMEL-AI 的朋友们开源了 SETA，这是他们使用 AReaL 训练的终端智能体 RL 项目！查看他们的训练工作流和 X 上的公告。

📋 往期发布

[2026/01/01] 新年快乐！感谢 @HwVanICI 的杰出贡献，我们很高兴正式宣布稳定支持在 昇腾（Ascend）NPU 设备 上进行 AReaL 训练！代码在 ascend 分支中积极维护并持续更新。查看我们的文档开始使用，欢迎反馈任何问题！

[2025/08/30] 推出 ASearcher，这是一个基于 AReaL 端到端异步 RL 训练构建的最先进搜索智能体。查看论文和开源仓库！

[2025/07/31] (AReaL-lite) 我们推出了 AReaL-lite，这是 AReaL 的轻量级版本，专为 AI 研究人员和快速原型设计而打造。AReaL-lite 采用算法优先的 API 设计，优先考虑易用性和算法开发，同时原生支持完全异步的智能体 RL。在代码量减少 80% 的情况下，AReaL-lite 保持了 AReaL 90% 的性能和核心功能。查看我们的 AReaL-lite 设计文档和快速入门指南开始您的 AReaL-lite 之旅！

[2025/06/03] (v0.3, boba²) 我们发布了用于完全异步 RL 训练的 boba²（双倍波霸），与同步系统相比，它实现了 2.77 倍的速度提升，同时提供了相当或更优的训练性能。此外，异步 RL 极大地简化了多轮智能体 RL 的训练设置！查看我们的 v0.3 概述博客和研究论文。

[2025/03/31] (v0.2, boba) 推出我们的里程碑版本——boba！请称呼它为 A-ReaL-boba！此版本具有更快的训练速度，支持 SGLang，并提供用于数学推理的最先进 7B 和 32B 模型。查看我们的 v0.2 技术博客。

[2025/02/24] (v0.1) 我们的初始版本包含了 1.5B 和 7B 大型推理模型 (LRMs) 的可复现结果。查看我们的 v0.1 技术博客。

🚀 快速开始

首先，安装该软件包：

git clone https://github.com/inclusionAI/AReaL
cd AReaL
pip install -e .