开源框架 · 强大且易用
Reinforcement Learning
Optimization
for Large-scale
Learning
面向大规模学习的强化学习优化框架
阿里巴巴开源的强化学习库,专为大语言模型优化。支持分布式训练、多任务学习与智能体交互,让 AI 模型训练更简单、更高效。

ROLL
框架概览
ROLL(面向大规模学习的强化学习优化框架,Reinforcement Learning Optimization for Large-scale Learning)是阿里巴巴开源的强化学习框架,专为大语言模型设计。基于 Ray 分布式架构构建,支持 PPO、GRPO 等主流算法,提供从研究到生产的完整解决方案。
Github星标
贡献者
提交
为什么
选择 ROLL

核心优势
ROLL 框架提供全面的强化学习支持,涵盖从模型训练到智能体部署的全流程,每个环节均经过精心优化,让 AI 训练更高效。
为规模化而生
基于 Ray 的分布式架构构建,支持千卡 GPU 级别的大规模集群训练。其创新的 Rollout 调度器与 AutoDeviceMapping 模块显著提升了 GPU 资源利用率。
极致训练效率
集成 Megatron-Core、SGLang 和 vLLM 等前沿技术,显著加速模型训练与推理采样过程。
丰富的算法与场景支持
内置 PPO、GRPO 等主流强化学习算法,支持多任务强化学习与智能体交互场景,并已在众多实际业务应用中验证其有效性。
开源易用
ROLL 已在 GitHub(https://github.com/alibaba/ROLL)上开源,采用 Apache License 2.0 许可证,并由活跃的社区和完善的文档提供支持。
开源社区
加入我们充满活力的开源社区,与全球 AI 研究者共同探索前沿强化学习技术,携手推动大语言模型与强化学习的未来发展。
如何贡献
贡献算法实现与性能优化
分享实验结果与最佳实践
完善教程与学习资源
参与讨论