ROLL 异步训练功能使用指南
ROLL 框架现已支持 RLVR 和 Agentic pipeline 的异步训练功能,可以显著提高训练效率。本文档将详细介绍如何使用这一功能。
异步训练概述
在传统的同步训练中,训练和推理过程是串行执行的,即必须等待一批推理完成并收集到奖励后才能开始下一批推理。而在异步训练中,训练和推理可以并行进行,推理过程可以提前生成多个批次的数据,训练过程可以使用这些预先生成的数据进行学习。
开启异步训练
要开启异步训练功能,需要在配置文件中设置 async_generation_ratio 参数。该参数在 RLVR 和 Agentic pipeline 中的含义和使用方式完全一致。