vLLM 推理后端配置指南
vLLM 是一个快速且易于使用的大型语言模型推理库,通过 PagedAttention 技术高效管理注意力键值缓存。本文档将详细介绍如何在 ROLL 框架中配置和使用 vLLM 推理后端。
vLLM 简介
vLLM 是一个高性能的推理引擎,具有以下特点:
- 快速推理:通过 PagedAttention 技术高效管理注意力键值缓存
- 内存高效:通过量化和优化减少内存使用
- 易于使用:提供简单的 API 接口
- 可扩展性:支持分布式推理
配置 vLLM 策略
在 ROLL 框架中,可以通过在 YAML 配置文件中设置 strategy_args 来配置 vLLM 推理策略。
配置示例
以下是一个典型的 vLLM 配置示例(来自 examples/qwen2.5-7B-rlvr_megatron/rlvr_config.yaml):
actor_infer:
model_args:
disable_gradient_checkpointing: true
dtype: bf16
generating_args:
max_new_tokens: ${response_length}
top_p: 0.99
top_k: 100
num_beams: 1
temperature: 0.99
num_return_sequences: ${num_return_sequences_in_group}
strategy_args:
strategy_name: vllm
strategy_config:
gpu_memory_utilization: 0.8
block_size: 16
max_model_len: 8000
device_mapping: list(range(0,12))
infer_batch_size: 1