Prompt生成指南
在基于大语言模型(LLM)的强化学习 Agent 体系中,Prompt 是 LLM 与环境进行交互的唯一介质。LLM 不像传统 Agent 那样直接接收数值状态或输出离散动作 ID,而是通过文本形式的 Prompt 来“感知”环境(观测)并“表达”其决策(动作)。
核心概念
在我们的框架中,Prompt 的生成遵循以下几个关键原则:
- LLM 输入是文本:无论环境的原始观测是图像、网格还是其他结构,最终都会被转化为 LLM 能够理解的文本格式。
- Prompt 是动态且上下文相关的:Prompt 不仅仅是当前的环境观测,它会包含历史对话、之前的行动、获得的奖励等信息,形成一个连贯的对话上下文。
- Prompt 是结构化的对话格式:Prompt 通常遵循 LLM 的聊天模板(如 System/User/Assistant 角色),以便 LLM 更好地理解不同部分的意图。
- Prompt 指导 LLM 行为:通过精确的指令、输出格式要求和思考链提示,Prompt 能够引导 LLM 按照预期的方式生成响应。
Prompt 的生成主要由 EnvManager 类中的 _format_messages 方法负责。