简体中文
主题
用 YAML 声明评测环境、依赖、用例与评分策略,本地或 CI 中一键运行。
通过 YAML(eval.yaml + cases/*.yaml)定义评测环境、引擎、模型与用例。
配置参考
支持 Qoder CLI、Claude Code、Codex 等多种 Agent Engine。
内置 rule_based、script、agent_judge 三类评判策略。
评估策略
输出 Anthropic 兼容的 grading.json、benchmark.json,以及 result.json、JUnit XML 与 HTML 报告。
产物结构
通过 skill-up import 导入 evals.json,或使用 --auto 自动识别。
迁移指南
同时面向本地开发与持续集成流水线设计。
退出码说明