skill-up面向 Agent Skill 开发者的评测框架

用 YAML 声明评测环境、依赖、用例与评分策略，本地或 CI 中一键运行。

AI 辅助配合 skill-upper

使用 skill-upper Agent Skill，通过自然对话与 AI Agent（如 Cursor、Claude Code、Qoder 等）创建和运行评测，无需记忆 CLI 语法。

了解更多

通过 YAML（eval.yaml + cases/*.yaml）定义评测环境、引擎、模型与用例。

配置参考

支持 Qoder CLI、Claude Code、Codex 等多种 Agent Engine。

内置 rule_based、script、agent_judge 三类评判策略。

评估策略

输出 Anthropic 兼容的 grading.json、benchmark.json，以及 result.json、JUnit XML 与 HTML 报告。

产物结构

通过 skill-up import 导入 evals.json，或使用 --auto 自动识别。

迁移指南

同时面向本地开发与持续集成流水线设计。

退出码说明