darkrishabh/

agent-skills-eval

A test runner for agentskills.io-style AI agent skills

42316 forksTypeScript· 分析于 1mo ago
一句话定位

一个用于运行和评估 agentskills.io 风格 AI agent 技能的 CLI 测试框架,支持 YAML/JSONL 配置批量执行测试用例。

判断
实用

解决了 agent 开发中缺乏标准化评估工具的问题,YAML 配置方式比硬编码测试更灵活,但相比 Braintrust 等专业平台功能较基础,适合需要自己搭建评估流水线的小团队。

在合适的场景下值得直接采用,但不是普适必装。

30 秒上手

基于语言推断的标准命令
$ npm install agent-skills-eval

或 pnpm / yarn 等价命令

最适合的 3 个场景
  • 1对开源 AI agent 项目(如 LangChain、AutoGPT)进行可复现的技能评估
  • 2用 YAML 文件定义测试集,快速验证 agent 在特定任务上的表现
  • 3在 CI 流程中集成 agent 质量回归测试
同类对比
vsagentskills.io
vsBraintrust
vsRAGAS
vsLangSmith

完整对比报告(含矩阵评分)即将上线,订阅后第一时间收到。

值得追的健康信号

每周 LLM 自动巡检
总 Star
423
Forks
16
语言
TypeScript
分析时间
1mo ago
x
作者短评

符合「能用就用、不能用就放着」的标准。先收藏,等你下次遇到对应场景再 deep dive 不迟。

— xaikey · 基于 LLM 分析 + 个人判断
Topics
agent-evalsagent-skillsagentskillsai-agentsclijsonlllm-evalsllm-evaluationopenai-compatibletypescriptyaml

其他 TypeScript 趋势仓库

本页 LLM 分析由 MiniMax-M2.7 / Claude Haiku 4.5 等模型生成 · 不构成生产环境技术选型建议