darkrishabh/

agent-skills-eval

A test runner for agentskills.io-style AI agent skills

42316 forksTypeScript· 分析于 2mo ago

一句话定位

一个用于运行和评估 agentskills.io 风格 AI agent 技能的 CLI 测试框架，支持 YAML/JSONL 配置批量执行测试用例。

判断

实用

解决了 agent 开发中缺乏标准化评估工具的问题，YAML 配置方式比硬编码测试更灵活，但相比 Braintrust 等专业平台功能较基础，适合需要自己搭建评估流水线的小团队。

在合适的场景下值得直接采用，但不是普适必装。

30 秒上手

基于语言推断的标准命令

$ npm install agent-skills-eval

或 pnpm / yarn 等价命令

最适合的 3 个场景

每周 LLM 自动巡检

总 Star

423→

Forks

16→

语言

TypeScript→

分析时间

2mo ago→

作者短评

符合「能用就用、不能用就放着」的标准。先收藏，等你下次遇到对应场景再 deep dive 不迟。

— xaikey · 基于 LLM 分析 + 个人判断

Topics

agent-evalsagent-skillsagentskillsai-agentsclijsonlllm-evalsllm-evaluationopenai-compatibletypescriptyaml

n8n 是一个开源的工作流自动化平台，支持可视化拖拽编排和自定义代码，可自托管或使用云端版本，具备原生 AI 能力。

一个开源的 AI 编程代理，能够根据自然语言指令自动编写、修改代码并执行编程任务。

Firecrawl 是一个面向 AI 应用的大规模网页爬取和搜索 API，能将网页转换为 Markdown 格式，便于 LLM 直接消费。

本页 LLM 分析由 MiniMax-M2.7 / Claude Haiku 4.5 等模型生成 · 不构成生产环境技术选型建议