论文arxiv cs.AI · 1mo ago重要

ToolSense: A Diagnostic Framework for Auditing Parametric Tool Knowledge in LLMs

分类释义：学术论文 / 技术报告

TL;DR

ToolSense 发现当前主流的工具检索模型存在严重的「知识-检索解耦」现象：检索Benchmark表现好的模型，在事实性探测题上接近随机猜测，说明模型并未真正理解工具。

关键要点

为什么值得关注

工程师在评估或选型 tool-calling agent 时，不能只看检索指标，必须探测模型对工具功能的真实理解；可借鉴 ToolSense 的探测框架，用 MCQ 和 QA probes 来做更严格的回归测试。

LLM 实时生成MiniMax-M2.7缓存命中

角色	你应该做什么
Tech Lead	在团队 tool-calling 选型流程中增加 MCQ/QA 探测环节，不再仅依赖检索Benchmark指标
应用工程师	建立针对工具功能理解的回归测试用例，覆盖边界场景和参数依赖关系
运维 / 平台	暂无直接影响，了解即可
产品 / 业务	在模型评估报告中要求技术侧补充「功能理解探测」维度，而非只看检索准确率

阅读原文 ↗来源：arxiv cs.AI