论文arxiv cs.LG · 3w ago重要

UCCI: Calibrated Uncertainty for Cost-Optimal LLM Cascade Routing

分类释义:学术论文 / 技术报告

TL;DR

UCCI通过等渗回归将token级margin不确定性校准为错误概率,在NER任务上实现31%推理成本降低,ECE从0.12降至0.03,同时保持micro-F1=0.91。

关键要点

  • 01UCCI通过等渗回归将token级margin不确定性校准为错误概率
  • 02在NER任务上实现31%推理成本降低
  • 03ECE从0.12降至0.03
  • 04同时保持micro-F1=0.91
为什么值得关注

该方法为LLM级联路由提供了理论保证的成本最优阈值选择策略,避免了现有方案依赖人工调参的问题,可直接应用于生产环境的多模型路由决策。

对你的工程实践意味着什么

LLM 实时生成MiniMax-M2.7缓存命中
角色你应该做什么
Tech Lead评估将UCCI集成到现有LLM路由架构的技术可行性和ROI
应用工程师在NER任务场景中试点验证UCCI的校准效果和成本收益
运维 / 平台评估该方案对推理服务基础设施的改动影响和部署要求
产品 / 业务暂无直接影响,了解即可
阅读原文 ↗来源:arxiv cs.LG

同类资讯

本页 TL;DR 与「为什么」由 LLM 生成 · 模型:MiniMax-M2.7 / Claude Haiku 4.5