论文arxiv cs.LG · 3w ago重要
UCCI: Calibrated Uncertainty for Cost-Optimal LLM Cascade Routing
分类释义:学术论文 / 技术报告
TL;DR
UCCI通过等渗回归将token级margin不确定性校准为错误概率,在NER任务上实现31%推理成本降低,ECE从0.12降至0.03,同时保持micro-F1=0.91。
关键要点
- 01UCCI通过等渗回归将token级margin不确定性校准为错误概率。
- 02在NER任务上实现31%推理成本降低。
- 03ECE从0.12降至0.03。
- 04同时保持micro-F1=0.91。
为什么值得关注
该方法为LLM级联路由提供了理论保证的成本最优阈值选择策略,避免了现有方案依赖人工调参的问题,可直接应用于生产环境的多模型路由决策。
对你的工程实践意味着什么
LLM 实时生成MiniMax-M2.7缓存命中
| 角色 | 你应该做什么 |
|---|---|
| Tech Lead | 评估将UCCI集成到现有LLM路由架构的技术可行性和ROI |
| 应用工程师 | 在NER任务场景中试点验证UCCI的校准效果和成本收益 |
| 运维 / 平台 | 评估该方案对推理服务基础设施的改动影响和部署要求 |
| 产品 / 业务 | 暂无直接影响,了解即可 |
同类资讯
本页 TL;DR 与「为什么」由 LLM 生成 · 模型:MiniMax-M2.7 / Claude Haiku 4.5