模型arxiv cs.LG · 1w ago重要
Do Transformers Need Three Projections? Systematic Study of QKV Variants
分类释义:新模型发布或升级
TL;DR
研究者系统评估 Transformer 中 QKV 三投影的共享变体,发现 Q-K=V 共享可将 KV 缓存减少 50% 而 perplexity 仅下降 3.1%,结合 GQA/MQA 可达 87.5%-96.9% 缓存压缩。
关键要点
- 01研究者系统评估 Transformer 中 QKV 三投影的共享变体。
- 02发现 Q-K=V 共享可将 KV 缓存减少 50% 而 perplexity 仅下降 3.1%。
- 03结合 GQA/MQA 可达 87.5%-96.9% 缓存压缩。
为什么值得关注
这篇论文提供了可直接用于边缘推理优化的投影共享技术:Q-K=V 共享与 GQA-4 结合可实现 87.5% KV 缓存压缩,且代码已开源,工程师可立即复现并集成到推理优化流程中。
对你的工程实践意味着什么
LLM 实时生成MiniMax-M2.7缓存命中
| 角色 | 你应该做什么 |
|---|---|
| Tech Lead | 评估将 Q-K=V 共享 + GQA-4 作为新项目的默认推理配置,尤其是在边缘部署场景 |
| 应用工程师 | 查阅开源代码,复现论文中的投影共享方案并集成到现有推理流程 |
| 运维 / 平台 | 测试 KV 缓存压缩方案对显存占用和推理吞吐量的实际收益,更新部署配置 |
| 产品 / 业务 | 暂无直接影响,了解即可 |
同类资讯
本页 TL;DR 与「为什么」由 LLM 生成 · 模型:MiniMax-M2.7 / Claude Haiku 4.5