模型arxiv cs.LG · 1mo ago重要

Do Transformers Need Three Projections? Systematic Study of QKV Variants

分类释义：新模型发布或升级

TL;DR

研究者系统评估 Transformer 中 QKV 三投影的共享变体，发现 Q-K=V 共享可将 KV 缓存减少 50% 而 perplexity 仅下降 3.1%，结合 GQA/MQA 可达 87.5%-96.9% 缓存压缩。

关键要点

为什么值得关注

这篇论文提供了可直接用于边缘推理优化的投影共享技术：Q-K=V 共享与 GQA-4 结合可实现 87.5% KV 缓存压缩，且代码已开源，工程师可立即复现并集成到推理优化流程中。

LLM 实时生成MiniMax-M2.7缓存命中

角色	你应该做什么
Tech Lead	评估将 Q-K=V 共享 + GQA-4 作为新项目的默认推理配置，尤其是在边缘部署场景
应用工程师	查阅开源代码，复现论文中的投影共享方案并集成到现有推理流程
运维 / 平台	测试 KV 缓存压缩方案对显存占用和推理吞吐量的实际收益，更新部署配置
产品 / 业务	暂无直接影响，了解即可

阅读原文 ↗来源：arxiv cs.LG