
谷歌研究团队近日正式推出全新向量量化压缩算法TurboQuant,通过创新的PolarQuant与QJL技术,将大语言模型推理过程中的键值缓存内存需求减少至少6倍,在Nvidia H100 GPU上注意力计算速度最高提升8倍,且在多项长上下文基准测试中实现零精度损失。
大语言模型在处理长序列时,需要维护由键和值向量组成的缓存来加速注意力计算,但随着上下文长度增加,这部分内存消耗呈爆炸式增长,成为制约推理效率和部署规模的主要瓶颈。传统向量量化方法虽能压缩数据,却需额外存储量化常数,部分抵消了压缩收益。
TurboQuant采用两阶段无训练压缩框架巧妙解决了这一问题。首先是PolarQuant极坐标角度压缩,通过对向量进行随机旋转后将笛卡尔坐标转换为极坐标形式,省去了传统量化中所需的边界归一化存储开销;随后是QJL 1-bit纠错技术,利用Johnson-Lindenstrauss变换进行降维并以极简符号进行量化,通过无偏估计器在计算注意力分数时实现零额外内存开销的误差修正。两者结合后,TurboQuant可将键值缓存压缩至约3-bit级别,同时保持内积估计的无偏性和高精度。
谷歌团队在Gemma、Mistral等开源模型上的验证显示,TurboQuant在LongBench等长上下文任务中全面领先,在检索任务中实现完美下游得分,同时内存压缩至少6倍。该技术无需模型重训或微调,可直接应用于现有大语言模型,有望被集成至vLLM、TensorRT等主流推理框架中,大幅降低AI部署成本,加速长上下文应用落地。
原创文章,作者:泡沫大盗,如若转载,请注明出处:https://www.kejixun.co/article/748593.html