TurboQuant
-
谷歌推出TurboQuant压缩算法 KV缓存内存减少6倍推理速度提升8倍
谷歌研究团队近日正式推出全新向量量化压缩算法TurboQuant,通过创新的PolarQuant与QJL技术,将大语言模型推理过程中的键值缓存内存需求减少至少6倍,在Nvidia …
谷歌研究团队近日正式推出全新向量量化压缩算法TurboQuant,通过创新的PolarQuant与QJL技术,将大语言模型推理过程中的键值缓存内存需求减少至少6倍,在Nvidia …