TurboQuant

新闻

谷歌推出TurboQuant压缩算法 KV缓存内存减少6倍推理速度提升8倍

谷歌研究团队近日正式推出全新向量量化压缩算法TurboQuant，通过创新的PolarQuant与QJL技术，将大语言模型推理过程中的键值缓存内存需求减少至少6倍，在Nvidia …

泡沫大盗
2026年3月27日