谷歌推出TurboQuant压缩算法 KV缓存内存减少6倍推理速度提升8倍

泡沫大盗 • 2026年3月27日 12:17:00 • 新闻

谷歌研究团队近日正式推出全新向量量化压缩算法TurboQuant，通过创新的PolarQuant与QJL技术，将大语言模型推理过程中的键值缓存内存需求减少至少6倍，在Nvidia H100 GPU上注意力计算速度最高提升8倍，且在多项长上下文基准测试中实现零精度损失。

大语言模型在处理长序列时，需要维护由键和值向量组成的缓存来加速注意力计算，但随着上下文长度增加，这部分内存消耗呈爆炸式增长，成为制约推理效率和部署规模的主要瓶颈。传统向量量化方法虽能压缩数据，却需额外存储量化常数，部分抵消了压缩收益。

TurboQuant采用两阶段无训练压缩框架巧妙解决了这一问题。首先是PolarQuant极坐标角度压缩，通过对向量进行随机旋转后将笛卡尔坐标转换为极坐标形式，省去了传统量化中所需的边界归一化存储开销；随后是QJL 1-bit纠错技术，利用Johnson-Lindenstrauss变换进行降维并以极简符号进行量化，通过无偏估计器在计算注意力分数时实现零额外内存开销的误差修正。两者结合后，TurboQuant可将键值缓存压缩至约3-bit级别，同时保持内积估计的无偏性和高精度。

谷歌团队在Gemma、Mistral等开源模型上的验证显示，TurboQuant在LongBench等长上下文任务中全面领先，在检索任务中实现完美下游得分，同时内存压缩至少6倍。该技术无需模型重训或微调，可直接应用于现有大语言模型，有望被集成至vLLM、TensorRT等主流推理框架中，大幅降低AI部署成本，加速长上下文应用落地。

原创文章，作者：泡沫大盗，如若转载，请注明出处：https://www.kejixun.co/article/748593.html

TurboQuant 谷歌

泡沫大盗认证作者

0 0

AI

谷歌发布 Snapseed 4.0 安卓版修图软件，新增相机与胶片滤镜

5月9日，谷歌现已在 Play 商店发布 Snapseed 4.0 修图软件，为安卓用户带来 Snapseed Camera 相机，让用户能使用胶片滤镜拍照。本次更新包括：重新设…

校草
2天前
AI

谷歌为Gemma 4推出多Token预测技术，AI推理速度提升3倍

据外媒报道，近日，谷歌正式发布了针对Gemma 4系列模型的多Token预测起草器，这项技术突破通过推测解码架构，在不牺牲输出质量和逻辑能力的前提下，将模型的推理速度最高提升了3倍…

Google
3天前
新闻

谷歌停运 Project Mariner，跨网页自动化技术整合至 AI Mode

5 月 7 日，据报道谷歌于 5 月 4 日挂出横幅公告，宣布停运实验性网页自动化项目 Project Mariner。该项目技术并未废弃，已整合至 Gemini Agent 和 …

Google
4天前
AI

Anthropic承诺向谷歌支付2000亿美元，AI算力军备竞赛引发市场质疑

据最新消息，人工智能初创巨头Anthropic已承诺在未来五年内向谷歌支付总计2000亿美元的巨额资金，用于采购云服务及自研芯片算力。这一数字揭示了当前AI行业极高的算力门槛——业…

happy
4天前
新闻

美政府与微软、谷歌、xAI达成协议：前沿AI模型发布前须接受安全审查

据路透社报道，微软、谷歌及埃隆·马斯克创办的xAI已与美国政府达成一项新协议，将在新一代人工智能模型正式公开发布前，提前向美方开放模型权限，以便开展国家安全风险审查。美国商务部人工…

李小白
5天前
商业

谷歌母公司Alphabet市值直逼5万亿美元，有望超越英伟达重登全球第一

谷歌母公司Alphabet的市值正悄然逼近5万亿美元大关，有望超越当前人工智能领域的领头羊英伟达，重新成为全球市值最高的公司。在本周四股价大涨10%之后，Alphabet的一年涨幅…

商业头条
2026年5月4日
AI

谷歌、亚马逊、微软和Meta今年计划投入7250亿美元加码AI

当地时间4月30日，英国《金融时报》汇总的科技巨头一季度财报显示，谷歌、亚马逊、微软和Meta计划在2026年合计投入7250亿美元资本支出，较去年创纪录的4100亿美元大幅增长7…

野游栗
2026年5月3日
新闻

美国防部与七家AI公司签约，将先进工具接入机密网络

当地时间5月1日，美国国防部宣布与七家AI公司达成协议，将把这些公司的先进能力部署到国防部机密网络上，以扩大军方可以合作的AI企业范围。SpaceX、OpenAI、谷歌、英伟达、R…

NEWS
2026年5月2日
AI

通用汽车联手谷歌，为400万辆车推送Gemini AI助手

通用汽车近日正式宣布，将与谷歌展开深度合作，在全美范围内为旗下约400万辆汽车推送Gemini AI助手。这一部署将覆盖2022款及更新款的凯迪拉克、雪佛兰、别克以及GMC品牌车型…

李小白
2026年4月30日
新闻

谷歌Workspace应用图标全面换新，渐变色设计向AI看齐

继去年9月宣布将渐变色“G”标志定为公司新标识后，谷歌正将这一设计语言全面推向Workspace应用。据9to5Google当地时间4月26日报道，知情人士透露，Gmail邮箱、谷…

Google
2026年4月27日
AI

谷歌称75%新代码由AI生成，工程师转向审核角色

据《商业内幕》报道，谷歌当地时间周三披露，目前公司内部新编写的代码中已有四分之三由AI生成，随后再交由人类工程师审核。这一比例近年来持续攀升——截至2024年10月，该数字约为四分…

Google
2026年4月23日
AI

YouTube向娱乐行业开放人脸声纹检测技术，打击AI深度伪造

人工智能深度伪造技术为媒体创作带来诸多可能，其获取门槛已降至几乎人人可用的水平，但这也意味着不法分子同样能加以利用。如何管控网络上由AI生成的虚假欺骗性内容，成为当下最大担忧之一。…

聆听
2026年4月22日
AI

谷歌DeepMind组建Gemini精英团队，布林亲自督战追赶Anthropic

为了在AI编程领域缩短与Anthropic旗下Claude模型的差距，谷歌DeepMind近期重组力量，成立了一支由Sebastian Borgeaud领导的Gemini精英团队，…

Google
2026年4月22日
新闻

网页部署平台Vercel遭黑客入侵，第三方AI工具成攻击突破口

知名网页应用托管与开发平台Vercel近日证实遭遇一起安全入侵事件。一名自称是近期入侵Rockstar Games的幕后组织ShinyHunters成员的黑客，已在网上发布了部分窃…

小丸子
2026年4月20日
AI

谷歌联手Marvell开发两款AI芯片，挑战英伟达霸主地位

据科技媒体《The Information》援引两位知情人士消息报道，Alphabet旗下谷歌正与芯片设计公司Marvell Technology洽谈合作，共同研发两款专为高效运行…

小科同学
2026年4月20日
AI

谷歌向AI智能体开放Android开发指南

如今，任何人只要掌握提示词能力，就能成为Vibe Coding（氛围编程）开发者。ChatGPT、Claude、Gemini等工具甚至可以直接将一个点子转化为完整应用并发布到商店。…

Google
2026年4月18日
AI

Gucci携手谷歌2027年推智能眼镜，首个进入AI眼镜领域的奢侈品牌

据路透社4月17日凌晨报道，Gucci母公司开云集团CEO卢卡·德·梅奥表示，计划与谷歌合作推出Gucci品牌的智能眼镜，预计于2027年正式发布。这一举措有望使开云成为首个进入A…

李森
2026年4月17日
AI

波士顿动力Spot机器人获谷歌AI加持，可自主识别泄漏与爆炸风险

波士顿动力公司近日宣布，其四足机器人“Spot”已成功集成谷歌DeepMind开发的先进AI模型——Gemini Robotics-ER1.6，这一技术升级显著提升了机器人在工业检…

校草
2026年4月17日
AI

谷歌推出Mac原生版Gemini应用，支持全局快捷键唤醒

谷歌昨日（4月15日）正式发布Mac原生版Gemini应用，采用100% Swift语言开发，针对苹果Mac设备进行了深度优化。用户按下Option+Space即可唤起迷你聊天窗…

Google
2026年4月16日
AI

谷歌Chrome新增AI技能功能：常用提示词可一键复用

谷歌当地时间周二宣布，将为Chrome浏览器引入一系列人工智能新功能，其中最值得关注的是名为“Skills”（技能）的实用工具。该功能允许用户保存并重复使用自己常用的AI提示词，且…

Google
2026年4月15日

发表回复

登录后才能评论

谷歌推出TurboQuant压缩算法 KV缓存内存减少6倍推理速度提升8倍

相关推荐

发表回复