
据外媒报道,近日,谷歌正式发布了针对Gemma 4系列模型的多Token预测起草器,这项技术突破通过推测解码架构,在不牺牲输出质量和逻辑能力的前提下,将模型的推理速度最高提升了3倍。作为全球最受关注的开源模型之一,Gemma 4发布后短时间内下载量已突破6000万次,而此次更新的核心目标正是解决大语言模型长期存在的推理瓶颈,进一步压榨计算资源的效能。
传统语言模型的推理往往受限于显存带宽,处理器在生成文本时需要耗费大量时间将数百亿个参数从显存搬运到计算单元,导致硬件资源大部分处于闲置状态,产生明显的回复延迟。谷歌引入的推测解码技术则采用一种“主从配合”模式:系统将Gemma 4 31B等重型目标模型与轻量级的MTP起草器配对,起草器利用闲置算力提前预测未来可能出现的多个字符,再由主模型进行并行验证。一旦预测匹配,模型就能在单次计算中直接确认整个序列,大幅缩短文本生成时间。
根据官方测试数据,这种加速效果在本地设备上表现尤为亮眼。在Apple Silicon芯片环境下,Gemma 4 26B模型的本地运行速度提升了约2.2倍。这意味着开发者如今可以在个人电脑或普通消费级显卡上流畅运行复杂的离线编程助手或智能体工作流,同时推理效率的提升也显著降低了边缘设备的能耗。此次技术更新主要针对即时聊天机器人、自动化编程工具等低延迟需求场景,谷歌通过MTP起草器证明,即使在资源受限的硬件环境下,开发者也能部署最先进的语言模型,无需在响应速度和计算精度之间做取舍。随着推理成本和门槛进一步降低,Gemma 4正将AI从云端推向更广泛的个人计算终端。
原创文章,作者:Google,如若转载,请注明出处:https://www.kejixun.co/article/752108.html