
2026年开年,人工智能基础设施迎来关键转折:英伟达以200亿美元授权费引入Groq的专用推理架构,标志着通用GPU主导推理时代的终结。德勤数据显示,2025年底,AI模型推理环节的收益首次超越训练环节,延迟与状态保持能力成为新竞争核心。面对预填充与解码任务的结构性分化,英伟达不再依赖单一GPU架构,而是将Groq的SRAM高速缓存技术嵌入其Vera Rubin芯片体系,专攻低延迟解码场景,同时以GDDR7内存替代HBM,降低大规模预填充成本。
SRAM的超低能耗特性——单数据位传输仅需0.1皮焦耳——使其成为边缘AI、语音识别与实时机器人控制的理想载体,尤其适配参数低于80亿的精简模型。这一细分市场正因模型压缩技术爆发而迅速扩张,而英伟达此前并未布局。与此同时,Anthropic成功实现Claude模型在TPU与GPU间的无缝迁移,打破CUDA生态垄断,迫使英伟达通过技术整合守住生态护城河。Meta收购Manus公司,更凸显KV缓存命中率对智能体连续推理的关键作用,Groq的SRAM正成为这一“短期记忆”系统的理想载体。
未来,AI架构不再是“买什么芯片”,而是“把任务发往哪里”。预填充、解码、边缘、云端——每类负载都将被精准路由至最适配的硬件单元。英伟达的这场战略转身,不是退让,而是对碎片化时代的主动重构。
原创文章,作者:AI,如若转载,请注明出处:https://www.kejixun.co/article/742868.html