
Google DeepMind日前正式发布了有史以来最强大的开放模型Gemma4。虽然该模型参数规模维持在约300亿左右,但“单位参数的智能密度”实现大幅飞跃,在多项核心任务上的性能已可媲美一年半前的顶尖闭源大模型。
Gemma4最引人注目的技术创新是引入了全新的“E2B”参数卸载架构。传统Transformer中庞大的嵌入层会占用大量显存,而新架构在每一层中加入嵌入表,利用查找表机制替代繁重的全矩阵乘法计算。以一款50亿参数的模型为例,在E2B架构下,实际需加载到GPU显存中的“有效参数”仅为20亿,其余30亿可卸载到CPU甚至磁盘。这意味着模型仅需2GB显存便能实现极速推理,彻底突破了移动端、智能手机和树莓派等端侧设备的部署瓶颈。
目前,Gemma4已与Android Studio深度集成,开发者可在本地离线环境下安全调用AI编写Android代码,满足数据隐私和离线办公的刚性需求。该模型还承袭了Gemini3的研究成果,支持140种语言和语音识别,能够分析30至60秒的短视频。Google DeepMind预判,未来1到2年内,智能手机将能直接在本地流畅运行相当于Gemini3 Pro级别性能的强悍模型,届时绝大多数智能体代理任务将无需依赖云端算力,为消费级应用带来颠覆性变革。
原创文章,作者:net,如若转载,请注明出处:https://www.kejixun.co/article/754210.html