英伟达开源“双塔”扩散语言模型,生成吞吐量提升超两倍

英伟达开源“双塔”扩散语言模型,生成吞吐量提升超两倍

昨日,英伟达正式开源了旗下最新的Nemotron-Labs-TwoTower扩散语言模型,以一套名为“双塔”的架构创新,试图打破传统自回归模型在文本生成中的吞吐量瓶颈。传统自回归模型需逐token串行解码,面对大规模合成任务时效率明显不足,而英伟达的方案将任务拆解为两个部分:保持冻结的“上下文塔”负责处理提示词并保留原有语言理解能力,经过专门训练的“去噪器塔”则并行生成并优化token。

这一设计巧妙平衡了质量与速度——在2×H100 GPU的评测环境下,模型保留了基线模型98.7%的生成质量,同时实际生成吞吐量实现了2.42倍的显著提升,对于需要批量生产合成文本的数据团队而言,兼具高性能与高效率。

该模型还具备极高的灵活性,支持扩散模式、模拟自回归和标准自回归三种解码方式,开发者可根据任务需求自由选择。目前,模型已作为开放权重项目发布,遵循NVIDIA Nemotron开放模型许可协议,完全支持商业用途。尽管在代码生成和数学推理任务上相较原始基线有轻微性能回落,且对GPU显存有一定要求,但其为大模型推理加速提供了极具潜力的技术方向。

随着人工智能应用向高频、大规模场景持续渗透,通过算法架构优化来换取生成速度的思路,正成为模型研发领域不可忽视的新趋势,而英伟达此次开源无疑为这一赛道注入了强劲动能。

原创文章,作者:AI,如若转载,请注明出处:https://www.kejixun.co/article/756574.html

AI的头像AI认证作者

相关推荐

发表回复

登录后才能评论