‌Meta AI推出Matrix框架:破解合成数据生成瓶颈,吞吐量提升15倍

‌Meta AI推出Matrix框架:破解合成数据生成瓶颈,吞吐量提升15倍

随着大型语言模型LLM)训练对合成数据需求的激增,传统中心化调度框架的局限性日益凸显——GPU资源浪费、协调开销高、数据多样性受限等问题成为行业痛点。近日,Meta AI研究人员推出‌Matrix‌,一个基于去中心化设计的创新框架,通过将控制流和数据流序列化为消息并分布式处理,成功将令牌吞吐量提升2至15倍,同时保持输出质量。

传统智能体框架依赖中心调度器管理所有工作流状态和逻辑,在并发合成对话场景下扩展性不足。Matrix则采用‌点对点智能体调度‌,每个无状态智能体作为Ray集群的Actor,从分布式队列中获取“调度器”消息并独立处理逻辑,直接传递状态更新至下一节点。这一设计不仅减少了因轨迹长度差异导致的空闲时间,还使故障处理更加局部化。技术实现上,Matrix依托Ray集群(通常通过SLURM启动),利用Hydra管理智能体角色与资源配置,并创新引入‌消息卸载机制‌——当对话历史超过阈值时,将负载存储于Ray对象存储中,仅保留标识符于调度器,显著降低集群带宽压力。

通过三项案例研究,Matrix的性能优势得到验证:在对话生成任务中,其令牌吞吐量达2亿(传统方法仅0.62亿);数据集构建场景下效率提升2.1倍;工具轨迹评估中更是实现15.4倍的吞吐量飞跃。这一突破不仅为合成数据生成提供了高效解决方案,也为AI模型的规模化训练开辟了新路径。

原创文章,作者:好奇宝宝,如若转载,请注明出处:https://www.kejixun.co/article/739958.html

好奇宝宝的头像好奇宝宝认证作者

相关推荐

发表回复

登录后才能评论