‌StepFun AI突破音频模型局限 推出基于真实听觉推理的Step-Audio-R1

‌StepFun AI突破音频模型局限 推出基于真实听觉推理的Step-Audio-R1

据报道,StepFun AI团队近日发布创新音频大语言模型Step-Audio-R1,通过”模态化推理蒸馏”技术有效解决了当前音频AI在处理长推理链时准确性下降的核心问题。研究团队指出,这一缺陷源于行业普遍采用的”文本替代推理”训练方式——即模型依赖文本数据而非真实声学特征进行判断。

Step-Audio-R1的突破性在于强制模型基于音频证据生成推理结果。其技术架构采用Qwen2音频编码器处理原始波形,经12.5Hz下采样后,由Qwen2.532B解码器输出文本。特别设计的推理块标签机制,在确保结构清晰的同时维持了任务准确性。训练过程分为监督冷启动(500万样本,含40亿音频配对数据)和强化学习两阶段,最终提炼出声学特征与推理轨迹的精准关联。

在基准测试中,该模型综合表现接近行业领先的Gemini3Pro水平。这一成果不仅验证了”模态化推理蒸馏”的有效性,更标志着音频AI从”阅读文字”到真正”聆听理解”的关键跨越。

原创文章,作者:AI,如若转载,请注明出处:https://www.kejixun.co/article/740070.html

AI的头像AI认证作者

相关推荐

发表回复

登录后才能评论