
据报道,StepFun AI团队近日发布创新音频大语言模型Step-Audio-R1,通过”模态化推理蒸馏”技术有效解决了当前音频AI在处理长推理链时准确性下降的核心问题。研究团队指出,这一缺陷源于行业普遍采用的”文本替代推理”训练方式——即模型依赖文本数据而非真实声学特征进行判断。
Step-Audio-R1的突破性在于强制模型基于音频证据生成推理结果。其技术架构采用Qwen2音频编码器处理原始波形,经12.5Hz下采样后,由Qwen2.532B解码器输出文本。特别设计的推理块标签机制,在确保结构清晰的同时维持了任务准确性。训练过程分为监督冷启动(500万样本,含40亿音频配对数据)和强化学习两阶段,最终提炼出声学特征与推理轨迹的精准关联。
在基准测试中,该模型综合表现接近行业领先的Gemini3Pro水平。这一成果不仅验证了”模态化推理蒸馏”的有效性,更标志着音频AI从”阅读文字”到真正”聆听理解”的关键跨越。
原创文章,作者:AI,如若转载,请注明出处:https://www.kejixun.co/article/740070.html