阶跃星辰发布StepAudio 2.5 ASR:推理速度提升400%,定价骤降90%

阶跃星辰发布StepAudio 2.5 ASR:推理速度提升400%,定价骤降90%

阶跃星辰近日宣布推出新一代自动语音识别模型StepAudio 2.5 ASR,该模型率先将大语言模型的推理加速技术引入语音识别领域,在推理速度与转写精度两个维度均实现显著突破。传统语音识别模型受限于自回归生成机制,需要逐个Token依次输出,效率较低。StepAudio 2.5 ASR采用ASR+MTP-5深度融合架构,将此前应用在大模型上的多Token预测技术移植至语音识别领域,使模型能够一次预测多个候选Token并通过并行验证快速确认结果,打破了效率瓶颈。实测数据显示,模型推理速度提升400%,时延降低60%,推理峰值达500 tokens/s,推理成本直降80%。以5分钟左右的音视频为例,几乎可以实现即时转写。

在转写精度方面,StepAudio 2.5 ASR在覆盖新闻播报、会议访谈及强噪声环境的中英文权威测试集上,综合转写精度达到业内SOTA水准,在LibriSpeech等10个开源测试集上的综合错误率均低于竞品。针对长音频处理这一长期痛点,行业内通常采用“切片-转写-拼接”方案,容易造成上下文信息割裂。该模型复用大语言模型原生的32K上下文窗口能力,支持端到端一次性读入最长30分钟的连续音频,无需分段切割,在满载输入测试中未出现精度衰减。

定价方面,StepAudio 2.5 ASR仅为0.15元/小时,约为此前Step ASR 2的十分之一,大幅降低了语音识别使用门槛。该模型主要面向会议转写、语音交互、输入法、媒体内容处理及长音频识别等场景,目前已全量上线阶跃星辰开放平台和Step Plan,开发者可通过官网体验使用。

原创文章,作者:小丸子,如若转载,请注明出处:https://www.kejixun.co/article/751128.html

小丸子的头像小丸子认证作者

相关推荐

  • 阶跃星辰正式开源第三代大模型Step 3

    有消息称,中国AI企业阶跃星辰日前正式开源其第三代大模型Step3,该模型以3210亿总参数和380亿激活参数的MoE架构,成为当前开源领域性能与成本平衡的标杆。Step3通过创新…

    2025年8月1日

发表回复

登录后才能评论