‌蚂蚁百灵开源高效推理模型 推理成本降低50%以上

‌蚂蚁百灵开源高效推理模型 推理成本降低50%以上

蚂蚁百灵大模型团队近日宣布开源两款全新高效思考模型——Ring-flash-linear-2.0和Ring-mini-linear-2.0,专为提升深度推理效率设计。同时发布的还有两款自主研发的高性能融合算子:FP8融合算子和线性Attention推理融合算子,支持”大参数、低激活”的高效推理与超长上下文处理。

得益于架构优化与高性能算子的协同,新模型在深度推理场景下的成本仅为同等规模密集模型的十分之一,较前代Ring系列降低超50%。这意味着用户进行复杂推理时可大幅减少计算资源消耗,显著提升工作效率。此外,训练与推理引擎算子的高度对齐,使模型在强化学习阶段能实现长周期稳定优化,目前已在多个高难度推理榜单保持最佳表现(SOTA)。

目前,两款模型已在Hugging Face和ModelScope等平台开源。开发者可通过这些平台获取模型并进行实验。此次开源不仅展示了蚂蚁百灵在AI领域的技术实力,也为开发者提供了更高效的工具,有望推动AI研究与应用的进一步突破。

原创文章,作者:李森,如若转载,请注明出处:https://www.kejixun.co/article/735219.html

李森李森管理团队

相关推荐

发表回复

登录后才能评论