
在2025世界计算大会上,昆仑元AI正式推出基于昇腾平台的全模态融合模型BaiZe-Omni-14b-a2b,标志着多模态AI技术迈入新阶段。该模型具备文本、音频、图像和视频的全面理解与生成能力,通过创新的模态解耦编码、统一跨模态融合及双分支功能设计,为复杂应用场景提供强大支持。其技术架构采用MoE+TransformerX框架,引入多线性注意力层和单层混合注意力聚合层,显著提升计算效率,确保大规模全模态任务的高效执行。
训练数据方面,BaiZe-Omni-14b-a2b依托超过3.57万亿token的文本数据、30万小时音频、4亿张图像及40万小时视频,通过差异化配比优化单模态纯度与跨模态对齐质量。性能表现上,模型文本理解准确率达89.3%,在32768token长序列摘要任务中,ROUGE-L得分0.521,超越GPT-4的0.487。此外,其支持多语言生成及图像、音频、视频的跨模态创作,综合能力覆盖10类任务,展现出行业领先的泛化潜力。
昆仑元AI表示,BaiZe-Omni-14b-a2b的双分支设计兼顾理解与生成能力,未来将推动智能客服、内容创作等领域的革新。这一发布不仅强化了昇腾生态的技术竞争力,也为多模态AI的规模化落地提供了新标杆。
原创文章,作者:小科同学,如若转载,请注明出处:https://www.kejixun.co/article/739538.html