AMD ROCm 7正式亮相 助力DeepSeek R1效率跃升3.8倍

AMD ROCm 7正式亮相 助力DeepSeek R1效率跃升3.8倍

AMD今日凌晨(6月13日)举办的Advancing AI 2025大会上,全新开源软件栈ROCm 7正式亮相,聚焦开发者生产力与AI推理效率突破。此次升级终结了ROCm 6的长期迭代周期,重点强化五大功能模块:最新算法模型、AI扩展能力、MI350系列硬件支持、集群管理及企业级功能,显著优化大模型运行效能。

与其配套的增强型框架vLLM v1、llm-d和SGLang,结合GEMM自动调优、MoE专家系统等新内核,共同构建高效推理生态。尤为关键的是,ROCm 7全面支持FP4/FP6/FP8低精度格式及混合精度运算,完美匹配同日发布的MI350系列GPU硬件特性,该芯片采用CDNA4架构与3nm工艺,推理性能较前代提升35倍。

性能实测数据引发行业关注:对比ROCm 6,新版本在Llama 3.1 70B上实现3.2倍加速,Qwen2-72B提升3.4倍,而国产大模型DeepSeek R1推理效率暴涨3.8倍,创下本次升级最大增幅。值得关注的是,搭载ROCm 7的MI355X在与竞品对比中展现出40%的每美元词元生成优势,凸显性价比竞争力。

随着AMD推动开放AI生态愿景,ROCm 7的落地有望打破现有市场格局。苏姿丰在大会强调:”2028年数据中心AI加速器市场将达5000亿美元”,此番技术跃进正是AMD角逐万亿赛道的关键落子。

原创文章,作者:AI,如若转载,请注明出处:https://www.kejixun.co/article/723773.html

AI的头像AI认证作者

相关推荐

发表回复

登录后才能评论