‌微博开源轻量级大模型Vibe Thinker:15亿参数击败千亿巨头

‌微博开源轻量级大模型Vibe Thinker:15亿参数击败千亿巨头

今日,微博正式发布自研开源大模型Vibe Thinker,凭借仅15亿参数的轻量化设计,在国际顶级数学竞赛基准测试中击败了6710亿参数的DeepSeek R1,平均得分提升3.4%,推理延迟降低42%,而单次后训练成本仅7800美元,仅为同类模型的1/30至1/50。

该模型采用‌混合专家架构(MoE)‌与多轮知识蒸馏技术,仅需5GB数学语料即可完成高效微调,支持Hugging Face一键下载及商用许可。在AIME 2025、HMMT等竞赛题库中,其表现不仅超越DeepSeek R1,更接近456B参数的MiniMax-M1水平,甚至媲美Gemini 2.5 Flash和Claude Opus 4。技术团队透露,其核心优势在于创新的“频谱到信号原理”(SSP)训练框架:先通过监督微调探索多样化解题路径,再以强化学习优化正确答案,实现低成本高精度。

开源版本提供PyTorch与GGUF格式,最低可在单张RTX 4090上运行,微博同步开放训练脚本与数据配比方案。计划12月推出的‌Vibe Thinker-Math‌专用数学增强版,将进一步优化数学推理能力,并联合高校举办“轻量级数学挑战赛”,推动低成本AI普及。

这一突破标志着大模型技术从“规模竞赛”转向“效率革命”,为资源有限的中小企业与研究团队提供了高性价比的研发路径。

原创文章,作者:AI,如若转载,请注明出处:https://www.kejixun.co/article/739006.html

AI的头像AI认证作者

相关推荐

发表回复

登录后才能评论