3月19日凌晨,小米宣布推出三款自研大模型——MiMo-V2-Pro、MiMo-V2-Omni与MiMo-V2-TTS。这些模型已登陆Xiaomi miclaw、MiMo Studio、金山办公、小米浏览器,通过OpenClaw、OpenCode、KiloCode、Blackbox、Cline接入,可限时免费体验一周。

MiMo-V2-Pro:面向Agent时代的旗舰基座
Xiaomi MiMo-V2-Pro专为现实世界中高强度的Agent工作场景打造,拥有超过1T总参数量(42B激活参数),采用创新的混合注意力架构,并支持1M超长上下文长度。在Artificial Analysis排行榜上,该模型位列全球第八、国内第二。
在OpenClaw、Claude Code等智能体框架中,MiMo-V2-Pro能够在无人工干预条件下完成复杂工作流编排、长程规划与精准工具调用,整体使用体感已超越Claude Sonnet 4.6,逼近Opus 4.6,但API定价仅为其五分之一。在OpenClaw标准评测榜单PinchBench、ClawEval上,效果处于全球顶尖。内部工程师评测显示,其代码智能体感已接近Claude Opus 4.6,展现出更出色的系统设计与任务规划能力。
MiMo-V2-Pro现已正式开放API服务,支持1M上下文长度,采用分段计价:256K上下文以内输入$1/百万tokens、输出$3/百万tokens;1M上下文以内输入$2/百万tokens、输出$6/百万tokens。MiMo Claw模块已全面打通金山WebOffice生态,原生支持Word、Excel、PPT、PDF四大主流格式,WPS灵犀现已接入该模型。
MiMo-V2-Omni:全模态基座实现跨模态交互
Xiaomi MiMo-V2-Omni专为现实世界中复杂的多模态交互与执行场景而生,无缝接入各种Agent框架,实现了从理解到操控的跨越。音频理解方面,支持从环境声分类、多说话人分离、音频-视觉联合推理,到超过10小时连续长音频的深度理解,综合表现超越Gemini 3 Pro。图像理解方面,多学科视觉推理与复杂图表分析能力超越Claude Opus 4.6,逼近Gemini 3 Pro。视频理解方面,支持原生音视频联合输入,具备强大的情境感知与未来推理能力。
MiMo-V2-Omni现已开放API服务,支持256K上下文长度,输入$0.4/百万tokens,输出$2/百万tokens。该模型联合OpenClaw、OpenCode、KiloCode、Blackbox及Cline等五大Agent开发框架团队,为全球开发者提供为期一周的限时免费接口支持。
MiMo-V2-TTS:语音合成大模型实现多风格控制
Xiaomi MiMo-V2-TTS是小米自主研发的语音合成大模型,基于自研Audio Tokenizer和多码本语音-文本联合建模架构,经过上亿小时语音数据大规模预训练与多维度强化学习,实现了高度可控的多粒度语音风格控制。该模型能在同一句话内完成语气转折和情感递变,真实还原人类说话的自然韵律,在唱歌时也能准确表达音高和节奏。
MiMo-V2-TTS支持从整体到局部的多层次语音风格控制,用户可通过自然语言指令设定整体语音基调,同时对句内局部片段进行细粒度情绪调节。模型还具备丰富的多元表达能力,支持东北话、四川话、河南话、粤语、台湾腔等多种方言的自然发音,可进行角色扮演式的风格化演绎,更能实现高质量的歌声合成。
原创文章,作者:科技探索者,如若转载,请注明出处:https://www.kejixun.co/article/747894.html