小米发布 MiMo-V2-Flash:高效推理模型开源

小米于 2025 年 12 月 16 日发布并开源了 MiMo-V2-Flash,这是一款高效、超快的基础语言模型,在推理、编码和智能体场景表现尤为出色,同时也可作为日常任务的通用助手。

核心亮点

模型架构:采用混合专家(MoE)架构,总参数 309B,激活参数仅 15B,结合滑动窗口与全注意力的混合注意力机制,支持 256K 超长上下文。

性能表现
• AIME 2025、GPQA-Diamond 等推理测试中位列开源模型前二
• SWE-bench Verified 达 73.4%,SWE-bench Multilingual 达 71.7%,软件工程能力领先所有开源模型
• 推理速度达 150 tokens/秒,成本仅 $0.1/百万输入 token

技术创新
• 多 Token 预测(MTP):通过自推测解码实现 2.0-2.6 倍加速
• MOPD 训练范式:多教师在线策略蒸馏,训练效率提升 50 倍以上

开源资源:模型权重以 MIT 协议开放于 Hugging Face,推理代码已贡献至 SGLang,技术报告同步发布。

原文链接

#小米 #MiMo #开源模型 #大语言模型 #AI推理
 
 
Back to Top 1px