邯郸隔热条设备厂家 小米发布新模型MiMo-V2
发布日期:2025-12-24 03:17 点击次数:143

DoNews12月17日消息邯郸隔热条设备厂家,据APPSO报道,刚刚,小米正式发布并开源新模型 MiMo-V2-Flash。MiMo-V2-Flash 总参数 3090 亿,活跃参数 150 亿,采用家混架构 (MoE),能还能和 DeepSeek-V3.2、Kimi-K2 这些头部开源模型掰掰手腕。
此外,MiMo-V2-Flash 采用 MIT 开源协议,基础版权重也已经在 Hugging Face 上发布。除去「开源」这一标签,新模型真正的杀手锏在于架构设计上的激进创新,把推理速度拉到了 150 tokens/秒,成本压到了每百万 token 输入 0.1 美元、输出 0.3 美元,主打一个价比。
根据官方体验页面信息,MiMo-V2-Flash 还支持深度思考和联网搜索功能,既能对话聊天,也能在需要实时数据、新动态或资料核对的场景里派上用场。
基准测试成绩显示,AIME 2025 数学竞赛和 GPQA-Diamond 科学知识测试中,MiMo-V2-Flash 都排在开源模型前两名。编程能力更是亮眼,SWE-bench Verified 得分 73.4%,越所有开源模型,直逼 GPT-5-High。而这个测试是让 AI 去修真实世界的软件 bug,73.4% 的成功率也意味着它能搞定大部分实际编程问题。
在多语言编程基准测试 SWE-Bench Multilingual 里,MiMo-V2-Flash 的解决率为 71.7%。转看智能体任务,MiMo-V2-Flash 在τ²-Bench 分类得分中,通信类 95.3 分,零售类 79.5 分,航空类 66.0 分,BrowseComp 搜索代理得分 45.4,启用上下文管理后直接飙到 58.3。
这些数据说明,MiMo-V2-Flash 不仅会写代码,还能真正理解复杂任务逻辑,执行多轮智能体交互。
更重要的是,写作质量也接近顶级闭源模型,这意味着 MiMo-V2-Flash 不只是个工具,还能当个靠谱的日常助手。
MiMo-V2-Flash 在保持长文本能的同时,还降低了成本,究其原因,离不开两项核心技术创新。
混滑动窗口注意力机制:传统大模型处理长文本时,全局注意力机制会导致计算量二次爆炸,存储中间结果的 KV 缓存也跟着飙升。
小米这次采用了 5 比 1 的激进比例,5 层滑动窗口注意力搭配 1 层全局注意力交替使用,滑动窗口只看 128 个 token。
93分钟,阿斯帕斯直塞,斯威德伯格单面对皇马门将库尔图瓦,晃倒后者后,在左门柱附近射门得分,为客队锁定2:0的胜利。

在越野爱好者的心中,达喀尔拉力赛始终是那座闪耀着危险与荣耀的圣杯。经过数十年的等待,路虎卫士终于以全新Dakar D7X-R赛车重返这片沙场。路虎卫士作为“方盒子”的鼻祖,以及硬派越野山顶上的明星,一次和公认艰苦的汽车拉力赛又能擦出怎样的火花,实在是让人万分期待。
2025年WTT年度总决赛将于12月10日-14日于香港红磡体育馆举行,设男单、女单、混双三项,总奖金130万美元创历史新高,单打冠军可获1500点世界排名积分及35万美元奖金。作为赛季收官战,WTT香港总决赛2025由WTT总决赛积分榜决定参赛资格。男子及女子单打阵容将由WTT总决赛积分榜排名前16的球员构成。混双的8对参赛组,则由WTT总决赛积分榜排名前7的组外加一对东道主外卡组构成。今日16:00进行抽签仪式,王楚钦、王曼昱、黄镇廷、杜凯琹、西蒙·高茨、朱芊曦担任抽签嘉宾。
作为斯诺克三大赛事之一邯郸隔热条设备厂家,英锦赛历来是每位球员都高度重视的赛事。今年的奖金设置如下,总奖金为1,205,000英镑。另外,单杆高分奖金为15,000英镑。
这种设计让 KV 缓存存储量直接减少了近 6 倍,但长文本能力却没打折扣,长支持 256k 上下文窗口。
且模型即使在这么激进的窗口设置下,照样能稳住长文本能。
对此,罗福莉在社交平台上特别指出一个反直觉的发现:窗口大小 128 是「佳甜点值」。实验证明,盲目扩大窗口(如增至 512)反而会导致能下降。同时她强调,隔热条PA66生产设备在实施该机制时,sink values 是维持能的关键,不可省略。
另一个黑科技是轻量级多 Token 预测 (MTP)。
传统模型生成文本时一次只能吐一个 token,就像打字员一个字一个字敲。MiMo-V2-Flash 通过原生集成的 MTP 模块,能并行预测多个 token,一次猜出接下来好几个 token。
实测平均能接受 2.8 到 3.6 个 token,推理速度直接提升 2 到 2.6 倍,不仅在推理时管用,训练阶段也能加速采样,减少 GPU 空转,属于一箭双雕。
罗福莉提到,在三层 MTP 设置下,他们观察到平均接受长度过 3,编码任务速度提升约 2.5 倍。它有解决了小批量 On-Policy 强化学习中「长尾样本」带来的 GPU 空闲时间浪费问题。
啥叫长尾样本?就是那些特别难、特别慢的任务,拖着其他任务一起等,GPU 就在那干瞪眼。MTP 把这个问题给解了,大提高了率。
不过罗福莉也坦诚,这次因为时间紧迫没能把 MTP 完整集成进 RL 训练循环,但它与该流程高度契。小米已经把三层 MTP 开源了,方便大家在自己的项目中使用与开发。
算力只用 1/50,能如何不打折?
预训练阶段,新模型使用 FP8 混精度,在 27 万亿 token 数据上完成训练,原生支持 32k 序列长度。
FP8 混精度是一种压缩数值表示的技术,能在保持精度的同时减少显存占用和加速训练。这种训练方式在业界并不常见,需要对底层框架进行深度优化。
而在后训练阶段,小米整了个大活,提出了多教师在线策略蒸馏 (MOPD)。
传统的监督微调加强化学习管线,不仅训练不稳定,算力消耗还贼高。MOPD 的思路是让学生模型在自己的策略分布上采样,然后由多个家教师在每个 token 位置提供密集的奖励信号。
MOPD Architecture Diagram
通俗点说就是,学生模型自己写作业,老师在每个字上都给评分,不用等写完整篇才打分。这样一来,学生模型能快速从教师那里学到精髓,而且训练过程稳定得多。
夸张的是率提升,MOPD 只需要传统方法 1/50 的算力,就能让学生模型达到教师能峰值。这意味着小米能用更少的资源,更快地迭代模型。
而且 MOPD 支持灵活接入新教师,学生模型成长后还能反过来当教师,形成「教与学」的闭环自我进化。今天的学生,明天的老师,后天又能教出更强的学生,套娃玩法属实有点东西。
用罗福莉的话来说,他们借鉴 Thinking Machine 的 On-Policy Distillation 方法,将多个强化学习模型进行融,结果带来了惊人的率提升。这为构建一个自我强化循环系统奠定了基础,学生模型可以逐步进化,终成为更强的教师模型。
On-Policy Distillation - Thinking Machines Lab
在智能体强化学习扩展上,小米 MiMo-V2-Flash 研究团队基于真实 GitHub issue 构建了过 10 万个可验证任务,自动化流水线跑在 Kubernetes 集群上,并发能开 10000 多个 Pod,环境部署成功率 70%。
针对网页开发任务,还门搞了个多模态验证器,通过录制而非静态截图来验证代码执行结果,直接减少视觉幻觉,确保功能正确。
对于开发者而言,MiMo-V2-Flash 能与 Claude Code、Cursor、Cline 等主流开发环境无缝配,256k 的长上下文窗口支持数百轮智能体交互与工具调用。
256k 是什么概念? 大概相当于一本中等篇幅的小说,或者几十页技术文档。这意味着开发者可以把 MiMo-V2-Flash 直接融入现有工作流,不需要额外适配,拿来就用。
小米还把所有推理代码贡献给了 SGLang,并在 LMSYS 博客分享了推理优化经验。
Q Q:183445502技术报告公开了完整模型细节,模型权重 (包括 MiMo-V2-Flash-Base) 在 Hugging Face 上以 MIT 许可协议发布。这种开源的态度,在国内大厂里属实少见。
目前 MiMo-V2-Flash 已经在 API Platform 限时免费开放邯郸隔热条设备厂家,开发者可以直接上手体验。
黄山隔热条PA66厂家 洗发水去屑止痒果排行榜好!控油去屑洗
海北塑料挤出机设备厂家 起床后不吃饭糖若干算普通?大夫:这范
钦州塑料管材设备厂家 华夏(工商铺):1月份香港商厦租出成交
红河隔热条设备 中远海运、中海油、招商局, 央企认真东谈主激
鄂州隔热条PA66厂家 邯郸新谈路修好后被土壤笼
驻马店塑料管材设备 和讯投顾王可心:低点来了,起涨还需要时间
