雅安隔热条设备 DeepSeek上新!个奥数金牌水平的模型来了

发布日期:2025-12-20 点击次数:172
塑料挤出机

11月27日晚雅安隔热条设备,DeepSeek悄悄地在Hugging Face 上开源了一个新模型:DeepSeek-Math-V2。这是一个数学方面的模型,也是目前行业个达到IMO(国际奥林匹克数学竞赛)金牌水平且开源的模型。

在同步发布的技术论文中,DeepSeek表示,Math-V2的部分能优于谷歌旗下的Gemini DeepThink,并展示了模型在IMO-ProofBench基准以及近期数学竞赛上的表现。

具体来看,在其中的Basic基准上,DeepSeek-Math-V2 远胜其他模型,达到了近99%的高分,而排在二的谷歌旗下Gemini Deep Think (IMO Gold)分数为89%。但在更难的 Advanced 子集上,Math-V2分数为61.9%,略逊于 Gemini Deep Think (IMO Gold)的65.7%。

在这篇名为《DeepSeek Math-V2:迈向可自验证的数学理》的论文中,DeepSeek指出,大语言模型已经在数学理方面取得了重大进展,这是人工智能的重要试验台,如果进一步进,可能会对科学研究产生影响。

但当前的AI在数学理方面有着研究局限:以正确的终答案作为奖励,正确的答案却不能保证正确的理。许多数学任务,如定理证明,需要严格的分步导,而不是数字答案,这使得终答案奖励不适用。

为了突破深度理的限,DeepSeek认为有要验证数学理的和严谨。团队提出,自我验证对于扩展测试时间计算尤为重要,特别是对于那些没有已知解决方案的开放问题。

奇才(6-41):普尔19分5篮板、库兹马13分3篮板、基斯珀特11分3篮板

雷霆(37-9):亚历山大52分3篮板4助攻、杰伦-威廉姆斯26分7篮板、乔17分、哈尔滕施泰因4分18篮板6助攻

湖人(26-19):詹姆斯31分8篮板9助攻、克内克特24分5篮板、里夫斯13分6篮板8助攻、八村塁13分雅安隔热条设备

此次DeepSeek出的Math-V2就从结果导向转向了过程导向,展示了强大的定理证明能力。这一模型不依赖大量的数学题答案数据,而是通过教会AI如何像数学家一样严谨地审查证明过程,从而在没有人类干预的情况下,塑料管材生产线也能不断提升解决高难度数学证明题的能力 。

论文提到,Math-V2在IMO 2025和CMO 2024上取得了金牌级成绩,在Putnam 2024上通过扩展测试计算实现了接近满分的成绩(118/120)。

DeepSeek认为,虽然仍有许多工作要做,但这些结果表明,可自我验证的数学理是一个可行的研究方向,可能有助于开发更强大的数学AI系统。

手机:18631662662(同微信号)

对于DeepSeek此次的动作,海外的反应是“鲸鱼终于回来了”。有网友感慨,DeepSeek以10个百分点的优势击败了谷歌的IMO Gold 获奖模型DeepThink,这不在预测范围内。“想象一下,当他们公布编程模型时会发生什么,我打赌他们对有编程模型。”

目前,行业头部厂商的模型已经又迭代了一轮,11月,先是OpenAI发布了GPT-5.1,几天后xAI发布Grok 4.1,就在上周谷歌发布了Gemini 3系列引爆AI圈,“也该轮到DeepSeek出牌了”。不过,更受外界关注的仍然是,DeepSeek的旗舰模型到底什么时候更新,行业期待“鲸鱼”的下一个动作。

举报 一财经广告作,请点击这里此内容为一财经原创,著作权归一财经所有。未经一财经书面授权,不得以任何方式加以使用,包括转载、摘编、复制或建立镜像。一财经保留追究侵权者法律责任的权利。如需获得授权请联系一财经版权部:banquan@yicai.com 文章作者

刘晓洁

相关阅读 AI进化速递 | DeepSeek发布新模型

DeepSeek V3.2正式版发布;豆包手机助手发布技术预览版。

73 12-01 20:44 谷歌出Gemini3!模型竞赛转向“落地速度”?上线日即接入搜索体系

模型升级更快,商业化压力同步上升。

489 11-19 07:25 席南华院士:减少对顶级期刊的盲目崇拜

数学之美能像“初恋”般打动人心。

95 11-04 14:14 AI周报|中国大模型实力圈粉火到硅谷;鸿蒙披露AI新进展

谷歌表示,这是历史上次证明量子计算机可在硬件上成功运行一项可验证算法。

166 10-26 09:11 AI进化速递 | 宇树发布H2仿生机器人

宇树科技发布H2仿生人形机器人;DeepSeek团队开源新模型;Meta出AI聊天机器人家长控制选项雅安隔热条设备。

197 10-20 20:46 一财热 点击关闭

热点资讯

推荐资讯