11月27日晚,DeepSeek在Hugging Face上悄然开源了一个新模型:DeepSeek-Math-V2。这是首个达到国际奥林匹克数学竞赛金牌水平且开源的数学模型。技术论文显示,Math-V2在某些方面优于谷歌的Gemini DeepThink,在IMO-ProofBench基准和近期数学竞赛中表现突出。具体来说,在Basic基准上,Math-V2得分接近99%,远超Gemini Deep Think (IMO Gold)的89%。但在Advanced子集上,Math-V2得分为61.9%,略低于Gemini Deep Think (IMO Gold)的65.7%。

论文《DeepSeek Math-V2:迈向可自验证的数学推理》指出,大语言模型在数学推理方面已取得重大进展,但现有AI存在局限性,以正确答案为奖励并不能保证正确的推理过程。许多数学任务需要严格的分步推导,而非简单的数字答案。为了突破这一限制,DeepSeek强调自我验证的重要性,特别是对于那些没有已知解决方案的问题。Math-V2从结果导向转向过程导向,展示了强大的定理证明能力,不依赖大量数学题答案数据,而是教会AI像数学家一样审查证明过程,从而不断提升解决高难度数学题的能力。Math-V2在IMO 2025、CMO 2024和Putnam 2024上取得了金牌级成绩。尽管仍有许多工作要做,这些成果表明自我验证的数学推理是可行的研究方向,可能推动更强大的数学AI系统的发展。海外网友对DeepSeek此次动作表示惊讶,认为其以10个百分点的优势击败了谷歌的IMO Gold获奖模型DeepThink。目前,行业头部厂商如OpenAI、xAI和谷歌已发布新模型,外界期待DeepSeek旗舰模型的更新。