DeepSeek开源模型获国际奥数金牌

2025-11-28 财经大神

11月27日晚，DeepSeek在Hugging Face上悄然开源了一个新模型：DeepSeek-Math-V2。这是首个达到国际奥林匹克数学竞赛金牌水平且开源的数学模型。技术论文显示，Math-V2在某些方面优于谷歌的Gemini DeepThink，在IMO-ProofBench基准和近期数学竞赛中表现突出。具体来说，在Basic基准上，Math-V2得分接近99%，远超Gemini Deep Think (IMO Gold)的89%。但在Advanced子集上，Math-V2得分为61.9%，略低于Gemini Deep Think (IMO Gold)的65.7%。

DeepSeek开源模型获国际奥数金牌

论文《DeepSeek Math-V2：迈向可自验证的数学推理》指出，大语言模型在数学推理方面已取得重大进展，但现有AI存在局限性，以正确答案为奖励并不能保证正确的推理过程。许多数学任务需要严格的分步推导，而非简单的数字答案。为了突破这一限制，DeepSeek强调自我验证的重要性，特别是对于那些没有已知解决方案的问题。Math-V2从结果导向转向过程导向，展示了强大的定理证明能力，不依赖大量数学题答案数据，而是教会AI像数学家一样审查证明过程，从而不断提升解决高难度数学题的能力。Math-V2在IMO 2025、CMO 2024和Putnam 2024上取得了金牌级成绩。尽管仍有许多工作要做，这些成果表明自我验证的数学推理是可行的研究方向，可能推动更强大的数学AI系统的发展。海外网友对DeepSeek此次动作表示惊讶，认为其以10个百分点的优势击败了谷歌的IMO Gold获奖模型DeepThink。目前，行业头部厂商如OpenAI、xAI和谷歌已发布新模型，外界期待DeepSeek旗舰模型的更新。