Skip to main content

DeepSeek V3.2:150个奥赛金牌,做出了一个能拿金牌的模型

一家只招奥赛金牌的公司,做出了一个能拿奥赛金牌的模型

AI Research

DeepSeek今天发布了V3.2。

看完22页技术报告,我最大的感受不是模型有多强(虽然确实很强),而是一家只招奥赛金牌的公司,做出了一个能拿奥赛金牌的模型

这不是巧合。

一个有点反常识的数据

DeepSeek V3.2-Speciale在这些竞赛上拿了金牌:

  • IMO 2025(国际数学奥林匹克):5/6题
  • CMO 2025(中国数学奥林匹克):4题全对+1题部分分
  • Putnam 2024:118/120分,超过最佳人类成绩90分
  • IOI 2025(国际信息学奥林匹克):金牌,第10名
  • ICPC 2025(国际大学生程序设计竞赛):金牌,第2名

Putnam那个118/120特别夸张。威廉·洛厄尔·普特南数学竞赛,公认最难的数学竞赛之一。人类最好成绩90分,模型直接118分。

但我觉得更有意思的是另一个数据:DeepSeek团队只有150人

对比一下:

  • OpenAI:1000人左右
  • Google DeepMind:几千人
  • DeepSeek:150人

150人,做出了跟GPT-5媲美、部分指标超过Gemini 3.0 Pro的模型。

这背后是什么逻辑?

只招奥赛金牌的公司

DeepSeek的招聘策略很极端。

多个来源提到,他们拒绝没有金牌的候选人。具体要求:

  • 3-5年经验是上限,超过8年基本不招
  • 重视IMO/IOI/ICPC等竞赛成绩
  • 优先招聘应届博士和刚毕业的学生
  • 重视世界级论文发表

团队规模约150人,管理风格是:

  • 无KPI
  • 无周报
  • 无内部竞争
  • 去管理层化

创始人梁文锋是量化对冲出身。2015年创立幻方量化(现在管理80亿美元资产),2017年全面转向AI策略,2023年创立DeepSeek。

2023年,在美国限制前,他们囤了10,000个Nvidia A100 GPU。

量化思维+竞赛选手+极简团队。公司基因很清晰。

但为什么竞赛选手适合做AI?

竞赛思维 = "难解答,易验证"

我读完技术报告后,发现了一个关键细节。

DeepSeek合成了大量训练任务:

  • 1,800+个环境
  • 85,000+复杂指令

论文里反复强调一个概念:"hard to solve but easy to verify"(难解答,易验证)。

这是什么意思?

举个例子。论文里有个trip planning任务:

规划一个三天旅行,从杭州出发,10月1-3日。要求:

  • 不重复任何城市、酒店、景点、餐厅
  • 第二天如果订豪华酒店(≥800元),餐厅总花费要<350元,两家餐厅评分≥4.0,景点门票<120元
  • 如果订中高端酒店(500-800元),至少一家餐厅评分≥4.0,景点门票<180元
  • 如果订经济酒店(200-500元),至少一家餐厅评分≥3.2

难解答:组合空间巨大,要搜索很多可能性。

易验证:给定一个方案,检查是否满足所有约束很简单。

这就是竞赛题的本质特征。

IOI是这样,Codeforces是这样,IMO也是这样——你很难想出解法,但验证答案很容易。

竞赛选手在这类问题上练了十几年。大脑已经优化成"在巨大搜索空间中快速找可行解"的机器。

RL训练的核心范式,恰好就是"hard to solve but easy to verify"。

模型生成各种candidate solutions(hard to solve),reward model验证对错(easy to verify),然后优化policy。

这是思维方式的迁移,不是转行。

从论文里看到的竞赛思维

技术报告Section 3.2.3详细写了General Agent的环境合成方法。这个workflow特别能体现竞赛思维。

自动化环境合成agent的工作流程

  1. 给定任务类别(比如"规划旅行"),sandbox配备bash和search工具
  2. Agent用工具从网上检索数据,存入sandbox database
  3. Agent合成一套task-specific tools(函数形式)
  4. 提出简单任务,生成solution function(只能调用工具,不能直接访问database)
  5. 生成verification function验证solution
  6. 如果验证不过,修改solution或verification,迭代增加难度
  7. 如果工具不够,扩充toolset
  8. 用DeepSeek-V3.2在这些任务上做RL,只保留pass@100非零的任务

最后一步是关键。pass@100非零意味着:

  • 任务足够难(不是一次就能过)
  • 任务可解(采样100次有解)

这是竞赛出题的逻辑。

IOI出题也是这样:题目要有区分度(不能太简单),但又要可解(不能完全无解)。竞赛选手很清楚这个尺度在哪里。

DeepSeek的合成任务对所有模型都有挑战性。他们随机抽了50个general agent任务,测试结果:

  • DeepSeek-V3.2-Exp:12% pass@1
  • Claude Sonnet 4.5:34% pass@1
  • Gemini 3.0 Pro:51% pass@1
  • GPT-5-Thinking:62% pass@1

GPT-5也只有62%。

但关键是,这些合成任务能泛化到真实环境。只用synthetic general agent data做RL(非思考模式),在Tau2Bench、MCP-Mark、MCP-Universe上都显著提升。

这证明了什么?

合成任务抓住了问题的本质。

这是竞赛选手的能力——快速抽象出问题核心,设计出既有挑战又可验证的case。

Post-Training才是决胜点

技术报告里还有个关键数据:

Post-training计算预算超过pre-training成本的10%

业界很少见。大多数公司把钱都砸pre-training,post-training投入不够。

论文说:

"过去几个月,我们观察到性能提升与extended RL training budget高度相关。持续增加RL计算,推理能力持续提升。"

DeepSeek的假设是:推理能力可以通过进一步增加计算预算继续提升。

报告Section 3.1详细写了4个RL训练的稳定性技巧:

1. Unbiased KL Estimate

原始K3 estimator有偏。当采样token在当前policy下概率很低时,K3会给这些token分配"无界的、不成比例的大权重",导致训练不稳定。

解决方法:用importance sampling ratio修正KL散度估计。

有意思的发现:数学等领域可以用更弱的KL惩罚,甚至完全不用。

2. Off-Policy Sequence Masking

生成大batch后分多个mini-batch更新,天然off-policy。推理框架和训练框架实现细节不一致,进一步加剧off-policy。

解决方法:mask掉policy偏离太大且advantage为负的样本。

论文的洞察很深刻:

"模型从自己的错误中学习最多,而高度off-policy的负样本可能误导或不稳定优化过程。"

所以只mask负样本,不mask正样本。

3. Keep Routing(MoE特有)

MoE模型中,推理和训练框架可能路由到不同的expert,导致active parameter subspace突变。

解决方法:保存推理时的expert routing paths,训练时强制使用相同routing。

论文说这是MoE RL训练稳定性的关键,DeepSeek从V3-0324开始就采用此策略。

4. Keep Sampling Mask

Top-p/top-k采样会截断低概率token,提升样本质量。但在RL训练中导致action space不一致,违反importance sampling原理。

解决方法:保存采样时的truncation masks,训练时应用到当前policy。

效果:在RL训练中有效保持语言一致性。

都是工程细节。细节决定成败。

150人的团队,能在这些细节上抠这么细,是因为每个人都够强。

思考模式+工具调用的突破

V3.2还有个突破:首次实现思考模式+工具调用融合

之前的模型二选一:要么纯思考,要么调工具。V3.2能边思考边调工具,多轮思考+多轮工具调用。

DeepSeek-R1的问题是,第二轮消息就丢弃reasoning content。在工具调用场景下特别低效——每次调工具都要重新推理整个问题。

V3.2的新策略:

  • 只在新user message到来时丢弃reasoning content
  • 如果只是tool-related messages(tool outputs),保留reasoning content
  • 工具调用历史和结果始终保留

效果:避免冗余的re-reasoning,大幅提升token效率。

Agent评测结果:

  • Terminal Bench 2.0:46.4%(vs Claude 4.5 Sonnet 42.8%)
  • SWE Verified:73.1%(vs GPT-5 74.9%)
  • Tool-Decathlon:35.2%(vs Gemini 3.0 Pro 36.4%)

这些benchmark的环境和工具在RL训练中从未遇到。

模型能泛化,说明它学会的是reasoning strategies,不是记specific tools。

低调的DeepSeek

明明这么强,为什么不叫V4?

V3 → V3.1 → V3.2,渐进式命名。

对比:

  • OpenAI:GPT-4 → GPT-4.5 → GPT-5
  • Google:Gemini 2.0 → Gemini 3.0

硅谷大厂都在跳版本号营销,DeepSeek还在0.1、0.2地加。

定价也是:$0.42/M output tokens,比竞品便宜很多,但不大肆宣传。

梁文锋量化出身。量化的核心逻辑:在海量数据中找信号

DSA(稀疏注意力)的设计也体现这一点:

  • 用lightning indexer(极少计算量)快速筛选重要token
  • 主模型只处理top-k(2048个)token
  • 复杂度从O(L²)降到O(L·k)

量化思维——不是每个token都重要,找到重要的就行。

150人团队,10%以上的预算投post-training,4个RL稳定性技巧,1800+合成环境,思考模式+工具调用融合。

每一步都是效率优化,每一步都在抠细节。

不靠营销,让模型说话。

我的观察

DeepSeek的路径跟硅谷完全不同:

  • 硅谷:博士+资深工程师+大规模团队+密集营销
  • DeepSeek:奥赛选手+应届生+极简团队+零营销

哪种更优?数据说话——V3.2已经媲美GPT-5。

我觉得更有意思的是:模型能力反映团队基因

能拿IMO金牌的模型,是由奥赛选手训练出来的。

能在"hard to solve but easy to verify"的任务上表现好,是因为团队在这类问题上训练了十几年。

能抠出4个RL稳定性技巧,是因为每个人都足够强,细节抠得足够深。

竞赛选手做AI,不是降维打击。

是思维方式的迁移。