DeepSeek V3.2：150个奥赛金牌，做出了一个能拿金牌的模型

一家只招奥赛金牌的公司，做出了一个能拿奥赛金牌的模型

AI Research

DeepSeek今天发布了V3.2。

看完22页技术报告，我最大的感受不是模型有多强（虽然确实很强），而是一家只招奥赛金牌的公司，做出了一个能拿奥赛金牌的模型。

这不是巧合。

一个有点反常识的数据

DeepSeek V3.2-Speciale在这些竞赛上拿了金牌：

IMO 2025（国际数学奥林匹克）：5/6题
CMO 2025（中国数学奥林匹克）：4题全对+1题部分分
Putnam 2024：118/120分，超过最佳人类成绩90分
IOI 2025（国际信息学奥林匹克）：金牌，第10名
ICPC 2025（国际大学生程序设计竞赛）：金牌，第2名

Putnam那个118/120特别夸张。威廉·洛厄尔·普特南数学竞赛，公认最难的数学竞赛之一。人类最好成绩90分，模型直接118分。

但我觉得更有意思的是另一个数据：DeepSeek团队只有150人。

对比一下：

OpenAI：1000人左右
Google DeepMind：几千人
DeepSeek：150人

150人，做出了跟GPT-5媲美、部分指标超过Gemini 3.0 Pro的模型。

这背后是什么逻辑？

只招奥赛金牌的公司

DeepSeek的招聘策略很极端。

多个来源提到，他们拒绝没有金牌的候选人。具体要求：

3-5年经验是上限，超过8年基本不招
重视IMO/IOI/ICPC等竞赛成绩
优先招聘应届博士和刚毕业的学生
重视世界级论文发表

团队规模约150人，管理风格是：

无KPI
无周报
无内部竞争
去管理层化

创始人梁文锋是量化对冲出身。2015年创立幻方量化（现在管理80亿美元资产），2017年全面转向AI策略，2023年创立DeepSeek。

2023年，在美国限制前，他们囤了10,000个Nvidia A100 GPU。

量化思维+竞赛选手+极简团队。公司基因很清晰。

但为什么竞赛选手适合做AI？

竞赛思维 = "难解答，易验证"

我读完技术报告后，发现了一个关键细节。

DeepSeek合成了大量训练任务：

1,800+个环境
85,000+复杂指令

论文里反复强调一个概念："hard to solve but easy to verify"（难解答，易验证）。

这是什么意思？

举个例子。论文里有个trip planning任务：

规划一个三天旅行，从杭州出发，10月1-3日。要求：

不重复任何城市、酒店、景点、餐厅

第二天如果订豪华酒店（≥800元），餐厅总花费要<350元，两家餐厅评分≥4.0，景点门票<120元

如果订中高端酒店（500-800元），至少一家餐厅评分≥4.0，景点门票<180元

如果订经济酒店（200-500元），至少一家餐厅评分≥3.2

难解答：组合空间巨大，要搜索很多可能性。

易验证：给定一个方案，检查是否满足所有约束很简单。

这就是竞赛题的本质特征。

IOI是这样，Codeforces是这样，IMO也是这样——你很难想出解法，但验证答案很容易。

竞赛选手在这类问题上练了十几年。大脑已经优化成"在巨大搜索空间中快速找可行解"的机器。

RL训练的核心范式，恰好就是"hard to solve but easy to verify"。

模型生成各种candidate solutions（hard to solve），reward model验证对错（easy to verify），然后优化policy。

这是思维方式的迁移，不是转行。

从论文里看到的竞赛思维

技术报告Section 3.2.3详细写了General Agent的环境合成方法。这个workflow特别能体现竞赛思维。

自动化环境合成agent的工作流程：

给定任务类别（比如"规划旅行"），sandbox配备bash和search工具
Agent用工具从网上检索数据，存入sandbox database
Agent合成一套task-specific tools（函数形式）
提出简单任务，生成solution function（只能调用工具，不能直接访问database）
生成verification function验证solution
如果验证不过，修改solution或verification，迭代增加难度
如果工具不够，扩充toolset
用DeepSeek-V3.2在这些任务上做RL，只保留pass@100非零的任务

最后一步是关键。pass@100非零意味着：

任务足够难（不是一次就能过）
任务可解（采样100次有解）

这是竞赛出题的逻辑。

IOI出题也是这样：题目要有区分度（不能太简单），但又要可解（不能完全无解）。竞赛选手很清楚这个尺度在哪里。

DeepSeek的合成任务对所有模型都有挑战性。他们随机抽了50个general agent任务，测试结果：

DeepSeek-V3.2-Exp：12% pass@1
Claude Sonnet 4.5：34% pass@1
Gemini 3.0 Pro：51% pass@1
GPT-5-Thinking：62% pass@1

GPT-5也只有62%。

但关键是，这些合成任务能泛化到真实环境。只用synthetic general agent data做RL（非思考模式），在Tau2Bench、MCP-Mark、MCP-Universe上都显著提升。

这证明了什么？

合成任务抓住了问题的本质。

这是竞赛选手的能力——快速抽象出问题核心，设计出既有挑战又可验证的case。

Post-Training才是决胜点

技术报告里还有个关键数据：

Post-training计算预算超过pre-training成本的10%。

业界很少见。大多数公司把钱都砸pre-training，post-training投入不够。

论文说：

"过去几个月，我们观察到性能提升与extended RL training budget高度相关。持续增加RL计算，推理能力持续提升。"

DeepSeek的假设是：推理能力可以通过进一步增加计算预算继续提升。

报告Section 3.1详细写了4个RL训练的稳定性技巧：

1. Unbiased KL Estimate

原始K3 estimator有偏。当采样token在当前policy下概率很低时，K3会给这些token分配"无界的、不成比例的大权重"，导致训练不稳定。

解决方法：用importance sampling ratio修正KL散度估计。

有意思的发现：数学等领域可以用更弱的KL惩罚，甚至完全不用。

2. Off-Policy Sequence Masking

生成大batch后分多个mini-batch更新，天然off-policy。推理框架和训练框架实现细节不一致，进一步加剧off-policy。

解决方法：mask掉policy偏离太大且advantage为负的样本。

论文的洞察很深刻：

"模型从自己的错误中学习最多，而高度off-policy的负样本可能误导或不稳定优化过程。"

所以只mask负样本，不mask正样本。

3. Keep Routing（MoE特有）

MoE模型中，推理和训练框架可能路由到不同的expert，导致active parameter subspace突变。

解决方法：保存推理时的expert routing paths，训练时强制使用相同routing。

论文说这是MoE RL训练稳定性的关键，DeepSeek从V3-0324开始就采用此策略。

4. Keep Sampling Mask

Top-p/top-k采样会截断低概率token，提升样本质量。但在RL训练中导致action space不一致，违反importance sampling原理。

解决方法：保存采样时的truncation masks，训练时应用到当前policy。

效果：在RL训练中有效保持语言一致性。

都是工程细节。细节决定成败。

150人的团队，能在这些细节上抠这么细，是因为每个人都够强。

思考模式+工具调用的突破

V3.2还有个突破：首次实现思考模式+工具调用融合。

之前的模型二选一：要么纯思考，要么调工具。V3.2能边思考边调工具，多轮思考+多轮工具调用。

DeepSeek-R1的问题是，第二轮消息就丢弃reasoning content。在工具调用场景下特别低效——每次调工具都要重新推理整个问题。

V3.2的新策略：

只在新user message到来时丢弃reasoning content
如果只是tool-related messages（tool outputs），保留reasoning content
工具调用历史和结果始终保留

效果：避免冗余的re-reasoning，大幅提升token效率。

Agent评测结果：

Terminal Bench 2.0：46.4%（vs Claude 4.5 Sonnet 42.8%）
SWE Verified：73.1%（vs GPT-5 74.9%）
Tool-Decathlon：35.2%（vs Gemini 3.0 Pro 36.4%）

这些benchmark的环境和工具在RL训练中从未遇到。

模型能泛化，说明它学会的是reasoning strategies，不是记specific tools。

低调的DeepSeek

明明这么强，为什么不叫V4？

V3 → V3.1 → V3.2，渐进式命名。

对比：

OpenAI：GPT-4 → GPT-4.5 → GPT-5
Google：Gemini 2.0 → Gemini 3.0

硅谷大厂都在跳版本号营销，DeepSeek还在0.1、0.2地加。

定价也是：$0.42/M output tokens，比竞品便宜很多，但不大肆宣传。

梁文锋量化出身。量化的核心逻辑：在海量数据中找信号。

DSA（稀疏注意力）的设计也体现这一点：

用lightning indexer（极少计算量）快速筛选重要token
主模型只处理top-k（2048个）token
复杂度从O(L²)降到O(L·k)

量化思维——不是每个token都重要，找到重要的就行。

150人团队，10%以上的预算投post-training，4个RL稳定性技巧，1800+合成环境，思考模式+工具调用融合。

每一步都是效率优化，每一步都在抠细节。

不靠营销，让模型说话。

我的观察

DeepSeek的路径跟硅谷完全不同：

硅谷：博士+资深工程师+大规模团队+密集营销
DeepSeek：奥赛选手+应届生+极简团队+零营销

哪种更优？数据说话——V3.2已经媲美GPT-5。

我觉得更有意思的是：模型能力反映团队基因。

能拿IMO金牌的模型，是由奥赛选手训练出来的。

能在"hard to solve but easy to verify"的任务上表现好，是因为团队在这类问题上训练了十几年。

能抠出4个RL稳定性技巧，是因为每个人都足够强，细节抠得足够深。

竞赛选手做AI，不是降维打击。

是思维方式的迁移。

参考资料

一个有点反常识的数据​

只招奥赛金牌的公司​

竞赛思维 = "难解答，易验证"​

从论文里看到的竞赛思维​

Post-Training才是决胜点​

思考模式+工具调用的突破​

低调的DeepSeek​

我的观察​