DeepSeek V3.2:150个奥赛金牌,做出了一个能拿金牌的模型
一家只招奥赛金牌的公司,做出了一个能拿奥赛金牌的模型
DeepSeek今天发布了V3.2。
看完22页技术报告,我最大的感受不是模型有多强(虽然确实很强),而 是一家只招奥赛金牌的公司,做出了一个能拿奥赛金牌的模型。
这不是巧合。
一个有点反常识的数据
DeepSeek V3.2-Speciale在这些竞赛上拿了金牌:
- IMO 2025(国际数学奥林匹克):5/6题
- CMO 2025(中国数学奥林匹克):4题全对+1题部分分
- Putnam 2024:118/120分,超过最佳人类成绩90分
- IOI 2025(国际信息学奥林匹克):金牌,第10名
- ICPC 2025(国际大学生程序设计竞赛):金牌,第2名
Putnam那个118/120特别夸张。威廉·洛厄尔·普特南数学竞赛,公认最难的数学竞赛之一。人类最好成绩90分,模型直接118分。
但我觉得更有意思的是另一个数据:DeepSeek团队只有150人。
对比一下:
- OpenAI:1000人左右
- Google DeepMind:几千人
- DeepSeek:150人
150人,做出了跟GPT-5媲美、部分指标超过Gemini 3.0 Pro的模型。
这背后是什么逻辑?
只招奥赛金牌的公司
DeepSeek的招聘策略很极端。
多个来源提到,他们拒绝没有金牌的候选人。具体要求:
- 3-5年经验是上限,超过8年基本不招
- 重视IMO/IOI/ICPC等竞赛成绩
- 优先招聘应届博士和刚毕业的学生
- 重视世界级论文发表
团队规模约150人,管理风格是:
- 无KPI
- 无周报
- 无内部竞争
- 去管理层化
创始人梁文锋是量化对冲出身。2015年创立幻方量化(现在管理80亿美元资产),2017年全面转向AI策略,2023年创立DeepSeek。
2023年,在美国限制前,他们囤了10,000个Nvidia A100 GPU。
量化思维+竞赛选手+极简团队。公司基因很清晰。
但为什么竞赛选手适合做AI?
竞赛思维 = "难解答,易验证"
我读完技术报告后,发现了一个关键细节。
DeepSeek合成了大量训练任务:
- 1,800+个环境
- 85,000+复杂指令
论文里反复强调一个概念:"hard to solve but easy to verify"(难解答,易验证)。
这是什么意思?
举个例子。论文里有个trip planning任务:
规划一个三天旅行,从杭州出发,10月1-3日。要求:
- 不重复任何城市、酒店、景点、餐厅
- 第二天如果订豪华酒店(≥800元),餐厅总花费要<350元,两家餐厅评分≥4.0,景点门票<120元
- 如果订中高端酒店(500-800元),至少一家餐厅评分≥4.0,景点门票<180元
- 如果订经济酒店(200-500元),至少一家餐厅评分≥3.2
难解答:组合空间巨大,要搜索很多可能性。
易验证:给定一个方案,检查是否满足所有约束很简单。
这就是竞赛题的本质特征。
IOI是这样,Codeforces是这样 ,IMO也是这样——你很难想出解法,但验证答案很容易。
竞赛选手在这类问题上练了十几年。大脑已经优化成"在巨大搜索空间中快速找可行解"的机器。
RL训练的核心范式,恰好就是"hard to solve but easy to verify"。
模型生成各种candidate solutions(hard to solve),reward model验证对错(easy to verify),然后优化policy。
这是思维方式的迁移,不是转行。
从论文里看到的竞赛思维
技术报告Section 3.2.3详细写了General Agent的环境合成方法。这个workflow特别能体现竞赛思维。
自动化环境合成agent的工作流程:
- 给定任务类别(比如"规划旅行"),sandbox配备bash和search工具
- Agent用工具从网上检索数据,存入sandbox database
- Agent合成一套task-specific tools(函数形式)
- 提出简单任务,生成solution function(只能调用工具,不能直接访问database)
- 生成verification function验证solution
- 如果验证不过,修改solution或verification,迭代增加难度
- 如果工具不够,扩充toolset
- 用DeepSeek-V3.2在这些任务上做RL,只保留pass@100非零的任务
最后一步是关键。pass@100非零意味着:
- 任务足够难(不是一次就能过)
- 任务可解(采样100次有解)
这是竞赛出题的逻辑。
IOI出题也是这样:题目要有区分度(不能太简单),但又要可解(不能完全无解)。竞赛选手很清楚这个尺度在哪里。
DeepSeek的合成任务对所有模型都有挑战性。他们随机抽了50个general agent任务,测试结果:
- DeepSeek-V3.2-Exp:12% pass@1
- Claude Sonnet 4.5:34% pass@1
- Gemini 3.0 Pro:51% pass@1
- GPT-5-Thinking:62% pass@1
GPT-5也只有62%。
但关键是,这些合成任务能泛化到真实环境。只用synthetic general agent data做RL(非思考模式),在Tau2Bench、MCP-Mark、MCP-Universe上都显著提升。
这证明了什么?
合成任务抓住了问题的本质。
这是竞赛选手的能力——快速抽象出问题核心,设计出既有挑战又可验证的case。
Post-Training才是决胜点
技术报告里还有个关键数据:
Post-training计算预算超过pre-training成本的10%。
业界很少见。大多数公司把钱都砸pre-training,post-training投入不够。
论文说:
"过去几个月,我们观察到性能提升与extended RL training budget高度相关。持续增加RL计算,推理能力持续提升。"
DeepSeek的假设是:推理能力可以通过进一步增加计算预算继续提升。
报告Section 3.1详细写了4个RL训练的稳定性技巧:
1. Unbiased KL Estimate
原始K3 estimator有偏。当采样token在当前policy下概率很低时,K3会给这些token分配"无界的、不成比例的大权重",导致训练不稳定。
解决方法:用importance sampling ratio修正KL散度估计。
有意思的发现:数学等领域可以用更弱的KL惩罚,甚至完全不用。
2. Off-Policy Sequence Masking
生成大batch后分多个mini-batch更新,天然off-policy。推理框架和训练框架实现细节不一致,进一步加剧off-policy。
解决方法:mask掉policy偏离太大且advantage为负的样本。
论文的洞察很深刻:
"模型从自己的错误中学习最多,而高度off-policy的负样本可能误导或不稳定优化过程。"
所以只mask负样本,不mask正样本。
3. Keep Routing(MoE特有)
MoE模型中,推理和训练框架可能路由到不同的expert,导致active parameter subspace突变。
解决方法:保存推理时的expert routing paths,训练时强制使用相同routing。
论文说这是MoE RL训练稳定性的关键,DeepSeek从V3-0324开始就采用此策略。
4. Keep Sampling Mask
Top-p/top-k采样会截断低概率token,提升样本质量。但在RL训练中导致action space不一致,违反importance sampling原理。
解决方法:保存采样时的truncation masks,训练时应用到当前policy。
效果:在RL训练中有效保持语言一致性。
都是工程细节。细节决定成败。
150人的团队,能在这些细节上抠这么细,是因为每个人都够强。
思考模式+工具调用的突破
V3.2还有个突破:首次实现思考模式+工具调用融合。
之前的模型二选一:要么纯思考,要么调工具。V3.2能边思考边调工具,多轮思考+多轮工具调用。
DeepSeek-R1的问题是,第二轮消息就丢弃reasoning content。在工具调用场景下特别低效——每次调工具都要重 新推理整个问题。
V3.2的新策略:
- 只在新user message到来时丢弃reasoning content
- 如果只是tool-related messages(tool outputs),保留reasoning content
- 工具调用历史和结果始终保留
效果:避免冗余的re-reasoning,大幅提升token效率。
Agent评测结果:
- Terminal Bench 2.0:46.4%(vs Claude 4.5 Sonnet 42.8%)
- SWE Verified:73.1%(vs GPT-5 74.9%)
- Tool-Decathlon:35.2%(vs Gemini 3.0 Pro 36.4%)
这些benchmark的环境和工具在RL训练中从未遇到。
模型能泛化,说明它学会的是reasoning strategies,不是记specific tools。
低调的DeepSeek
明明这么强,为什么不叫V4?
V3 → V3.1 → V3.2,渐进式命名。
对比:
- OpenAI:GPT-4 → GPT-4.5 → GPT-5
- Google:Gemini 2.0 → Gemini 3.0
硅谷大厂都在跳版本号营销,DeepSeek还在0.1、0.2地加。
定价也是:$0.42/M output tokens,比竞品便宜很多,但不大肆宣传。
梁文锋量化出身。量化的核心逻辑:在海量数据中找信号。
DSA(稀疏注意力)的设计也体现这一点:
- 用lightning indexer(极少计算量)快速筛选重要token
- 主模型只处理top-k(2048个)token
- 复杂度从O(L²)降到O(L·k)
量化思维——不是每个token都重要,找到重要的就行。
150人团队,10%以上的预算投post-training,4个RL稳定性技巧,1800+合成环境,思考模式+工具调用融合。
每一步都是效率优化,每一步都在抠细节。
不靠营销,让模型说话。
我的观察
DeepSeek的路径跟硅谷完全不同:
- 硅谷:博士+资深工程师+大规模团队+密集营销
- DeepSeek:奥赛选手+应届生+极简团队+零营销
哪种更优?数据说话——V3.2已经媲美GPT-5。
我觉得更有意思的是:模型能力反映团队基因。
能拿IMO金牌的模型,是由奥赛选手训练出来的。
能在"hard to solve but easy to verify"的任务上表现好,是因为团队在这类问题上训练了十几年。
能抠出4个RL稳定性技巧,是因为每个人都足够强,细节抠得足够深。
竞赛选手做AI,不是降维打击。
是思维方式的迁移。