DeepSeek V3.2：150個奧賽金牌，做出了一個能拿金牌的模型

一家只招奧賽金牌的公司，做出了一個能拿奧賽金牌的模型

AI Research

DeepSeek今天釋出了V3.2。

看完22頁技術報告，我最大的感受不是模型有多強（雖然確實很強），而是一家只招奧賽金牌的公司，做出了一個能拿奧賽金牌的模型。

這不是巧合。

一個有點反常識的資料

DeepSeek V3.2-Speciale在這些競賽上拿了金牌：

IMO 2025（國際數學奧林匹克）：5/6題
CMO 2025（中國數學奧林匹克）：4題全對+1題部分分
Putnam 2024：118/120分，超過最佳人類成績90分
IOI 2025（國際資訊學奧林匹克）：金牌，第10名
ICPC 2025（國際大學生程式設計競賽）：金牌，第2名

Putnam那個118/120特別誇張。威廉·洛厄爾·普特南數學競賽，公認最難的數學競賽之一。人類最好成績90分，模型直接118分。

但我覺得更有意思的是另一個資料：DeepSeek團隊只有150人。

對比一下：

OpenAI：1000人左右
Google DeepMind：幾千人
DeepSeek：150人

150人，做出了跟GPT-5媲美、部分指標超過Gemini 3.0 Pro的模型。

這背後是什麼邏輯？

只招奧賽金牌的公司

DeepSeek的招聘策略很極端。

多個來源提到，他們拒絕沒有金牌的候選人。具體要求：

3-5年經驗是上限，超過8年基本不招
重視IMO/IOI/ICPC等競賽成績
優先招聘應屆博士和剛畢業的學生
重視世界級論文發表

團隊規模約150人，管理風格是：

無KPI
無週報
無內部競爭
去管理層化

創始人梁文鋒是量化對沖出身。2015年創立幻方量化（現在管理80億美元資產），2017年全面轉向AI策略，2023年創立DeepSeek。

2023年，在美國限制前，他們囤了10,000個Nvidia A100 GPU。

量化思維+競賽選手+極簡團隊。公司基因很清晰。

但為什麼競賽選手適合做AI？

競賽思維 = "難解答，易驗證"

我讀完技術報告後，發現了一個關鍵細節。

DeepSeek合成了大量訓練任務：

1,800+個環境
85,000+複雜指令

論文裡反覆強調一個概念："hard to solve but easy to verify"（難解答，易驗證）。

這是什麼意思？

舉個例子。論文裡有個trip planning任務：

規劃一個三天旅行，從杭州出發，10月1-3日。要求：

不重複任何城市、酒店、景點、餐廳

第二天如果訂豪華酒店（≥800元），餐廳總花費要<350元，兩家餐廳評分≥4.0，景點門票<120元

如果訂中高階酒店（500-800元），至少一家餐廳評分≥4.0，景點門票<180元

如果訂經濟酒店（200-500元），至少一家餐廳評分≥3.2

難解答：組合空間巨大，要搜尋很多可能性。

易驗證：給定一個方案，檢查是否滿足所有約束很簡單。

這就是競賽題的本質特徵。

IOI是這樣，Codeforces是這樣，IMO也是這樣——你很難想出解法，但驗證答案很容易。

競賽選手在這類問題上練了十幾年。大腦已經最佳化成"在巨大搜尋空間中快速找可行解"的機器。

RL訓練的核心正規化，恰好就是"hard to solve but easy to verify"。

模型生成各種candidate solutions（hard to solve），reward model驗證對錯（easy to verify），然後最佳化policy。

這是思維方式的遷移，不是轉行。

從論文裡看到的競賽思維

技術報告Section 3.2.3詳細寫了General Agent的環境合成方法。這個workflow特別能體現競賽思維。

自動化環境合成agent的工作流程：

給定任務類別（比如"規劃旅行"），sandbox配備bash和search工具
Agent用工具從網上檢索資料，存入sandbox database
Agent合成一套task-specific tools（函式形式）
提出簡單任務，生成solution function（只能呼叫工具，不能直接訪問database）
生成verification function驗證solution
如果驗證不過，修改solution或verification，迭代增加難度
如果工具不夠，擴充toolset
用DeepSeek-V3.2在這些任務上做RL，只保留pass@100非零的任務

最後一步是關鍵。pass@100非零意味著：

任務足夠難（不是一次就能過）
任務可解（取樣100次有解）

這是競賽出題的邏輯。

IOI出題也是這樣：題目要有區分度（不能太簡單），但又要可解（不能完全無解）。競賽選手很清楚這個尺度在哪裡。

DeepSeek的合成任務對所有模型都有挑戰性。他們隨機抽了50個general agent任務，測試結果：

DeepSeek-V3.2-Exp：12% pass@1
Claude Sonnet 4.5：34% pass@1
Gemini 3.0 Pro：51% pass@1
GPT-5-Thinking：62% pass@1

GPT-5也只有62%。

但關鍵是，這些合成任務能泛化到真實環境。只用synthetic general agent data做RL（非思考模式），在Tau2Bench、MCP-Mark、MCP-Universe上都顯著提升。

這證明了什麼？

合成任務抓住了問題的本質。

這是競賽選手的能力——快速抽象出問題核心，設計出既有挑戰又可驗證的case。

Post-Training才是決勝點

技術報告裡還有個關鍵資料：

Post-training計算預算超過pre-training成本的10%。

業界很少見。大多數公司把錢都砸pre-training，post-training投入不夠。

論文說：

"過去幾個月，我們觀察到效能提升與extended RL training budget高度相關。持續增加RL計算，推理能力持續提升。"

DeepSeek的假設是：推理能力可以透過進一步增加計算預算繼續提升。

報告Section 3.1詳細寫了4個RL訓練的穩定性技巧：

1. Unbiased KL Estimate

原始K3 estimator有偏。當取樣token在當前policy下機率很低時，K3會給這些token分配"無界的、不成比例的大權重"，導致訓練不穩定。

解決方法：用importance sampling ratio修正KL散度估計。

有意思的發現：數學等領域可以用更弱的KL懲罰，甚至完全不用。

2. Off-Policy Sequence Masking

生成大batch後分多個mini-batch更新，天然off-policy。推理框架和訓練框架實現細節不一致，進一步加劇off-policy。

解決方法：mask掉policy偏離太大且advantage為負的樣本。

論文的洞察很深刻：

"模型從自己的錯誤中學習最多，而高度off-policy的負樣本可能誤導或不穩定最佳化過程。"

所以只mask負樣本，不mask正樣本。

3. Keep Routing（MoE特有）

MoE模型中，推理和訓練框架可能路由到不同的expert，導致active parameter subspace突變。

解決方法：儲存推理時的expert routing paths，訓練時強制使用相同routing。

論文說這是MoE RL訓練穩定性的關鍵，DeepSeek從V3-0324開始就採用此策略。

4. Keep Sampling Mask

Top-p/top-k取樣會截斷低機率token，提升樣本質量。但在RL訓練中導致action space不一致，違反importance sampling原理。

解決方法：儲存取樣時的truncation masks，訓練時應用到當前policy。

效果：在RL訓練中有效保持語言一致性。

都是工程細節。細節決定成敗。

150人的團隊，能在這些細節上摳這麼細，是因為每個人都夠強。

思考模式+工具呼叫的突破

V3.2還有個突破：首次實現思考模式+工具呼叫融合。

之前的模型二選一：要麼純思考，要麼調工具。V3.2能邊思考邊調工具，多輪思考+多輪工具呼叫。

DeepSeek-R1的問題是，第二輪訊息就丟棄reasoning content。在工具呼叫場景下特別低效——每次調工具都要重新推理整個問題。

V3.2的新策略：

只在新user message到來時丟棄reasoning content
如果只是tool-related messages（tool outputs），保留reasoning content
工具呼叫歷史和結果始終保留

效果：避免冗餘的re-reasoning，大幅提升token效率。

Agent評測結果：

Terminal Bench 2.0：46.4%（vs Claude 4.5 Sonnet 42.8%）
SWE Verified：73.1%（vs GPT-5 74.9%）
Tool-Decathlon：35.2%（vs Gemini 3.0 Pro 36.4%）

這些benchmark的環境和工具在RL訓練中從未遇到。

模型能泛化，說明它學會的是reasoning strategies，不是記specific tools。

低調的DeepSeek

明明這麼強，為什麼不叫V4？

V3 → V3.1 → V3.2，漸進式命名。

對比：

OpenAI：GPT-4 → GPT-4.5 → GPT-5
Google：Gemini 2.0 → Gemini 3.0

矽谷大廠都在跳版本號營銷，DeepSeek還在0.1、0.2地加。

定價也是：$0.42/M output tokens，比競品便宜很多，但不大肆宣傳。

梁文鋒量化出身。量化的核心邏輯：在海量資料中找訊號。

DSA（稀疏注意力）的設計也體現這一點：

用lightning indexer（極少計算量）快速篩選重要token
主模型只處理top-k（2048個）token
複雜度從O(L²)降到O(L·k)

量化思維——不是每個token都重要，找到重要的就行。

150人團隊，10%以上的預算投post-training，4個RL穩定性技巧，1800+合成環境，思考模式+工具呼叫融合。

每一步都是效率最佳化，每一步都在摳細節。

不靠營銷，讓模型說話。

我的觀察

DeepSeek的路徑跟矽谷完全不同：

矽谷：博士+資深工程師+大規模團隊+密集營銷
DeepSeek：奧賽選手+應屆生+極簡團隊+零營銷

哪種更優？資料說話——V3.2已經媲美GPT-5。

我覺得更有意思的是：模型能力反映團隊基因。

能拿IMO金牌的模型，是由奧賽選手訓練出來的。

能在"hard to solve but easy to verify"的任務上表現好，是因為團隊在這類問題上訓練了十幾年。

能摳出4個RL穩定性技巧，是因為每個人都足夠強，細節摳得足夠深。

競賽選手做AI，不是降維打擊。

是思維方式的遷移。

參考資料

一個有點反常識的資料​

只招奧賽金牌的公司​

競賽思維 = "難解答，易驗證"​

從論文裡看到的競賽思維​

Post-Training才是決勝點​

思考模式+工具呼叫的突破​

低調的DeepSeek​

我的觀察​