跳至主要内容

DeepSeek V3.2:150個奧賽金牌,做出了一個能拿金牌的模型

一家只招奧賽金牌的公司,做出了一個能拿奧賽金牌的模型

AI Research

DeepSeek今天釋出了V3.2。

看完22頁技術報告,我最大的感受不是模型有多強(雖然確實很強),而是一家只招奧賽金牌的公司,做出了一個能拿奧賽金牌的模型

這不是巧合。

一個有點反常識的資料

DeepSeek V3.2-Speciale在這些競賽上拿了金牌:

  • IMO 2025(國際數學奧林匹克):5/6題
  • CMO 2025(中國數學奧林匹克):4題全對+1題部分分
  • Putnam 2024:118/120分,超過最佳人類成績90分
  • IOI 2025(國際資訊學奧林匹克):金牌,第10名
  • ICPC 2025(國際大學生程式設計競賽):金牌,第2名

Putnam那個118/120特別誇張。威廉·洛厄爾·普特南數學競賽,公認最難的數學競賽之一。人類最好成績90分,模型直接118分。

但我覺得更有意思的是另一個資料:DeepSeek團隊只有150人

對比一下:

  • OpenAI:1000人左右
  • Google DeepMind:幾千人
  • DeepSeek:150人

150人,做出了跟GPT-5媲美、部分指標超過Gemini 3.0 Pro的模型。

這背後是什麼邏輯?

只招奧賽金牌的公司

DeepSeek的招聘策略很極端。

多個來源提到,他們拒絕沒有金牌的候選人。具體要求:

  • 3-5年經驗是上限,超過8年基本不招
  • 重視IMO/IOI/ICPC等競賽成績
  • 優先招聘應屆博士和剛畢業的學生
  • 重視世界級論文發表

團隊規模約150人,管理風格是:

  • 無KPI
  • 無週報
  • 無內部競爭
  • 去管理層化

創始人梁文鋒是量化對沖出身。2015年創立幻方量化(現在管理80億美元資產),2017年全面轉向AI策略,2023年創立DeepSeek。

2023年,在美國限制前,他們囤了10,000個Nvidia A100 GPU。

量化思維+競賽選手+極簡團隊。公司基因很清晰。

但為什麼競賽選手適合做AI?

競賽思維 = "難解答,易驗證"

我讀完技術報告後,發現了一個關鍵細節。

DeepSeek合成了大量訓練任務:

  • 1,800+個環境
  • 85,000+複雜指令

論文裡反覆強調一個概念:"hard to solve but easy to verify"(難解答,易驗證)。

這是什麼意思?

舉個例子。論文裡有個trip planning任務:

規劃一個三天旅行,從杭州出發,10月1-3日。要求:

  • 不重複任何城市、酒店、景點、餐廳
  • 第二天如果訂豪華酒店(≥800元),餐廳總花費要<350元,兩家餐廳評分≥4.0,景點門票<120元
  • 如果訂中高階酒店(500-800元),至少一家餐廳評分≥4.0,景點門票<180元
  • 如果訂經濟酒店(200-500元),至少一家餐廳評分≥3.2

難解答:組合空間巨大,要搜尋很多可能性。

易驗證:給定一個方案,檢查是否滿足所有約束很簡單。

這就是競賽題的本質特徵。

IOI是這樣,Codeforces是這樣,IMO也是這樣——你很難想出解法,但驗證答案很容易。

競賽選手在這類問題上練了十幾年。大腦已經最佳化成"在巨大搜尋空間中快速找可行解"的機器。

RL訓練的核心正規化,恰好就是"hard to solve but easy to verify"。

模型生成各種candidate solutions(hard to solve),reward model驗證對錯(easy to verify),然後最佳化policy。

這是思維方式的遷移,不是轉行。

從論文裡看到的競賽思維

技術報告Section 3.2.3詳細寫了General Agent的環境合成方法。這個workflow特別能體現競賽思維。

自動化環境合成agent的工作流程

  1. 給定任務類別(比如"規劃旅行"),sandbox配備bash和search工具
  2. Agent用工具從網上檢索資料,存入sandbox database
  3. Agent合成一套task-specific tools(函式形式)
  4. 提出簡單任務,生成solution function(只能呼叫工具,不能直接訪問database)
  5. 生成verification function驗證solution
  6. 如果驗證不過,修改solution或verification,迭代增加難度
  7. 如果工具不夠,擴充toolset
  8. 用DeepSeek-V3.2在這些任務上做RL,只保留pass@100非零的任務

最後一步是關鍵。pass@100非零意味著:

  • 任務足夠難(不是一次就能過)
  • 任務可解(取樣100次有解)

這是競賽出題的邏輯。

IOI出題也是這樣:題目要有區分度(不能太簡單),但又要可解(不能完全無解)。競賽選手很清楚這個尺度在哪裡。

DeepSeek的合成任務對所有模型都有挑戰性。他們隨機抽了50個general agent任務,測試結果:

  • DeepSeek-V3.2-Exp:12% pass@1
  • Claude Sonnet 4.5:34% pass@1
  • Gemini 3.0 Pro:51% pass@1
  • GPT-5-Thinking:62% pass@1

GPT-5也只有62%。

但關鍵是,這些合成任務能泛化到真實環境。只用synthetic general agent data做RL(非思考模式),在Tau2Bench、MCP-Mark、MCP-Universe上都顯著提升。

這證明了什麼?

合成任務抓住了問題的本質。

這是競賽選手的能力——快速抽象出問題核心,設計出既有挑戰又可驗證的case。

Post-Training才是決勝點

技術報告裡還有個關鍵資料:

Post-training計算預算超過pre-training成本的10%

業界很少見。大多數公司把錢都砸pre-training,post-training投入不夠。

論文說:

"過去幾個月,我們觀察到效能提升與extended RL training budget高度相關。持續增加RL計算,推理能力持續提升。"

DeepSeek的假設是:推理能力可以透過進一步增加計算預算繼續提升。

報告Section 3.1詳細寫了4個RL訓練的穩定性技巧:

1. Unbiased KL Estimate

原始K3 estimator有偏。當取樣token在當前policy下機率很低時,K3會給這些token分配"無界的、不成比例的大權重",導致訓練不穩定。

解決方法:用importance sampling ratio修正KL散度估計。

有意思的發現:數學等領域可以用更弱的KL懲罰,甚至完全不用。

2. Off-Policy Sequence Masking

生成大batch後分多個mini-batch更新,天然off-policy。推理框架和訓練框架實現細節不一致,進一步加劇off-policy。

解決方法:mask掉policy偏離太大且advantage為負的樣本。

論文的洞察很深刻:

"模型從自己的錯誤中學習最多,而高度off-policy的負樣本可能誤導或不穩定最佳化過程。"

所以只mask負樣本,不mask正樣本。

3. Keep Routing(MoE特有)

MoE模型中,推理和訓練框架可能路由到不同的expert,導致active parameter subspace突變。

解決方法:儲存推理時的expert routing paths,訓練時強制使用相同routing。

論文說這是MoE RL訓練穩定性的關鍵,DeepSeek從V3-0324開始就採用此策略。

4. Keep Sampling Mask

Top-p/top-k取樣會截斷低機率token,提升樣本質量。但在RL訓練中導致action space不一致,違反importance sampling原理。

解決方法:儲存取樣時的truncation masks,訓練時應用到當前policy。

效果:在RL訓練中有效保持語言一致性。

都是工程細節。細節決定成敗。

150人的團隊,能在這些細節上摳這麼細,是因為每個人都夠強。

思考模式+工具呼叫的突破

V3.2還有個突破:首次實現思考模式+工具呼叫融合

之前的模型二選一:要麼純思考,要麼調工具。V3.2能邊思考邊調工具,多輪思考+多輪工具呼叫。

DeepSeek-R1的問題是,第二輪訊息就丟棄reasoning content。在工具呼叫場景下特別低效——每次調工具都要重新推理整個問題。

V3.2的新策略:

  • 只在新user message到來時丟棄reasoning content
  • 如果只是tool-related messages(tool outputs),保留reasoning content
  • 工具呼叫歷史和結果始終保留

效果:避免冗餘的re-reasoning,大幅提升token效率。

Agent評測結果:

  • Terminal Bench 2.0:46.4%(vs Claude 4.5 Sonnet 42.8%)
  • SWE Verified:73.1%(vs GPT-5 74.9%)
  • Tool-Decathlon:35.2%(vs Gemini 3.0 Pro 36.4%)

這些benchmark的環境和工具在RL訓練中從未遇到。

模型能泛化,說明它學會的是reasoning strategies,不是記specific tools。

低調的DeepSeek

明明這麼強,為什麼不叫V4?

V3 → V3.1 → V3.2,漸進式命名。

對比:

  • OpenAI:GPT-4 → GPT-4.5 → GPT-5
  • Google:Gemini 2.0 → Gemini 3.0

矽谷大廠都在跳版本號營銷,DeepSeek還在0.1、0.2地加。

定價也是:$0.42/M output tokens,比競品便宜很多,但不大肆宣傳。

梁文鋒量化出身。量化的核心邏輯:在海量資料中找訊號

DSA(稀疏注意力)的設計也體現這一點:

  • 用lightning indexer(極少計算量)快速篩選重要token
  • 主模型只處理top-k(2048個)token
  • 複雜度從O(L²)降到O(L·k)

量化思維——不是每個token都重要,找到重要的就行。

150人團隊,10%以上的預算投post-training,4個RL穩定性技巧,1800+合成環境,思考模式+工具呼叫融合。

每一步都是效率最佳化,每一步都在摳細節。

不靠營銷,讓模型說話。

我的觀察

DeepSeek的路徑跟矽谷完全不同:

  • 矽谷:博士+資深工程師+大規模團隊+密集營銷
  • DeepSeek:奧賽選手+應屆生+極簡團隊+零營銷

哪種更優?資料說話——V3.2已經媲美GPT-5。

我覺得更有意思的是:模型能力反映團隊基因

能拿IMO金牌的模型,是由奧賽選手訓練出來的。

能在"hard to solve but easy to verify"的任務上表現好,是因為團隊在這類問題上訓練了十幾年。

能摳出4個RL穩定性技巧,是因為每個人都足夠強,細節摳得足夠深。

競賽選手做AI,不是降維打擊。

是思維方式的遷移。