測試集發(fā)布之后,它就無效了
首先,感謝 minghao 老司機(jī),閱篇無數(shù),精準(zhǔn)推薦
本文基于老司機(jī)推薦的年終盤點(diǎn)《The State Of LLMs 2025: Progress, Problems, and Predictions》
![]()
https://magazine.sebastianraschka.com/p/state-of-llms-2025
這篇文章的原始作者叫 Raschka,長期在 Substack 輸出技術(shù)內(nèi)容。他的書被翻譯成 9種 語言,被多所大學(xué)用作教材
以下這些,是他對 2025 年大模型領(lǐng)域的觀察和判斷,在這里我做了一些重寫&刪改
推理模型、RLVR 與 GRPO 之年
2025 年 1 月,DeepSeek R1 發(fā)布,帶來兩個簡單但重要的發(fā)現(xiàn):
? 模型先說思路再給答案,準(zhǔn)確率更高
? 這種習(xí)慣,可以用強(qiáng)化學(xué)習(xí)養(yǎng)成
R1 引發(fā)關(guān)注,原因有三
其一
R1 以開源權(quán)重發(fā)布,性能與當(dāng)時(shí)最好的閉源模型相當(dāng)
其二
R1 論文讓投資者和媒體重新審視 2024 年 12 月的 DeepSeek V3 論文
結(jié)論被修正:訓(xùn)練頂級模型的成本可能接近 $500萬,而非 $5000萬 或 $5億
![]()
DeepSeek V3 論文中的訓(xùn)練成本估算
R1 的補(bǔ)充材料顯示:在 V3 基礎(chǔ)上訓(xùn)練 R1,只需額外 $29.4萬
![]()
R1 訓(xùn)練成本估算
當(dāng)然,$500萬 只算了最終跑模型的算力,不包括研究人員薪資和實(shí)驗(yàn)成本
其三
論文同時(shí)提出了 RLVR + GRPO 這套新方法
此前不管是 SFT 還是 RLHF,都綁定在人工標(biāo)注上,成本高、規(guī)模有限
RLVR 換了個思路:如果答案本身可以被驗(yàn)證,就不需要人來判斷對錯
數(shù)學(xué)和代碼是最典型的場景,但這個邏輯可以延伸
![]()
強(qiáng)化學(xué)習(xí)應(yīng)用時(shí)機(jī)概覽
可驗(yàn)證獎勵的簡單示例
今年大模型開發(fā)基本被 RLVR 和 GRPO 主導(dǎo)。幾乎每個主要玩家,都在 R1 之后發(fā)布了推理版本的模型
大模型發(fā)展重心演變
如果要簡潔總結(jié)每年大模型開發(fā)的重點(diǎn):
? 2022 RLHF + PPO
? 2023 LoRA SFT
? 2024 中期訓(xùn)練
? 2025 RLVR + GRPO
那么下一步是什么?
Raschka 認(rèn)為 2026 年會看到更多 RLVR 相關(guān)的工作。目前 RLVR 主要用在數(shù)學(xué)和代碼上,下一步是擴(kuò)展到其他領(lǐng)域
另一個方向是「解釋評分」:不光看最終答案對不對,還要評判中間推理過程。這在過去叫「過程獎勵模型」(PRM),但目前還不太成功
Raschka 對 2026、2027 的預(yù)判:
? 2026 RLVR 擴(kuò)展 + 更多推理時(shí)擴(kuò)展
? 2027 持續(xù)學(xué)習(xí)
推理時(shí)擴(kuò)展的意思是:訓(xùn)練完之后,在生成答案時(shí)花更多時(shí)間和算力
這是一個權(quán)衡:延遲、成本、準(zhǔn)確率之間的取舍。但在某些場景,準(zhǔn)確率比延遲更重要,極端的推理擴(kuò)展完全值得
比如 DeepSeekMath-V2 在數(shù)學(xué)競賽基準(zhǔn)上達(dá)到了金牌級表現(xiàn)
![]()
兩種推理時(shí)擴(kuò)展方法的結(jié)合:自一致性和自優(yōu)化
持續(xù)學(xué)習(xí)是指在新數(shù)據(jù)上訓(xùn)練模型,不從頭來。挑戰(zhàn)是災(zāi)難性遺忘:學(xué)新東西會忘舊東西。今年同行討論很多,但還沒有實(shí)質(zhì)性突破
2. GRPO:年度研究寵兒
在大模型昂貴的時(shí)代,學(xué)術(shù)研究不太好做。但仍能做出重要發(fā)現(xiàn)
近年典型例子:LoRA(2021)用于參數(shù)高效微調(diào),DPO 用于無獎勵模型對齊
![]()
基于代碼的 LoRA 教程
基于代碼的 DPO 教程
今年的亮點(diǎn)是 GRPO。雖然出自 DeepSeek R1 論文,但對研究者來說仍是激動人心的一年:RLVR 和 GRPO 概念上有趣,實(shí)驗(yàn)成本也還能接受
今年大模型文獻(xiàn)中出現(xiàn)了很多 GRPO 的改進(jìn),后來被納入頂級大模型的訓(xùn)練流程
Olmo 3 采用的改進(jìn):
零梯度信號過濾、主動采樣、Token 級別損失、無 KL 損失、更高的裁剪閾值、截?cái)嘀匾圆蓸印o標(biāo)準(zhǔn)差歸一化
DeepSeek V3.2 采用的改進(jìn):
領(lǐng)域特定 KL 強(qiáng)度的 KL 調(diào)優(yōu)(數(shù)學(xué)為零)、重新加權(quán)的 KL、離策略序列掩碼、保持 top-p / top-k 的采樣掩碼、保持原始 GRPO 優(yōu)勢歸一化
Raschka 確認(rèn)這些修改在實(shí)踐中影響巨大。采用后,壞的更新不再破壞訓(xùn)練,不再需要定期重載檢查點(diǎn)
![]()
從零開始 GRPO 訓(xùn)練代碼的部分結(jié)果 3. 大模型架構(gòu):分叉口?
頂級模型仍然用經(jīng)典的 Decoder 風(fēng)格 Transformer
但今年,開源大模型基本趨同于:MoE(混合專家)層 + 至少一種效率優(yōu)化的注意力機(jī)制(GQA、滑動窗口注意力或 MLA)
更激進(jìn)的效率優(yōu)化也出現(xiàn)了,目標(biāo)是讓注意力機(jī)制的復(fù)雜度隨序列長度線性增長。比如 Qwen3-Next 和 Kimi Linear 中的 Gated DeltaNets,以及 NVIDIA Nemotron 3 中的 Mamba-2 層
![]()
大模型架構(gòu)大比較
Raschka 的預(yù)測:至少在頂級性能方面,未來幾年仍會繼續(xù)用 Transformer
但效率和工程優(yōu)化會越來越多,如 Gated DeltaNet 和 Mamba 層。在大模型的規(guī)模下,從財(cái)務(wù)角度看這是必然
替代方案也有。比如文本擴(kuò)散模型,目前屬于實(shí)驗(yàn)性。但 Google 宣布將發(fā)布 Gemini Diffusion 模型,不追求頂級建模質(zhì)量,但會非常快,適合低延遲場景
兩周前開源的 LLaDA 2.0 發(fā)布,最大的 1000億 參數(shù)版本是迄今最大的文本擴(kuò)散模型,與 Qwen3 30B 持平
4. 推理擴(kuò)展和工具調(diào)用之年
通過擴(kuò)展訓(xùn)練數(shù)據(jù)和架構(gòu)來改進(jìn)大模型,是一個持續(xù)有效的公式
但今年,這不再是唯一有效的方法
GPT 4.5(2025 年 2 月)就是例子。傳言它比 GPT 4 大得多,但單純擴(kuò)展不是最明智的方向。GPT 4.5 的能力可能比 GPT 4 更好,但增加的訓(xùn)練預(yù)算被認(rèn)為「性價(jià)比不高」
相反,更好的訓(xùn)練流程(更多關(guān)注中期和后訓(xùn)練)以及推理擴(kuò)展,驅(qū)動了今年的大部分進(jìn)展
另一個主要改進(jìn)來自工具調(diào)用
幻覺是大模型最大的問題之一。幻覺率在持續(xù)改善,Raschka 認(rèn)為這很大程度上歸功于工具調(diào)用
比如被問到 1998 年世界杯誰贏了,大模型可以用搜索引擎查,從可靠網(wǎng)站抓取信息,而不是靠記憶
OpenAI 的 gpt-oss 是今年早些時(shí)候發(fā)布的專門為工具調(diào)用開發(fā)的開源模型之一
![]()
gpt-oss 模型卡論文的表格
遺憾的是,開源生態(tài)還沒完全跟上,很多工具仍默認(rèn)以非工具調(diào)用模式跑這些大模型
一個原因是這是新范式,工具需要適配。另一個原因是安全:給大模型不受限制的工具調(diào)用權(quán)限,可能出問題
Raschka 認(rèn)為,未來幾年本地跑大模型時(shí)啟用工具調(diào)用會越來越普遍
5. 年度詞匯:刷榜
如果要選一個描述今年大模型開發(fā)的詞,那就是「刷榜」(benchmaxxing)
刷榜意味著強(qiáng)烈關(guān)注推高排行榜數(shù)字,有時(shí)到了 benchmark 表現(xiàn)本身成為目標(biāo)的程度
典型例子是 Llama 4,在很多 benchmark 上得分極高。但用戶和開發(fā)者上手后發(fā)現(xiàn),這些分?jǐn)?shù)并不反映實(shí)際能力
如果測試集是公開的,它就不是真正的測試集
現(xiàn)在的問題是,測試集數(shù)據(jù)不僅成為訓(xùn)練語料的一部分,還經(jīng)常在大模型開發(fā)過程中被直接優(yōu)化
![]()
2019 年 Do ImageNet Classifiers Generalize to ImageNet? 論文的注釋圖
過去,即使公開測試集上的分?jǐn)?shù)被夸大,至少模型排名還是保持的
在大模型開發(fā)中,這已經(jīng)到了 benchmark 數(shù)字不再是性能可靠指標(biāo) 的地步
但 Raschka 認(rèn)為 benchmark 仍是必要門檻:如果一個大模型在某 benchmark 上得分低于 X,就知道它不行。但如果得分高于 X,這并不意味著它比另一個得分高于 X 的大模型好多少
另一個問題是:圖像分類器只有一個任務(wù)。但大模型用于翻譯、總結(jié)、寫代碼、頭腦風(fēng)暴、解數(shù)學(xué)題等等。評估起來復(fù)雜得多
除了在實(shí)踐中嘗試和不斷生成新 benchmark,暫時(shí)沒有解決方案
6. AI 用于編程、寫作和研究
Raschka 把大模型視為給某些職業(yè)的人「超能力」的工具。用好的話,可以顯著提高生產(chǎn)力,消除日常工作中的摩擦
編程
Raschka 仍然自己寫大部分他關(guān)心的代碼
比如設(shè)置一個大模型訓(xùn)練腳本,他會自己實(shí)現(xiàn)并仔細(xì)檢查訓(xùn)練邏輯。這是為了確保它在做正確的事,同時(shí)保持自己在這個任務(wù)上的專長
但他現(xiàn)在用大模型來添加周圍更瑣碎的代碼,比如 argparse 樣板
![]()
使用提示詞「給 training-script.py 所有超參數(shù)選項(xiàng)添加 argparse」
他也越來越依賴大模型來發(fā)現(xiàn)問題、建議改進(jìn)或檢驗(yàn)想法
大模型對核心專長以外的任務(wù)極其有價(jià)值。他最近寫了工具來提取和備份 Substack 文章為 Markdown,大模型還幫他清理了網(wǎng)站的 CSS
訣竅是識別何時(shí)用、何時(shí)不用
代碼庫
大模型寫代碼越來越好了,但 Raschka 不認(rèn)為代碼會變得短暫或過時(shí)
大模型給人們超能力來生成某些編程項(xiàng)目。但純大模型生成的代碼庫,不能取代專家精心打造的代碼庫
一個了解好的設(shè)計(jì)模式和權(quán)衡、研究過、見過、構(gòu)建過很多平臺的專家全棧 Web 開發(fā)者,能夠構(gòu)建比一個隨機(jī)人員提示大模型更好的平臺
精彩的是:現(xiàn)在一個隨機(jī)人員也能構(gòu)建一個平臺,即使不是最好的
但用大模型只能走這么遠(yuǎn),平臺質(zhì)量可能會停滯
技術(shù)寫作和研究
Raschka 不認(rèn)為大模型會讓技術(shù)寫作過時(shí)
寫一本好的技術(shù)書需要數(shù)千小時(shí)和對主題的深刻熟悉。核心工作仍然依賴人類的判斷和專業(yè)知識
![]()
大模型幫 Raschka 在之前的文章中發(fā)現(xiàn)并修復(fù)錯誤
從讀者角度,用大模型學(xué)習(xí)一個話題對快速問題和入門級解釋效果不錯。但當(dāng)你想建立更深層理解時(shí),這種方法很快變得混亂
到那時(shí),不如跟隨專家設(shè)計(jì)的結(jié)構(gòu)化學(xué)習(xí)路徑
也許經(jīng)驗(yàn)法則是:
? 如果這篇文章完全由人類生成,它本可以進(jìn)一步改進(jìn)
? 如果這篇文章可以僅通過提示大模型生成,那它可能不夠新穎和深入
Raschka 認(rèn)為有一個較少被討論的缺點(diǎn):如果模型做所有事情而人類主要是監(jiān)督,工作可能開始感覺空洞
有些人喜歡專注于管理系統(tǒng)和編排工作流。但對于喜歡親自動手做事的人,這種工作模式可能加速倦怠
與一個難題搏斗最終看到它成功,有一種特殊的滿足感。當(dāng)大模型一次搞定答案時(shí),沒有同樣的感覺
也許一個類比是國際象棋
國際象棋引擎幾十年前就超過了人類棋手,但人類玩的職業(yè)國際象棋仍然活躍且繁榮
現(xiàn)代棋手用 AI 來探索不同想法、挑戰(zhàn)直覺、以前所未有的深度分析錯誤
這是思考 AI 在其他智力工作中如何使用的有用模型
用得好,AI 可以加速學(xué)習(xí)、擴(kuò)展單個人能合理承擔(dān)的范圍。應(yīng)該更多地把它當(dāng)作伙伴而不是替代品
但如果 AI 被用來完全外包思考和編程,它有破壞動機(jī)和長期技能發(fā)展的風(fēng)險(xiǎn)
![]()
大模型降低了入門門檻,讓程序員更有生產(chǎn)力 7. 優(yōu)勢:私有數(shù)據(jù)
大模型的通用編程、知識問答和寫作能力在持續(xù)提升
這很大程度上是因?yàn)閿U(kuò)展仍然帶來正向投資回報(bào)
但這在某個時(shí)候會開始停滯,除非不斷發(fā)明新的訓(xùn)練方法和架構(gòu)
大模型目前能解決很多通用任務(wù)和相對容易的問題。但要在某些行業(yè)深入扎根,需要更多領(lǐng)域?qū)I(yè)化
大模型提供商很想獲得高質(zhì)量的領(lǐng)域?qū)S脭?shù)據(jù)。目前看來這將是一個挑戰(zhàn)
大多數(shù)被接洽的公司都拒絕了數(shù)據(jù)交易,正是因?yàn)閿?shù)據(jù)是專有的、是其業(yè)務(wù)差異化的核心
把有價(jià)值的專有數(shù)據(jù)賣給 OpenAI 或 Anthropic,可能有點(diǎn)短視
![]()
有用的行業(yè)和數(shù)據(jù)類型示例
目前大模型開發(fā)在規(guī)模上成本高昂且有挑戰(zhàn),這就是為什么只有少數(shù)大公司開發(fā)頂級大模型
但 Raschka 認(rèn)為大模型開發(fā)正變得越來越商品化
大模型開發(fā)者頻繁在雇主之間輪換,最終會被更大的金融機(jī)構(gòu)、生物技術(shù)公司等有預(yù)算的企業(yè)雇用,開發(fā)受益于其私有數(shù)據(jù)的內(nèi)部大模型
這些大模型甚至不需要完全從頭訓(xùn)練;許多頂級大模型如 DeepSeek V3.2、Kimi K2 和 GLM 4.7 正在發(fā)布,可以被適配和進(jìn)一步后訓(xùn)練
8. 2025 年的意外與 2026 年預(yù)測 2025 年值得注意的意外
1. 幾個推理模型已在主要數(shù)學(xué)競賽中達(dá)到金牌水平(OpenAI 的一個未命名模型、Gemini Deep Think、開源的 DeepSeekMath-V2)。Raschka 不驚訝這發(fā)生,但驚訝這在 2025 年就發(fā)生了,而不是 2026 年
2. Llama 4(或整個 Llama 系列)在開源社區(qū)幾乎完全失寵,Qwen 在流行度上超過了 Llama
3. Mistral AI 在其最新旗艦 Mistral 3 模型中用了 DeepSeek V3 架構(gòu)(2025 年 12 月宣布)
4. 除了 Qwen3 和 DeepSeek R1/V3.2,開源頂級模型競賽中出現(xiàn)了許多其他競爭者:Kimi、GLM、MiniMax、Yi
5. 更便宜、高效的混合架構(gòu)已成為領(lǐng)先實(shí)驗(yàn)室的更大優(yōu)先級(Qwen3-Next、Kimi Linear、Nemotron 3),而不是由獨(dú)立實(shí)驗(yàn)室開發(fā)
6. OpenAI 發(fā)布了開源權(quán)重模型(gpt-oss)
7. MCP 已成為 Agent 風(fēng)格大模型系統(tǒng)中工具和數(shù)據(jù)訪問的標(biāo)準(zhǔn)。Raschka 預(yù)期生態(tài)系統(tǒng)在 2025 年會保持更碎片化,至少到 2026 年
1. 很可能會看到一個工業(yè)規(guī)模的、面向消費(fèi)者的擴(kuò)散模型,用于廉價(jià)、可靠、低延遲的推理,Gemini Diffusion 可能會先行
2. 開源社區(qū)會緩慢但穩(wěn)定地采用本地工具調(diào)用和越來越多 Agent 能力的大模型
3. RLVR 會更廣泛地?cái)U(kuò)展到數(shù)學(xué)和代碼以外的領(lǐng)域 (比如化學(xué)、生物等)
4. 傳統(tǒng) RAG 會逐漸不再是文檔查詢的默認(rèn)解決方案。開發(fā)者會更多依賴更好的長上下文處理,尤其是隨著更好的「小型」開源模型出現(xiàn)
5. 大量大模型 benchmark 和性能進(jìn)展將來自改進(jìn)的工具和推理時(shí)擴(kuò)展,而非訓(xùn)練或核心模型本身 。看起來大模型在變得更好,但這主要是因?yàn)橹車鷳?yīng)用在改進(jìn)
如果 2025 年有一個元教訓(xùn),那就是大模型的進(jìn)展不是關(guān)于單一突破
改進(jìn)是通過多條獨(dú)立路徑在多個方面進(jìn)行的:架構(gòu)調(diào)整、數(shù)據(jù)質(zhì)量改進(jìn)、推理訓(xùn)練、推理擴(kuò)展、工具調(diào)用
同時(shí),評估仍然困難,benchmark 不完美,對何時(shí)以及如何使用這些系統(tǒng)的良好判斷仍然至關(guān)重要
![]()
新年快樂
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.