網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

姚順雨騰訊第一篇論文，道破為什么AI死活聽不懂人話

2026-02-04 14:17:47　來源: 字母榜

北京舉報

分享至

今天的大語言模型能解奧數(shù)題、通過專業(yè)考試、寫復雜代碼，但它們在真實世界的應(yīng)用中卻常常“翻車”。問題出在哪里？

在姚順雨加入騰訊后發(fā)布的首篇論文里，他對于這個現(xiàn)象提出了一個觀點：

“當前AI與真正智能之間的鴻溝，不在于知識的多少，而在于學習的能力。一個裝滿知識卻不會學習的AI，就像一個背了整本字典卻不會寫作的人，看起來博學，實則僵化。”

這篇論文的標題叫做《CL-bench: A Benchmark for Context Learning》。

CL-bench是一個專門評測語言模型“上下文學習能力”的大規(guī)模基準測試集，它的全稱是Context Learning Benchmark，即上下文學習測試集。

它包含500個復雜上下文場景、1899個任務(wù)和31607個評估標注點，所有內(nèi)容均由各個領(lǐng)域資深專家精心挑選。

這個基準的核心設(shè)計理念，是挑選那些在模型的預訓練數(shù)據(jù)中不存在的難題，讓每個任務(wù)都必須要求模型從提供的上下文中學習全新的知識才能解決。

這篇論文不僅揭示了當前AI的根本性缺陷，還構(gòu)建了一個專屬于AI的評價體系，非常值得AI以及agent從業(yè)者學習。

一面照出AI“假學習”真相的鏡子

從數(shù)據(jù)規(guī)模來看，CL-bench的每個上下文平均包含3.8個任務(wù)，最多可達12個任務(wù)。

更重要的是，500個復雜上下文場景中，包含序列依賴性任務(wù)的場景占51.1%。

這也就是說，你想要AI解決后面的任務(wù)，那就必須先從前面的任務(wù)中得到正確的答案，這種多輪交互設(shè)計極大增加了難度。

單任務(wù)標注平均需領(lǐng)域?qū)＜?0小時，每個任務(wù)平均配備16.6個評估標注項，從事實正確性、計算準確性、程序正確性、內(nèi)容完整性和格式合規(guī)性等多個維度進行嚴格驗證。

CL-bench考的不是AI記住了多少知識，而是AI能不能像人類一樣，拿到一份新材料后快速學會并正確使用。

這些任務(wù)有個共同點，AI必須靠臨場發(fā)揮才能通過考試。

預訓練時學到的知識在這里用處不大，因為CL-bench里的知識要么是專家們新編的，要么是現(xiàn)實世界中極其小眾的內(nèi)容。

那如何保證CL-bench里的新知識是模型原來就沒有的呢？

論文通過消融實驗驗證了這一點。在不提供上下文的情況下，所有被測模型只能解決不到1%的任務(wù)。這充分證明了任務(wù)對上下文的依賴性。

CL-bench將上下文學習場景分為四大類別，每類對應(yīng)不同的認知要求：

領(lǐng)域知識推理（Domain Knowledge Reasoning）：涵蓋金融、醫(yī)療、人文、法律咨詢、生活方式、管理和科學七個子領(lǐng)域。

上下文提供專業(yè)領(lǐng)域知識，如虛構(gòu)的法律體系、創(chuàng)新的金融工具或小眾專業(yè)知識，模型需要學習并應(yīng)用這些知識進行推理。比如給AI一個虛構(gòu)國家的完整法律條文和判例，讓AI判罰一起復雜的民事糾紛。

規(guī)則系統(tǒng)應(yīng)用（Rule System Application）：包括游戲機制、數(shù)學形式體系、編程語法、法律法規(guī)和技術(shù)標準五個子類。

上下文提供明確定義的規(guī)則系統(tǒng)，模型必須理解并嚴格遵守這些規(guī)則。比如給定一門全新編程語言的語法規(guī)范，讓模型編寫符合規(guī)范的程序；或者給定一套新游戲的完整規(guī)則手冊，讓模型分析游戲狀態(tài)并給出最優(yōu)策略。

程序性任務(wù)執(zhí)行（Procedural Task Execution）：分為教學程序、操作程序和工作流編排三類。

上下文提供復雜的操作流程、產(chǎn)品手冊或工作流程，模型需要學習并正確執(zhí)行這些程序。例如給定一份無人機物流系統(tǒng)約7000字的API文檔，讓模型將自然語言指令轉(zhuǎn)換為安全合規(guī)的偽代碼。

經(jīng)驗發(fā)現(xiàn)與模擬（Empirical Discovery & Simulation）：是最具挑戰(zhàn)性的類別，包括實驗數(shù)據(jù)、觀測數(shù)據(jù)和模擬環(huán)境三個子類。

與前三類強調(diào)演繹推理不同，這一類要求歸納推理。從大量數(shù)據(jù)中發(fā)現(xiàn)潛在規(guī)律，或在虛擬環(huán)境中進行推理和決策。比如給定300份帶電粒子在磁場中運動的實驗日志，讓模型推導出運動規(guī)律并計算特定參數(shù)。

這四類場景基本覆蓋了人類在現(xiàn)實工作中遇到的主要學習情境，而CL-bench又把這些真實場景搬進了評測體系。

說得更直白些，領(lǐng)域知識推理考的是“能不能學會新概念”，規(guī)則系統(tǒng)應(yīng)用考的是“能不能遵守新規(guī)則”，程序性任務(wù)執(zhí)行考的是“能不能照著新流程做事”，經(jīng)驗發(fā)現(xiàn)與模擬考的是“能不能從數(shù)據(jù)里找規(guī)律”。

這四種能力，人類在日常工作中天天用，但AI顯然還沒學會。

為了確保測試的是真正的學習能力而非記憶，CL-bench采用了嚴格的“防污染”設(shè)計：

虛構(gòu)創(chuàng)作：所有的測試內(nèi)容都是由專家們完全原創(chuàng)的。

就拿剛才的虛擬國家為例，它包含一套完整的憲法、民法、刑法，甚至連判例都有。其中的法律原則和判例邏輯與現(xiàn)實世界任何國家都不同。

或者創(chuàng)造一門名為“EduScript”的教育編程語言，具有獨特的語法規(guī)則和控制結(jié)構(gòu)。

現(xiàn)有內(nèi)容修改：CL-bench還對真實知識進行了系統(tǒng)性地改動，比如修改著名歷史事件的因果關(guān)系、改變物理定律的數(shù)學表達、或調(diào)整技術(shù)標準的具體參數(shù)。

這確保了即使模型見過類似內(nèi)容，也無法直接套用預訓練知識。

小眾新興內(nèi)容整合：CL-bench里面還納入了預訓練數(shù)據(jù)中極少出現(xiàn)的內(nèi)容，就像2024年后發(fā)布的新產(chǎn)品技術(shù)文檔、最新的科研論文發(fā)現(xiàn)、或極其專業(yè)的小眾領(lǐng)域知識。

這三招組合拳，目的只有一個，讓AI沒法作弊。你不能靠背過的知識答題，必須現(xiàn)場學。這就像考試時老師突然換了一套從沒見過的題型，你只能靠理解能力和學習能力來應(yīng)對。

論文通過消融實驗驗證了這一設(shè)計的有效性：在不提供上下文的情況下，即使是最強的 GPT-5.1 模型也只能解決不到 1% 的任務(wù)，充分證明了任務(wù)對上下文的依賴性。

CL-bench給出的結(jié)果

讓人們既開心又難過

CL-bench的這套評估體系的嚴格程度超出想象。

16.6個評估標注項意味著什么？意味著你不能只答對大方向，每個細節(jié)都要對。就像做數(shù)學題，你不僅要答案對，步驟也要對，格式還要對，引用的公式也要對。任何一個環(huán)節(jié)出錯，整道題就算錯。

這些標準會從六個角度檢查AI的答案，每個標準要么對，要么錯，沒有中間地帶。

事實對不對？比如AI說這個虛構(gòu)國家的憲法第3條規(guī)定了什么，得和上下文里寫的一模一樣才算對。

計算對不對？如果任務(wù)要求計算帶電粒子的運動軌跡，那每一步公式、每一個數(shù)字都得驗證。

推理對不對？AI得按照上下文里給的規(guī)則來推理，不能自己瞎編邏輯。

代碼對不對？如果要寫程序，得嚴格遵守文檔里的 API 規(guī)范，少一個參數(shù)都不行。

完整不完整？該做的步驟一個都不能少，漏了哪怕一個關(guān)鍵環(huán)節(jié)都算錯。

格式對不對？讓你輸出JSON就得是JSON，讓你用表格就得是表格。

這套評分系統(tǒng)最狠的地方在于，只有所有標準全部通過，任務(wù)才算完成。只要有一個標準沒過，整個任務(wù)就算失敗。這就像考試，選擇題全對才給分，錯一個就是零分。

為了保證這套自動評分系統(tǒng)靠譜，論文做了兩個驗證。

一是讓5個不同的AI模型（GPT-5.1/5.2、Claude Opus 4.5、Qwen-3-Max、ERNIE 4.0）當評委，它們的判斷結(jié)果90%以上都一致；二是人工抽查了200個案例，發(fā)現(xiàn)AI評委的準確率也超過90%。這說明這套評分系統(tǒng)確實可信。

CL-bench的評測顯示，AI距離解決實際問題還相距甚遠，往好處想，人類還不用擔心被AI取代。

十個最先進的語言模型，平均只能解決17.2%的全量任務(wù)，所有模型里表現(xiàn)最好的是GPT-5.1，但也僅達到23.7%。這意味著在大多數(shù)情況下，即使上下文中包含了解決問題所需的全部信息，模型仍然失敗了。

這個數(shù)字值得細品。23.7%意味著給AI一份完整的操作手冊，它有四分之三的概率還是搞不定。

這就像你雇了個員工，你給他詳細講了一遍具體操作流程，結(jié)果輪到他上崗的時候，十次有八次都做錯。在現(xiàn)實世界里，這樣的員工早就被開除了。

更深入的錯誤分析揭示了失敗的主要原因。

超過55%的錯誤源于“上下文忽略”：模型根本沒有注意到上下文中的關(guān)鍵信息，而是試圖用預訓練知識解決問題。

超過60%的錯誤屬于“上下文誤用”：模型看到了信息但理解錯誤或應(yīng)用不當。

還有超過35%的錯誤是格式錯誤，說明模型連明確的格式指令都無法遵守。

這三種錯誤類型揭示了AI的根本問題。上下文忽略說明AI不會“看”；上下文誤用說明AI不會“想”；格式錯誤說明AI不會“聽”。

一個不會看、不會想、不會聽的學生，怎么可能學會新知識？

這些發(fā)現(xiàn)揭示了一個被長期忽視的真相：當前的AI模型本質(zhì)上是“參數(shù)推理者”而非“上下文學習者”。它們擅長調(diào)用預訓練時壓縮在權(quán)重中的靜態(tài)知識，卻不擅長從當前輸入中動態(tài)學習新知識。

因為真實任務(wù)往往需要根據(jù)具體上下文靈活應(yīng)對，而非套用固定模式。

所以AI在標準化考試中表現(xiàn)優(yōu)異，在真實工作場景中卻頻頻出錯。

打個比方，現(xiàn)在的AI就像一個背了整本字典的人，你問他字典里的字怎么寫，他都能答上來。但你給他一本新書讓他學習，他就傻眼了。他不會學，只會背。這就是“參數(shù)推理者”和“上下文學習者”的區(qū)別。

四大類別中，領(lǐng)域知識推理相對最容易，最好的模型能達到25.3%的解決率。規(guī)則系統(tǒng)應(yīng)用和程序性任務(wù)執(zhí)行難度適中，大部分模型在15-20%之間。但經(jīng)驗發(fā)現(xiàn)與模擬類任務(wù)的表現(xiàn)斷崖式下跌，所有模型平均只有11.8%的解決率。

這個差異很有意思。

演繹推理（應(yīng)用已知規(guī)則）比歸納推理（從數(shù)據(jù)中發(fā)現(xiàn)規(guī)律）容易得多。給AI一套規(guī)則讓它照著做，它還能勉強應(yīng)付；讓它從數(shù)據(jù)里找規(guī)律，它就徹底懵了。

這說明AI的學習能力還停留在“照葫蘆畫瓢”的階段，遠沒到“舉一反三”的程度。

在子類別層面，差異更加明顯。在規(guī)則系統(tǒng)應(yīng)用中，法律法規(guī)類任務(wù)的解決率超過 29%, GPT-5.1 甚至達到 44.8%，但數(shù)學形式體系類任務(wù)大部分模型都在 15% 以下。

在程序性任務(wù)執(zhí)行中，工作流編排的解決率普遍在 20% 以上，但操作程序類任務(wù)明顯更難。

這些差異透露出另一個信息，AI對不同類型知識的學習能力差異巨大。有些知識它學得快，有些知識它怎么都學不會。這就像人類學生，有人擅長文科，有人擅長理科。

但問題是，AI的偏科比人類嚴重得多。

論文引發(fā)的啟示

無可置疑的是，CL-bench填補了現(xiàn)有評測體系的關(guān)鍵空白。

在過去，長上下文評測主要考AI能不能從一大堆文字里找到信息。比如給AI一篇10萬字的小說，問“主角的媽媽叫什么名字”,AI只要能翻到那一頁找到答案就行。

這更像是考“查字典”的能力，不是“學習”的能力。

指令遵循評測主要考AI聽不聽話。比如讓AI“用JSON格式輸出，不超過100字”，看它能不能照做。

但這類測試的知識都很簡單，AI早就會了，只是看它守不守規(guī)矩而已。

領(lǐng)域任務(wù)評測問題更大。它既考AI會不會找資料，又考AI會不會用資料。結(jié)果AI答錯了，你根本不知道是因為它沒找對資料，還是找對了但不會用。

就像學生考試不及格，你不知道是他沒復習，還是復習了但沒學會。

CL-bench則專注于一個明確的能力維度，從復雜上下文中學習新知識并正確應(yīng)用。

它將上下文準備與上下文學習解耦。所有必要信息都已組織好并提供，模型只需學習和應(yīng)用，無需外部檢索。這使得評測結(jié)果能夠精確反映模型的上下文學習能力，而非其他混雜因素。

論文還發(fā)現(xiàn)了一些反直覺的現(xiàn)象，GPT-5.2的表現(xiàn)反而比GPT-5.1差5.6%。

深入分析發(fā)現(xiàn)，GPT-5.2在長上下文推理時難以維持連貫的因果鏈，且更頻繁地違反上下文中的明確約束。

這說明模型的版本迭代并不總是帶來全面提升，某些能力的優(yōu)化可能以犧牲其他能力為代價。

這個發(fā)現(xiàn)很重要。我們一直以為新版本肯定比舊版本強，但事實并非如此。GPT-5.2可能在某些方面確實更強了，但在上下文學習這個維度上反而退步了。這就像一個學生，數(shù)學成績提高了，但語文成績下降了，總分反而降了。

再比如，增加推理強度對不同模型的效果差異巨大。

GPT-5.1在高推理強度下平均提升2.5%，在管理和實驗數(shù)據(jù)類任務(wù)上提升近6%。

但GPT-5.2在某些子類別上反而出現(xiàn)負增長。這表明“更多思考”只有在模型具備正確的上下文學習機制時才有效，否則可能只是在錯誤的方向上越走越遠。

這又是一個反直覺的發(fā)現(xiàn)。我們以為讓AI多想想總是好的，但實際上，如果AI的學習機制本身就有問題，讓它多想只會讓錯誤更嚴重。就像一個方向錯了的人，走得越快，離目標越遠。

CL-bench揭示的問題不僅僅是技術(shù)層面的，更是范式層面的。當前AI的訓練范式和真實應(yīng)用場景之間存在根本性的不匹配。我們優(yōu)化出的模型擅長對“已知”事物進行推理，但用戶需要的是能解決依賴于動態(tài)上下文的任務(wù)的模型。

這個不匹配解釋了為什么AI在實驗室里表現(xiàn)優(yōu)異，到了真實場景就頻頻翻車。實驗室里的任務(wù)大多是封閉的、靜態(tài)的，答案在訓練數(shù)據(jù)里都見過。但真實世界的任務(wù)是開放的、動態(tài)的，需要根據(jù)具體情況靈活應(yīng)對。

論文提出的“上下文學習”能力，本質(zhì)上是讓AI從“死記硬背”轉(zhuǎn)向“活學活用”。

如果AI真的能學會從上下文中學習，那它就能像人類一樣，面對新情況、新問題時快速適應(yīng)，而不是只會套用固定模式。

CL-bench的意義，是為了給大模型公司啟示，告訴他們下一代AI不需要更大的模型，不需要更多的參數(shù)，而需要更強的學習能力。

但上下文學習只是第一步。論文提到，即便上下文學習足夠強大，模型的上下文窗口一旦清空，學到的知識隨之消失。

因此，下一個挑戰(zhàn)是如何讓從上下文中習得的知識持久化。

姚順雨在最近的公開發(fā)言中也談到了這個方向。他認為，自主學習幾乎已經(jīng)形成了共識，而且這個事情已經(jīng)在發(fā)生了。

他說ChatGPT在利用用戶數(shù)據(jù)不斷擬合人的聊天風格，Claude Code已經(jīng)寫了自己項目的95%的代碼。在某種程度上它在幫助自己變得更好。

但他也指出，這些自主學習的例子目前還局限在特定場景下，沒有讓人感覺到非常大的威力。“這個事情可能會更像一個漸變，而不像一個突變。”

從更宏觀的角度看，CL-bench揭示的問題反映了AI發(fā)展的一個深層矛盾。我們一直在追求更強的推理能力、更大的知識容量，但忽視了一個更基礎(chǔ)的能力，那就是學習。

沒有學習能力的AI，再強也只是一個高級的查詢系統(tǒng)。只有具備了真正的學習能力，AI才能從“工具”進化為“智能體”。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.