![]()
今天的大語言模型能解奧數(shù)題、通過專業(yè)考試、寫復雜代碼,但它們在真實世界的應(yīng)用中卻常常“翻車”。問題出在哪里?
在姚順雨加入騰訊后發(fā)布的首篇論文里,他對于這個現(xiàn)象提出了一個觀點:
“當前AI與真正智能之間的鴻溝,不在于知識的多少,而在于學習的能力。一個裝滿知識卻不會學習的AI,就像一個背了整本字典卻不會寫作的人,看起來博學,實則僵化。”
這篇論文的標題叫做《CL-bench: A Benchmark for Context Learning》。
CL-bench是一個專門評測語言模型“上下文學習能力”的大規(guī)模基準測試集,它的全稱是Context Learning Benchmark,即上下文學習測試集。
它包含500個復雜上下文場景、1899個任務(wù)和31607個評估標注點,所有內(nèi)容均由各個領(lǐng)域資深專家精心挑選。
這個基準的核心設(shè)計理念,是挑選那些在模型的預訓練數(shù)據(jù)中不存在的難題,讓每個任務(wù)都必須要求模型從提供的上下文中學習全新的知識才能解決。
這篇論文不僅揭示了當前AI的根本性缺陷,還構(gòu)建了一個專屬于AI的評價體系,非常值得AI以及agent從業(yè)者學習。
01
一面照出AI“假學習”真相的鏡子
從數(shù)據(jù)規(guī)模來看,CL-bench的每個上下文平均包含3.8個任務(wù),最多可達12個任務(wù)。
更重要的是,500個復雜上下文場景中,包含序列依賴性任務(wù)的場景占51.1%。
這也就是說,你想要AI解決后面的任務(wù),那就必須先從前面的任務(wù)中得到正確的答案,這種多輪交互設(shè)計極大增加了難度。
單任務(wù)標注平均需領(lǐng)域?qū)<?0小時,每個任務(wù)平均配備16.6個評估標注項,從事實正確性、計算準確性、程序正確性、內(nèi)容完整性和格式合規(guī)性等多個維度進行嚴格驗證。
CL-bench考的不是AI記住了多少知識,而是AI能不能像人類一樣,拿到一份新材料后快速學會并正確使用。
這些任務(wù)有個共同點,AI必須靠臨場發(fā)揮才能通過考試。
預訓練時學到的知識在這里用處不大,因為CL-bench里的知識要么是專家們新編的,要么是現(xiàn)實世界中極其小眾的內(nèi)容。
那如何保證CL-bench里的新知識是模型原來就沒有的呢?
論文通過消融實驗驗證了這一點。在不提供上下文的情況下,所有被測模型只能解決不到1%的任務(wù)。這充分證明了任務(wù)對上下文的依賴性。
CL-bench將上下文學習場景分為四大類別,每類對應(yīng)不同的認知要求:
![]()
領(lǐng)域知識推理(Domain Knowledge Reasoning):涵蓋金融、醫(yī)療、人文、法律咨詢、生活方式、管理和科學七個子領(lǐng)域。
上下文提供專業(yè)領(lǐng)域知識,如虛構(gòu)的法律體系、創(chuàng)新的金融工具或小眾專業(yè)知識,模型需要學習并應(yīng)用這些知識進行推理。比如給AI一個虛構(gòu)國家的完整法律條文和判例,讓AI判罰一起復雜的民事糾紛。
規(guī)則系統(tǒng)應(yīng)用(Rule System Application):包括游戲機制、數(shù)學形式體系、編程語法、法律法規(guī)和技術(shù)標準五個子類。
上下文提供明確定義的規(guī)則系統(tǒng),模型必須理解并嚴格遵守這些規(guī)則。比如給定一門全新編程語言的語法規(guī)范,讓模型編寫符合規(guī)范的程序;或者給定一套新游戲的完整規(guī)則手冊,讓模型分析游戲狀態(tài)并給出最優(yōu)策略。
程序性任務(wù)執(zhí)行(Procedural Task Execution):分為教學程序、操作程序和工作流編排三類。
上下文提供復雜的操作流程、產(chǎn)品手冊或工作流程,模型需要學習并正確執(zhí)行這些程序。例如給定一份無人機物流系統(tǒng)約7000字的API文檔,讓模型將自然語言指令轉(zhuǎn)換為安全合規(guī)的偽代碼。
經(jīng)驗發(fā)現(xiàn)與模擬(Empirical Discovery & Simulation):是最具挑戰(zhàn)性的類別,包括實驗數(shù)據(jù)、觀測數(shù)據(jù)和模擬環(huán)境三個子類。
![]()
與前三類強調(diào)演繹推理不同,這一類要求歸納推理。從大量數(shù)據(jù)中發(fā)現(xiàn)潛在規(guī)律,或在虛擬環(huán)境中進行推理和決策。比如給定300份帶電粒子在磁場中運動的實驗日志,讓模型推導出運動規(guī)律并計算特定參數(shù)。
這四類場景基本覆蓋了人類在現(xiàn)實工作中遇到的主要學習情境,而CL-bench又把這些真實場景搬進了評測體系。
說得更直白些,領(lǐng)域知識推理考的是“能不能學會新概念”,規(guī)則系統(tǒng)應(yīng)用考的是“能不能遵守新規(guī)則”,程序性任務(wù)執(zhí)行考的是“能不能照著新流程做事”,經(jīng)驗發(fā)現(xiàn)與模擬考的是“能不能從數(shù)據(jù)里找規(guī)律”。
這四種能力,人類在日常工作中天天用,但AI顯然還沒學會。
為了確保測試的是真正的學習能力而非記憶,CL-bench采用了嚴格的“防污染”設(shè)計:
虛構(gòu)創(chuàng)作:所有的測試內(nèi)容都是由專家們完全原創(chuàng)的。
就拿剛才的虛擬國家為例,它包含一套完整的憲法、民法、刑法,甚至連判例都有。其中的法律原則和判例邏輯與現(xiàn)實世界任何國家都不同。
或者創(chuàng)造一門名為“EduScript”的教育編程語言,具有獨特的語法規(guī)則和控制結(jié)構(gòu)。
現(xiàn)有內(nèi)容修改:CL-bench還對真實知識進行了系統(tǒng)性地改動,比如修改著名歷史事件的因果關(guān)系、改變物理定律的數(shù)學表達、或調(diào)整技術(shù)標準的具體參數(shù)。
這確保了即使模型見過類似內(nèi)容,也無法直接套用預訓練知識。
小眾新興內(nèi)容整合:CL-bench里面還納入了預訓練數(shù)據(jù)中極少出現(xiàn)的內(nèi)容,就像2024年后發(fā)布的新產(chǎn)品技術(shù)文檔、最新的科研論文發(fā)現(xiàn)、或極其專業(yè)的小眾領(lǐng)域知識。
這三招組合拳,目的只有一個,讓AI沒法作弊。你不能靠背過的知識答題,必須現(xiàn)場學。這就像考試時老師突然換了一套從沒見過的題型,你只能靠理解能力和學習能力來應(yīng)對。
論文通過消融實驗驗證了這一設(shè)計的有效性:在不提供上下文的情況下,即使是最強的 GPT-5.1 模型也只能解決不到 1% 的任務(wù),充分證明了任務(wù)對上下文的依賴性。
02
CL-bench給出的結(jié)果
讓人們既開心又難過
CL-bench的這套評估體系的嚴格程度超出想象。
16.6個評估標注項意味著什么?意味著你不能只答對大方向,每個細節(jié)都要對。就像做數(shù)學題,你不僅要答案對,步驟也要對,格式還要對,引用的公式也要對。任何一個環(huán)節(jié)出錯,整道題就算錯。
這些標準會從六個角度檢查AI的答案,每個標準要么對,要么錯,沒有中間地帶。
事實對不對?比如AI說這個虛構(gòu)國家的憲法第3條規(guī)定了什么,得和上下文里寫的一模一樣才算對。
計算對不對?如果任務(wù)要求計算帶電粒子的運動軌跡,那每一步公式、每一個數(shù)字都得驗證。
推理對不對?AI得按照上下文里給的規(guī)則來推理,不能自己瞎編邏輯。
代碼對不對?如果要寫程序,得嚴格遵守文檔里的 API 規(guī)范,少一個參數(shù)都不行。
完整不完整?該做的步驟一個都不能少,漏了哪怕一個關(guān)鍵環(huán)節(jié)都算錯。
格式對不對?讓你輸出JSON就得是JSON,讓你用表格就得是表格。
這套評分系統(tǒng)最狠的地方在于,只有所有標準全部通過,任務(wù)才算完成。只要有一個標準沒過,整個任務(wù)就算失敗。這就像考試,選擇題全對才給分,錯一個就是零分。
為了保證這套自動評分系統(tǒng)靠譜,論文做了兩個驗證。
一是讓5個不同的AI模型(GPT-5.1/5.2、Claude Opus 4.5、Qwen-3-Max、ERNIE 4.0)當評委,它們的判斷結(jié)果90%以上都一致;二是人工抽查了200個案例,發(fā)現(xiàn)AI評委的準確率也超過90%。這說明這套評分系統(tǒng)確實可信。
CL-bench的評測顯示,AI距離解決實際問題還相距甚遠,往好處想,人類還不用擔心被AI取代。
![]()
十個最先進的語言模型,平均只能解決17.2%的全量任務(wù),所有模型里表現(xiàn)最好的是GPT-5.1,但也僅達到23.7%。這意味著在大多數(shù)情況下,即使上下文中包含了解決問題所需的全部信息,模型仍然失敗了。
這個數(shù)字值得細品。23.7%意味著給AI一份完整的操作手冊,它有四分之三的概率還是搞不定。
這就像你雇了個員工,你給他詳細講了一遍具體操作流程,結(jié)果輪到他上崗的時候,十次有八次都做錯。在現(xiàn)實世界里,這樣的員工早就被開除了。
更深入的錯誤分析揭示了失敗的主要原因。
超過55%的錯誤源于“上下文忽略”:模型根本沒有注意到上下文中的關(guān)鍵信息,而是試圖用預訓練知識解決問題。
超過60%的錯誤屬于“上下文誤用”:模型看到了信息但理解錯誤或應(yīng)用不當。
還有超過35%的錯誤是格式錯誤,說明模型連明確的格式指令都無法遵守。
這三種錯誤類型揭示了AI的根本問題。上下文忽略說明AI不會“看”;上下文誤用說明AI不會“想”;格式錯誤說明AI不會“聽”。
一個不會看、不會想、不會聽的學生,怎么可能學會新知識?
這些發(fā)現(xiàn)揭示了一個被長期忽視的真相:當前的AI模型本質(zhì)上是“參數(shù)推理者”而非“上下文學習者”。它們擅長調(diào)用預訓練時壓縮在權(quán)重中的靜態(tài)知識,卻不擅長從當前輸入中動態(tài)學習新知識。
因為真實任務(wù)往往需要根據(jù)具體上下文靈活應(yīng)對,而非套用固定模式。
所以AI在標準化考試中表現(xiàn)優(yōu)異,在真實工作場景中卻頻頻出錯。
打個比方,現(xiàn)在的AI就像一個背了整本字典的人,你問他字典里的字怎么寫,他都能答上來。但你給他一本新書讓他學習,他就傻眼了。他不會學,只會背。這就是“參數(shù)推理者”和“上下文學習者”的區(qū)別。
四大類別中,領(lǐng)域知識推理相對最容易,最好的模型能達到25.3%的解決率。規(guī)則系統(tǒng)應(yīng)用和程序性任務(wù)執(zhí)行難度適中,大部分模型在15-20%之間。但經(jīng)驗發(fā)現(xiàn)與模擬類任務(wù)的表現(xiàn)斷崖式下跌,所有模型平均只有11.8%的解決率。
這個差異很有意思。
演繹推理(應(yīng)用已知規(guī)則)比歸納推理(從數(shù)據(jù)中發(fā)現(xiàn)規(guī)律)容易得多。給AI一套規(guī)則讓它照著做,它還能勉強應(yīng)付;讓它從數(shù)據(jù)里找規(guī)律,它就徹底懵了。
這說明AI的學習能力還停留在“照葫蘆畫瓢”的階段,遠沒到“舉一反三”的程度。
在子類別層面,差異更加明顯。在規(guī)則系統(tǒng)應(yīng)用中,法律法規(guī)類任務(wù)的解決率超過 29%, GPT-5.1 甚至達到 44.8%,但數(shù)學形式體系類任務(wù)大部分模型都在 15% 以下。
在程序性任務(wù)執(zhí)行中,工作流編排的解決率普遍在 20% 以上,但操作程序類任務(wù)明顯更難。
這些差異透露出另一個信息,AI對不同類型知識的學習能力差異巨大。有些知識它學得快,有些知識它怎么都學不會。這就像人類學生,有人擅長文科,有人擅長理科。
但問題是,AI的偏科比人類嚴重得多。
03
論文引發(fā)的啟示
無可置疑的是,CL-bench填補了現(xiàn)有評測體系的關(guān)鍵空白。
在過去,長上下文評測主要考AI能不能從一大堆文字里找到信息。比如給AI一篇10萬字的小說,問“主角的媽媽叫什么名字”,AI只要能翻到那一頁找到答案就行。
這更像是考“查字典”的能力,不是“學習”的能力。
指令遵循評測主要考AI聽不聽話。比如讓AI“用JSON格式輸出,不超過100字”,看它能不能照做。
但這類測試的知識都很簡單,AI早就會了,只是看它守不守規(guī)矩而已。
領(lǐng)域任務(wù)評測問題更大。它既考AI會不會找資料,又考AI會不會用資料。結(jié)果AI答錯了,你根本不知道是因為它沒找對資料,還是找對了但不會用。
就像學生考試不及格,你不知道是他沒復習,還是復習了但沒學會。
CL-bench則專注于一個明確的能力維度,從復雜上下文中學習新知識并正確應(yīng)用。
它將上下文準備與上下文學習解耦。所有必要信息都已組織好并提供,模型只需學習和應(yīng)用,無需外部檢索。這使得評測結(jié)果能夠精確反映模型的上下文學習能力,而非其他混雜因素。
論文還發(fā)現(xiàn)了一些反直覺的現(xiàn)象,GPT-5.2的表現(xiàn)反而比GPT-5.1差5.6%。
![]()
深入分析發(fā)現(xiàn),GPT-5.2在長上下文推理時難以維持連貫的因果鏈,且更頻繁地違反上下文中的明確約束。
這說明模型的版本迭代并不總是帶來全面提升,某些能力的優(yōu)化可能以犧牲其他能力為代價。
這個發(fā)現(xiàn)很重要。我們一直以為新版本肯定比舊版本強,但事實并非如此。GPT-5.2可能在某些方面確實更強了,但在上下文學習這個維度上反而退步了。這就像一個學生,數(shù)學成績提高了,但語文成績下降了,總分反而降了。
再比如,增加推理強度對不同模型的效果差異巨大。
GPT-5.1在高推理強度下平均提升2.5%,在管理和實驗數(shù)據(jù)類任務(wù)上提升近6%。
但GPT-5.2在某些子類別上反而出現(xiàn)負增長。這表明“更多思考”只有在模型具備正確的上下文學習機制時才有效,否則可能只是在錯誤的方向上越走越遠。
這又是一個反直覺的發(fā)現(xiàn)。我們以為讓AI多想想總是好的,但實際上,如果AI的學習機制本身就有問題,讓它多想只會讓錯誤更嚴重。就像一個方向錯了的人,走得越快,離目標越遠。
CL-bench揭示的問題不僅僅是技術(shù)層面的,更是范式層面的。當前AI的訓練范式和真實應(yīng)用場景之間存在根本性的不匹配。我們優(yōu)化出的模型擅長對“已知”事物進行推理,但用戶需要的是能解決依賴于動態(tài)上下文的任務(wù)的模型。
這個不匹配解釋了為什么AI在實驗室里表現(xiàn)優(yōu)異,到了真實場景就頻頻翻車。實驗室里的任務(wù)大多是封閉的、靜態(tài)的,答案在訓練數(shù)據(jù)里都見過。但真實世界的任務(wù)是開放的、動態(tài)的,需要根據(jù)具體情況靈活應(yīng)對。
論文提出的“上下文學習”能力,本質(zhì)上是讓AI從“死記硬背”轉(zhuǎn)向“活學活用”。
如果AI真的能學會從上下文中學習,那它就能像人類一樣,面對新情況、新問題時快速適應(yīng),而不是只會套用固定模式。
CL-bench的意義,是為了給大模型公司啟示,告訴他們下一代AI不需要更大的模型,不需要更多的參數(shù),而需要更強的學習能力。
但上下文學習只是第一步。論文提到,即便上下文學習足夠強大,模型的上下文窗口一旦清空,學到的知識隨之消失。
因此,下一個挑戰(zhàn)是如何讓從上下文中習得的知識持久化。
姚順雨在最近的公開發(fā)言中也談到了這個方向。他認為,自主學習幾乎已經(jīng)形成了共識,而且這個事情已經(jīng)在發(fā)生了。
他說ChatGPT在利用用戶數(shù)據(jù)不斷擬合人的聊天風格,Claude Code已經(jīng)寫了自己項目的95%的代碼。在某種程度上它在幫助自己變得更好。
但他也指出,這些自主學習的例子目前還局限在特定場景下,沒有讓人感覺到非常大的威力。“這個事情可能會更像一個漸變,而不像一個突變。”
從更宏觀的角度看,CL-bench揭示的問題反映了AI發(fā)展的一個深層矛盾。我們一直在追求更強的推理能力、更大的知識容量,但忽視了一個更基礎(chǔ)的能力,那就是學習。
沒有學習能力的AI,再強也只是一個高級的查詢系統(tǒng)。只有具備了真正的學習能力,AI才能從“工具”進化為“智能體”。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.