![]()
本文來自微信公眾號:字母AI,作者:苗正,題圖來自:AI生成
今天的大語言模型能解奧數題、通過專業考試、寫復雜代碼,但它們在真實世界的應用中卻常常“翻車”。問題出在哪里?
在姚順雨加入騰訊后發布的首篇論文里,他對于這個現象提出了一個觀點:
“當前AI與真正智能之間的鴻溝,不在于知識的多少,而在于學習的能力。一個裝滿知識卻不會學習的AI,就像一個背了整本字典卻不會寫作的人,看起來博學,實則僵化。”
這篇論文的標題叫做《CL-bench: A Benchmark for Context Learning》。
CL-bench是一個專門評測語言模型“上下文學習能力”的大規模基準測試集,它的全稱是Context Learning Benchmark,即上下文學習測試集。
它包含500個復雜上下文場景、1899個任務和31607個評估標注點,所有內容均由各個領域資深專家精心挑選。
這個基準的核心設計理念,是挑選那些在模型的預訓練數據中不存在的難題,讓每個任務都必須要求模型從提供的上下文中學習全新的知識才能解決。
這篇論文不僅揭示了當前AI的根本性缺陷,還構建了一個專屬于AI的評價體系,非常值得AI以及agent從業者學習。
一面照出AI“假學習”真相的鏡子
從數據規模來看,CL-bench的每個上下文平均包含3.8個任務,最多可達12個任務。
更重要的是,500個復雜上下文場景中,包含序列依賴性任務的場景占51.1%。
這也就是說,你想要AI解決后面的任務,那就必須先從前面的任務中得到正確的答案,這種多輪交互設計極大增加了難度。
單任務標注平均需領域專家20小時,每個任務平均配備16.6個評估標注項,從事實正確性、計算準確性、程序正確性、內容完整性和格式合規性等多個維度進行嚴格驗證。
CL-bench考的不是AI記住了多少知識,而是AI能不能像人類一樣,拿到一份新材料后快速學會并正確使用。
這些任務有個共同點,AI必須靠臨場發揮才能通過考試。
預訓練時學到的知識在這里用處不大,因為CL-bench里的知識要么是專家們新編的,要么是現實世界中極其小眾的內容。
那如何保證CL-bench里的新知識是模型原來就沒有的呢?
論文通過消融實驗驗證了這一點。在不提供上下文的情況下,所有被測模型只能解決不到1%的任務。這充分證明了任務對上下文的依賴性。
CL-bench將上下文學習場景分為四大類別,每類對應不同的認知要求:
![]()
領域知識推理(Domain Knowledge Reasoning):涵蓋金融、醫療、人文、法律咨詢、生活方式、管理和科學七個子領域。
上下文提供專業領域知識,如虛構的法律體系、創新的金融工具或小眾專業知識,模型需要學習并應用這些知識進行推理。比如給AI一個虛構國家的完整法律條文和判例,讓AI判罰一起復雜的民事糾紛。
規則系統應用(Rule System Application):包括游戲機制、數學形式體系、編程語法、法律法規和技術標準五個子類。
上下文提供明確定義的規則系統,模型必須理解并嚴格遵守這些規則。比如給定一門全新編程語言的語法規范,讓模型編寫符合規范的程序;或者給定一套新游戲的完整規則手冊,讓模型分析游戲狀態并給出最優策略。
程序性任務執行(Procedural Task Execution):分為教學程序、操作程序和工作流編排三類。
上下文提供復雜的操作流程、產品手冊或工作流程,模型需要學習并正確執行這些程序。例如給定一份無人機物流系統約7000字的API文檔,讓模型將自然語言指令轉換為安全合規的偽代碼。
經驗發現與模擬(Empirical Discovery & Simulation):是最具挑戰性的類別,包括實驗數據、觀測數據和模擬環境三個子類。
![]()
與前三類強調演繹推理不同,這一類要求歸納推理。從大量數據中發現潛在規律,或在虛擬環境中進行推理和決策。比如給定300份帶電粒子在磁場中運動的實驗日志,讓模型推導出運動規律并計算特定參數。
這四類場景基本覆蓋了人類在現實工作中遇到的主要學習情境,而CL-bench又把這些真實場景搬進了評測體系。
說得更直白些,領域知識推理考的是“能不能學會新概念”,規則系統應用考的是“能不能遵守新規則”,程序性任務執行考的是“能不能照著新流程做事”,經驗發現與模擬考的是“能不能從數據里找規律”。
這四種能力,人類在日常工作中天天用,但AI顯然還沒學會。
為了確保測試的是真正的學習能力而非記憶,CL-bench采用了嚴格的“防污染”設計:
虛構創作:所有的測試內容都是由專家們完全原創的。
就拿剛才的虛擬國家為例,它包含一套完整的憲法、民法、刑法,甚至連判例都有。其中的法律原則和判例邏輯與現實世界任何國家都不同。
或者創造一門名為“EduScript”的教育編程語言,具有獨特的語法規則和控制結構。
現有內容修改:CL-bench還對真實知識進行了系統性地改動,比如修改著名歷史事件的因果關系、改變物理定律的數學表達、或調整技術標準的具體參數。
這確保了即使模型見過類似內容,也無法直接套用預訓練知識。
小眾新興內容整合:CL-bench里面還納入了預訓練數據中極少出現的內容,就像2024年后發布的新產品技術文檔、最新的科研論文發現、或極其專業的小眾領域知識。
這三招組合拳,目的只有一個,讓AI沒法作弊。你不能靠背過的知識答題,必須現場學。這就像考試時老師突然換了一套從沒見過的題型,你只能靠理解能力和學習能力來應對。
論文通過消融實驗驗證了這一設計的有效性:在不提供上下文的情況下,即使是最強的 GPT-5.1 模型也只能解決不到 1% 的任務,充分證明了任務對上下文的依賴性。
CL-bench給出的結果讓人們既開心又難過
CL-bench的這套評估體系的嚴格程度超出想象。
16.6個評估標注項意味著什么?意味著你不能只答對大方向,每個細節都要對。就像做數學題,你不僅要答案對,步驟也要對,格式還要對,引用的公式也要對。任何一個環節出錯,整道題就算錯。
這些標準會從六個角度檢查AI的答案,每個標準要么對,要么錯,沒有中間地帶。
事實對不對?比如AI說這個虛構國家的憲法第3條規定了什么,得和上下文里寫的一模一樣才算對。
計算對不對?如果任務要求計算帶電粒子的運動軌跡,那每一步公式、每一個數字都得驗證。
推理對不對?AI得按照上下文里給的規則來推理,不能自己瞎編邏輯。
代碼對不對?如果要寫程序,得嚴格遵守文檔里的 API 規范,少一個參數都不行。
完整不完整?該做的步驟一個都不能少,漏了哪怕一個關鍵環節都算錯。
格式對不對?讓你輸出JSON就得是JSON,讓你用表格就得是表格。
這套評分系統最狠的地方在于,只有所有標準全部通過,任務才算完成。只要有一個標準沒過,整個任務就算失敗。這就像考試,選擇題全對才給分,錯一個就是零分。
為了保證這套自動評分系統靠譜,論文做了兩個驗證。
一是讓5個不同的AI模型(GPT-5.1/5.2、Claude Opus 4.5、Qwen-3-Max、ERNIE 4.0)當評委,它們的判斷結果90%以上都一致;二是人工抽查了200個案例,發現AI評委的準確率也超過90%。這說明這套評分系統確實可信。
CL-bench的評測顯示,AI距離解決實際問題還相距甚遠,往好處想,人類還不用擔心被AI取代。
![]()
十個最先進的語言模型,平均只能解決17.2%的全量任務,所有模型里表現最好的是GPT-5.1,但也僅達到23.7%。這意味著在大多數情況下,即使上下文中包含了解決問題所需的全部信息,模型仍然失敗了。
這個數字值得細品。23.7%意味著給AI一份完整的操作手冊,它有四分之三的概率還是搞不定。
這就像你雇了個員工,你給他詳細講了一遍具體操作流程,結果輪到他上崗的時候,十次有八次都做錯。在現實世界里,這樣的員工早就被開除了。
更深入的錯誤分析揭示了失敗的主要原因。
超過55%的錯誤源于“上下文忽略”:模型根本沒有注意到上下文中的關鍵信息,而是試圖用預訓練知識解決問題。
超過60%的錯誤屬于“上下文誤用”:模型看到了信息但理解錯誤或應用不當。
還有超過35%的錯誤是格式錯誤,說明模型連明確的格式指令都無法遵守。
這三種錯誤類型揭示了AI的根本問題。上下文忽略說明AI不會“看”;上下文誤用說明AI不會“想”;格式錯誤說明AI不會“聽”。
一個不會看、不會想、不會聽的學生,怎么可能學會新知識?
這些發現揭示了一個被長期忽視的真相:當前的AI模型本質上是“參數推理者”而非“上下文學習者”。它們擅長調用預訓練時壓縮在權重中的靜態知識,卻不擅長從當前輸入中動態學習新知識。
因為真實任務往往需要根據具體上下文靈活應對,而非套用固定模式。
所以AI在標準化考試中表現優異,在真實工作場景中卻頻頻出錯。
打個比方,現在的AI就像一個背了整本字典的人,你問他字典里的字怎么寫,他都能答上來。但你給他一本新書讓他學習,他就傻眼了。他不會學,只會背。這就是“參數推理者”和“上下文學習者”的區別。
四大類別中,領域知識推理相對最容易,最好的模型能達到25.3%的解決率。規則系統應用和程序性任務執行難度適中,大部分模型在15-20%之間。但經驗發現與模擬類任務的表現斷崖式下跌,所有模型平均只有11.8%的解決率。
這個差異很有意思。
演繹推理(應用已知規則)比歸納推理(從數據中發現規律)容易得多。給AI一套規則讓它照著做,它還能勉強應付;讓它從數據里找規律,它就徹底懵了。
這說明AI的學習能力還停留在“照葫蘆畫瓢”的階段,遠沒到“舉一反三”的程度。
在子類別層面,差異更加明顯。在規則系統應用中,法律法規類任務的解決率超過 29%, GPT-5.1 甚至達到 44.8%,但數學形式體系類任務大部分模型都在 15% 以下。
在程序性任務執行中,工作流編排的解決率普遍在 20% 以上,但操作程序類任務明顯更難。
這些差異透露出另一個信息,AI對不同類型知識的學習能力差異巨大。有些知識它學得快,有些知識它怎么都學不會。這就像人類學生,有人擅長文科,有人擅長理科。
但問題是,AI的偏科比人類嚴重得多。
論文引發的啟示
無可置疑的是,CL-bench填補了現有評測體系的關鍵空白。
在過去,長上下文評測主要考AI能不能從一大堆文字里找到信息。比如給AI一篇10萬字的小說,問“主角的媽媽叫什么名字”,AI只要能翻到那一頁找到答案就行。
這更像是考“查字典”的能力,不是“學習”的能力。
指令遵循評測主要考AI聽不聽話。比如讓AI“用JSON格式輸出,不超過100字”,看它能不能照做。
但這類測試的知識都很簡單,AI早就會了,只是看它守不守規矩而已。
領域任務評測問題更大。它既考AI會不會找資料,又考AI會不會用資料。結果AI答錯了,你根本不知道是因為它沒找對資料,還是找對了但不會用。
就像學生考試不及格,你不知道是他沒復習,還是復習了但沒學會。
CL-bench則專注于一個明確的能力維度,從復雜上下文中學習新知識并正確應用。
它將上下文準備與上下文學習解耦。所有必要信息都已組織好并提供,模型只需學習和應用,無需外部檢索。這使得評測結果能夠精確反映模型的上下文學習能力,而非其他混雜因素。
論文還發現了一些反直覺的現象,GPT-5.2的表現反而比GPT-5.1差5.6%。
![]()
深入分析發現,GPT-5.2在長上下文推理時難以維持連貫的因果鏈,且更頻繁地違反上下文中的明確約束。
這說明模型的版本迭代并不總是帶來全面提升,某些能力的優化可能以犧牲其他能力為代價。
這個發現很重要。我們一直以為新版本肯定比舊版本強,但事實并非如此。GPT-5.2可能在某些方面確實更強了,但在上下文學習這個維度上反而退步了。這就像一個學生,數學成績提高了,但語文成績下降了,總分反而降了。
再比如,增加推理強度對不同模型的效果差異巨大。
GPT-5.1在高推理強度下平均提升2.5%,在管理和實驗數據類任務上提升近6%。
但GPT-5.2在某些子類別上反而出現負增長。這表明“更多思考”只有在模型具備正確的上下文學習機制時才有效,否則可能只是在錯誤的方向上越走越遠。
這又是一個反直覺的發現。我們以為讓AI多想想總是好的,但實際上,如果AI的學習機制本身就有問題,讓它多想只會讓錯誤更嚴重。就像一個方向錯了的人,走得越快,離目標越遠。
CL-bench揭示的問題不僅僅是技術層面的,更是范式層面的。當前AI的訓練范式和真實應用場景之間存在根本性的不匹配。我們優化出的模型擅長對“已知”事物進行推理,但用戶需要的是能解決依賴于動態上下文的任務的模型。
這個不匹配解釋了為什么AI在實驗室里表現優異,到了真實場景就頻頻翻車。實驗室里的任務大多是封閉的、靜態的,答案在訓練數據里都見過。但真實世界的任務是開放的、動態的,需要根據具體情況靈活應對。
論文提出的“上下文學習”能力,本質上是讓AI從“死記硬背”轉向“活學活用”。
如果AI真的能學會從上下文中學習,那它就能像人類一樣,面對新情況、新問題時快速適應,而不是只會套用固定模式。
CL-bench的意義,是為了給大模型公司啟示,告訴他們下一代AI不需要更大的模型,不需要更多的參數,而需要更強的學習能力。
但上下文學習只是第一步。論文提到,即便上下文學習足夠強大,模型的上下文窗口一旦清空,學到的知識隨之消失。
因此,下一個挑戰是如何讓從上下文中習得的知識持久化。
姚順雨在最近的公開發言中也談到了這個方向。他認為,自主學習幾乎已經形成了共識,而且這個事情已經在發生了。
他說ChatGPT在利用用戶數據不斷擬合人的聊天風格,Claude Code已經寫了自己項目的95%的代碼。在某種程度上它在幫助自己變得更好。
但他也指出,這些自主學習的例子目前還局限在特定場景下,沒有讓人感覺到非常大的威力。“這個事情可能會更像一個漸變,而不像一個突變。”
從更宏觀的角度看,CL-bench揭示的問題反映了AI發展的一個深層矛盾。我們一直在追求更強的推理能力、更大的知識容量,但忽視了一個更基礎的能力,那就是學習。
沒有學習能力的AI,再強也只是一個高級的查詢系統。只有具備了真正的學習能力,AI才能從“工具”進化為“智能體”。
本文來自微信公眾號:字母AI,作者:苗正
本內容由作者授權發布,觀點僅代表作者本人,不代表虎嗅立場。如對本稿件有異議或投訴,請聯系 tougao@huxiu.com。
本文來自虎嗅,原文鏈接:https://www.huxiu.com/article/4832361.html?f=wyxwapp
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.