網易首頁 > 網易號 > 正文申請入駐

CL-Bench的故事沒有結束，生成式CL-Bench：GENIUS來了

2026-03-02 17:46:26　來源: 機器之心Pro

河北舉報

分享至

本論文由北京大學碩士生安睿川擔任第一作者，他由張文濤教授與鄂維南院士的共同指導。研究方向主要是統一生成理解模型、以數據為中心的 AI。擁有 NeurIPS、ICLR、ECCV 等 4 篇一作或共同一作論文發表，曾在微軟亞洲研究院實習。項目通訊作者由北京大學張文濤教授擔任。

在 AGI-Next 前沿峰會上，姚順雨曾拋出一個犀利的觀點：大模型邁向高價值應用的核心瓶頸，其實在于能否「用好上下文（Context）」。OpenAI 的 Jiayi Weng 也在近期的訪談中表達了類似的洞察：上下文決定了模型與人類認知的邊界。當信息不對等被消除，普通人也能勝任頂尖工作——本質上，是上下文的處理能力拉開了智力的差距。

正是在這種共識下，混元與復旦團隊近日發布的CL-Bench顯得尤為重要。作為姚順雨加入騰訊后的首秀，CL-Bench 建立了一個標桿：它嚴苛地審視了模型在長程交互中「學習新知識」的能力。

但故事到這里就結束了嗎？

CL-Bench 精彩地解決了「輸入端」的理解難題（Contextual Learning），但在「輸出端」的生成環節，我們發現了另一塊更為棘手的拼圖：

如果上下文不僅是用來「學」的知識，而是對「創造」行為的復雜束縛，模型還能游刃有余嗎？

這正是我們提出GENIUSGenerative Fluidntelligence EvaluationSuite) 的初衷。

論文題目：GENIUS: Generative Fluid Intelligence Evaluation Suite
arXiv 論文：https://arxiv.org/abs/2602.11144
代碼倉庫：https://github.com/arctanxarc/GENIUS
Unified Model 下半場 Blog（內含 Takeaway 和 Insight）：https://chawuciren11.github.io/GENIUS/

01 從「晶體」到「流體」：

生成式 AI 的范式躍遷

目前的生成式多模態大模型無疑是強大的。但這種強大，更多體現為一種晶體智力（Crystallized Intelligence）。

所謂晶體智力，是指運用過去學習或經驗獲得知識的能力。現在的模型通過海量數據擬合，習得了驚人的晶體智力，它們能生成一只完美的「貓」，因為它們在訓練期間見過數十億個實例，然后在推理期間進行概率性再現。

但在真實世界里，用戶的需求是異想天開的，上下文是動態變化的。模型往往需要根據當前獨特的、新奇的情境進行「隨機應變」的推理。這對應的正是流體智力（Fluid Intelligence）。

GENIUS 的核心使命，就是剝離掉模型對「畫一只更逼真的狗」這類晶體智力的依賴，轉而從「生成式流體智力」的維度，去評估模型在生成側是否具備真正的通用智能。

02 GENIUS 基準：

解構生成式流體智力

我們構建了一個包含510 個專家級樣本、涵蓋20 個子任務的評測集（數據展示可見圖一）。每個樣本都由多模態交織的上下文組成，且經過精心設計：只要去掉上下文中的任何一種模態或者內容，任務就變得不可解。這確保了模型必須真正「讀懂」并整合所有線索，而難以靠猜或預訓練知識來蒙混過關。

數據顯示

隱式模式歸納（Inducing Implicit Patterns）（對應圖一綠色部分）

人類具有一種直覺：能夠從稀疏的觀察中敏銳地捕捉到那些「只可意會不可言傳」的潛在規律。在 GENIUS 中，我們考察模型能否在沒有明確指令的情況下，從上下文中意會到出隱式的特征（比如對特定風格、圖案的偏好），并將其泛化到新的生成任務中。

執行即時約束（Executing Ad-hoc Constraints）（對應圖一藍色部分）

即理解并執行臨時的、非訓練分布內的復雜邏輯。這對人類來說并非難事，就像小學經典的思維訓練題，「將水果定義為數字進行四則運算」；或者在編程中，「將一個抽象符號定義為某種特定操作」。GENIUS 測試模型能否在臨時定義的符號體系下，進行嚴格的邏輯推理與精確執行，而非依賴記憶中的常識關聯。

適應上下文知識（Adapting to Contextual Knowledge）（對應圖一黃色部分）

它強調模型必須克服預訓練帶來的「認知慣性」，抑制住調用內部常識的沖動，去適應反直覺的上下文設定。例如，當 GENIUS 定義了一個「重力由顏色決定」的虛構世界時，模型需要像人類一樣通過「思維實驗」暫停對現實物理規律的信奉，完全基于這一反事實預設進行想象與創造。

03 部分實驗結果分析

我們在 12 個最先進的模型（涵蓋閉源 SOTA 與開源的生成式多模態大模型）上進行了評測。量化結果（表一所示）揭示了當前生成式模型在流體智力上的顯著短板。

量化測評結果

1. 晶體智力與流體智力的割裂

實驗數據顯示，即便是目前最強大的模型（如 Nano Banana Pro），在 GENIUS 上的平均表現也遠未達到及格線。這表明，模型在海量數據中習得的「知識儲備」（晶體智力），并不能直接遷移為解決新穎問題的「推理能力」（流體智力）。

2. 預訓練知識的阻力

在三大維度中，「適應上下文知識」的準確率普遍最低。這證實了模型存在嚴重的預訓練知識阻力。例如在「反重力」任務中，模型往往會忽略 Context，頑固地生成符合現實物理規律的圖像。這說明當前模型的思維具有很強的僵化性，缺乏人類那種在「現實」與「想象」模式間靈活切換的可塑性。

3. 故障診斷：為什么模型會不及格？

面對模型在流體智力上的潰敗，我們并沒有止步于分數的羅列，而是通過一系列診斷性實驗，試圖定位失效的根本原因。

常規推理增強策略的失效：面對復雜的推理任務，直覺告訴我們要讓模型「多想一會兒」。然而，如圖三 (a) 所示，我們嘗試了 Pre-Planning（思維鏈模式）和 Post-Reflection（測試時擴展，即生成-打分-再生成）等策略，結果卻令人失望——帶來的性能提升非常有限。這表明，GENIUS 所考察的流體智力，現有的推理范式并不能很好地遷移到這種多模態的即時生成任務中。

上下文理解是核心瓶頸：我們在上下文中引入人工編寫的顯式提示（Text Hint 純文本提示與 MM Hint 多模態提示），模型（如 Nano Banana Pro）的生成質量能夠得到進一步提升。這種顯式提示本質上源于人類對語境的深度解析。如果模型能夠構建起類人的理解機制，這一瓶頸在理論上是可以突破的。而在多模態細則約束下，部分模型（如 Bagel）甚至出現了性能回退，這直觀反映了當前模型在處理多模態交錯輸入時的理解乏力。

生成性失敗主要源于執行能力不足，而不是理解能力缺陷：為了驗證模型對上下文的理解程度，我們將生成任務轉換為視覺問答形式，如圖三 (b) 所示。實驗結果顯示，模型在理解類任務上的成功率較高，證明其已具備相當程度的語境感知。導致「知而不能畫」的現象主要歸結為以下兩個因素：首先，交錯上下文具有極高的數據密度，其中細粒度的視覺差異難以通過有限的模態編碼完全捕獲與表達。其次，當前通用多模態模型的結構設計在信息傳遞上存在損耗，導致理解側豐富的語義信息無法有效傳導至生成側，形成了認知與創作之間的斷層。

04 方法論：

基于注意力的免訓練增強

圖四注意力分布觀察：左：Bagel 的注意力分布，右：我們改進后的注意力分布

基于上述診斷，我們進一步從底層機理探究了模型失效的根源。在多模態生成過程中，我們將生成圖像的特征作為查詢向量（Query），將圖文交織的上下文作為鍵向量（Key），對注意力分布進行了可視化分析。結果表明，Bagel 模型在處理圖像時的注意力分布異常雜亂，呈現出大量不規律的噪聲與隨機的激增。由此引出一個核心問題：注意力分布的偏移在多大程度上干擾了模型對上下文的理解？我們是否能通過對注意力權重進行輕量級調制，來實質性地提升模型的生成表現？

受到相關文獻 [1] 的啟發，我們將「上下文學習本質上是一個隱式梯度更新過程」這一理論，在數學上嚴格推導并拓展至 Bagel 的架構中（詳細推導過程見論文 [2]）。從這一理論視角出發，高質量的上下文能夠為這種隱式的「梯度下降」提供明確且精準的優化方向。然而，Bagel 原生的注意力熱力圖揭示了一個致命缺陷：模型未能精確聚焦于上下文中必須關注的核心特征，其注意力權重呈現出無序的發散狀態。這直接導致模型在隱式梯度更新時丟失了正確的下降路徑，最終受困于預訓練固化的數據分布中難以跳出。針對這一困境，我們提出了一種免訓練的注意力校準機制，強制引導模型將注意力收斂于關鍵的視覺與語義區域。定性與定量實驗均證實，該方法能夠有效糾正模型的優化軌跡并帶來顯著的性能增益，為該領域構建了一個簡單的基線。

05 總結與展望：

邁向真正的通用生成智能

GENIUS 的提出，旨在回應生成式 AI 發展進程中的一個核心命題：我們究竟需要什么樣的智能？

當前的生成式多模態大模型已經在晶體智力上取得了令人矚目的成就：它們能夠完美擬合海量數據分布，復現高質量的視覺內容。然而，GENIUS 的評測結果揭示了繁榮背后的隱憂：一旦脫離了預訓練的舒適區，面對需要即時推理、歸納與適應的流體智力任務，現有模型仍顯稚嫩。

從「晶體智能的擬合」走向「流體智能的推理」，是生成式多模態大模型下一階段發展的必經之路。

GENIUS 僅僅是一個開始。我們希望這一基準能為社區提供一個嚴謹的測試平臺，推動生成式模型從熟練的「模仿者」，進化為具備真正通用推理能力的「思考者」。

引用：

[1] Learning without training: The implicitdynamics of in-context learning

[2] GENIUS: Generative Fluid IntelligenceEvaluation Suite

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.