基本信息
Title:High-level visual representations in the human brain are aligned with large language models(人腦高層視覺表征與大語言模型對齊)
Journal:Nature Machine Intelligence
發表時間:2025.8.7
2025 影響因子:23.7
關鍵詞:大模型,視覺,表征對齊
![]()
省流總結:
作者用7T fMRI大規模自然場景數據集(NSD)發現:僅由文字生成的LLM句向量(以MPNet為代表)可以定量刻畫高層視覺皮層對自然場景的反應;基于此還能線性解碼出場景文字描述。進一步把圖像端訓練為“像素→LLM嵌入”的深度網絡后,其與大腦表征的擬合超過多種SOTA視覺模型,且所需訓練圖像數量更少。結論:人腦或將視覺輸入投射到一種與LLM嵌入對齊的高維表示空間。
背景與研究問題:
視覺神經科學已能用“以物體分類為目標訓練”的ANN較好預測外紋狀皮層活動,但自然場景包含超越“是什么”的語境信息(物體共呈現概率、空間-語義關系、物體呈現的經典場景等)。問題在于:如何用一個統一的、可計算的表示去概括這些復雜信息。作者提出假設:LLM對圖像標題的嵌入,或可作為這種“高層場景信息”的載體,并與人腦高層視覺表征對齊。
數據與方法:
數據:NSD 7T fMRI,8名被試,每人看9,000–10,000張COCO自然場景(3次重復),分辨率1.8 mm、TR=1.6 s。分析主要聚焦NSD定義的EVC、腹側、外側、頂葉的ROIs。
文本表示:主模型為MPNet整句嵌入(all-mpnet-base-v2),僅來自文字,不含視覺信息;并對比:多類別向量、fastText、GloVe詞向量、只取名詞、動詞等。
主要結果與圖解:
![]()
Figure1 A mapping from LLM embeddings captures visual responses to natural scenes
(a) LLM→大腦的映射方法。NSD數據集中每幅圖像都有不同觀察者撰寫的caption。這些caption經LLM得到嵌入。采用兩種方法量化LLM嵌入與fMRI數據的匹配(RSA與編碼模型)。
(b) RSA揭示了廣泛腦區網絡中LLM表征與腦活動的相關。圖為組平均的Pearson相關(未進行噪聲上限校正)的Searchlight map。
(c) 線性編碼模型突出顯示了相似的腦區網絡。進行體素級線性回歸,用LLM嵌入預測體素活動。圖為測試集上預測與真實β響應的組平均Pearson相關(未進行噪聲上限校正)。
(d) 編碼模型性能 vs. 被試間一致性。散點圖每個點為一體素:橫軸為該體素與其他7名被試平均活動的相關(測試圖像),縱軸為編碼模型性能。研究者的編碼模型在所有ROI中接近被試間一致性,表明性能良好;低于對角線的點可解釋為模型捕捉了“組均值未包含的被試特異”方差。
![]()
Figure2 LLM-based linear prediction and decoding of brain activities
(a)線性編碼模型捕捉到不同腦區的選擇性。研究者對比了五句“人物相關”vs“地點相關”(左),以及五句“食物相關”vs“人物相關”(右)的預測腦活動(跨被試N=8,雙尾t檢,P=0.05,未做FDR校正)。這些對比凸顯了已知的人、地點、食物選擇性區域。
(b) 從視覺誘發的大腦響應解碼caption。上:擬合線性模型,從fMRI體素活動預測LLM(MPNet)嵌入,再用最近鄰查找為每張圖生成caption。下左:每位被試在保留測試集上的預測分數核密度估計圖。噪聲上限為同一圖像,5條人類caption之間的一致性。下右:展示不同被試在測試集上橫跨分數范圍的目標(藍)、解碼(粉)、最近訓練(綠)caption范例。解碼器不是在查找最近訓練句,而能給出另一個同樣合適的描述。所示“名次”指該樣本在該被試內的分數排名(0最好,514最差)。縮寫:EBA(外紋狀體身體區)、FBA1/2(梭狀身體區后/前段)、FFA1/2(梭狀面孔區后/前段)、PPA(海馬旁場景區)、pSTS face(后上顳溝面孔區)、OFA(枕葉面孔區)、OPA(枕葉場景區)。
![]()
Figur3 The match of LLMs to visually evoked brain activities derives from their ability to integrate complex information contained in scene captions.
在NSD數據集定義的ROI中做RSA(左上角嵌入圖示ROI)。“LLM caption”指整句caption的LLM(MPNet)嵌入;其余分組為不同對照模型。
(a) 類別信息的LLM嵌入可提升與腦fMRI數據的匹配。比較了多種表示類別的格式:二進制multi-hot;對類別詞做fastText、GloVe向量后求平均;以及把所有類別詞串成一句再用MPNet嵌入(LLM)。
(b) LLM嵌入捕捉了超越名詞、動詞的信息。把caption的名詞拼接(LLM nouns)或動詞拼接(LLM verbs)分別做嵌入,都顯著不如整句(EVC上名詞為例外)。
(c) LLM嵌入捕捉了上下文信息。為測試caption的上下文對匹配是否重要,把整句嵌入與逐詞嵌入再平均(LLM/fastText/GloVe)進行了比較。
![]()
![]()
Figure 4 LLM-trained deep recurrent convolutional networks outperform other models in predicting brain activity
(a) RCNN結構:10層遞歸卷積,含自下而上(紫)、側向(綠)、自頂向下(橙)連接。訓練目標是最小化網絡輸出與目標LLM caption嵌入之間的余弦距離。類別訓練對照網絡在結構相同,僅改為預測multi-hot類別標簽。
(b) 類別標簽可從LLM-trained網絡活動中讀出。凍結權重后,評估從LLM-trained(或category-trained)網絡的讀出層前活動解碼類別標簽(或LLM嵌入)的效果。圖示測試性能(N=10個隨機種子的網絡,誤差線為標準差),度量為余弦相似度。
(c) LLM-trained RCNN vs. 原始LLM嵌入。對比“LLM-trained網絡末層、末時間步”活動與“caption的LLM嵌入”的探照燈RSA。RCNN的平均RDM;
(d) LLM-trained vs. Category-trained RCNN。與(c)類似,但對比兩種訓練目標的RCNN(末層、末時間步)。
(e) ROI層面把LLM-trained RCNN與其它廣泛使用的ANN比較。報告各模型讀出層前表征與腹側、外側、頂葉ROI的RDM噪聲上限校正相關。RCNN在腹側、頂葉ROI顯著優于所有其他模型。
討論與影響:
統一的高級信息“通用碼”
LLM嵌入可作為信息豐富、具世界知識、可跨詞類整合的表示框架,連接既有的物體、場景、關系等分散線索,邁向統一定量化的高級視覺建模。
訓練目標比數據量更關鍵?
與需百萬級圖像的傳統模型相比,以LLM嵌入為目標的網絡在低數據量下更貼近大腦,提示了 ”目標函數的信息密度“ 或比 “原始數據規模” 更重要。
需注意:LLM本身依賴海量文本訓練。
不是“語言化大腦”,而是“對齊的高層空間”
結果不意味著視覺表征具有語言的句法、遞歸特性;更合理的解釋是:兩者在高維統計結構上對齊,使跨模態溝通和多系統信息匯合更為容易。
局限與未來:
任務依賴:NSD任務為持續再認,是否誘發被試“內在加字幕”尚難排除;不同任務條件下的對齊度,值得系統驗證。
句法敏感性:MPNet在NSD短句上對詞序不敏感;復雜語法條件、長文本是否仍能對齊有待進一步測試。
可解釋性:哪類LLM維度最貼近大腦尚不清楚,LLM嵌入的可解釋拓展與因果操控(如刺激合成)將是關鍵下一步。
編輯部觀點:
這項工作用雙向線性映射+嚴格的模型對照,把“自然場景中的復雜信息如何在大腦中編碼”的問題,首次落在了可操作、可對比的統一表示上:LLM整句嵌入。更具啟發性的是,把視覺網絡對齊到語言嵌入空間,比傳統的“對齊到類別標簽”更能貼近人腦高級視覺表征。這為NeuroAI提供了可復制的范式:以語言空間為橋,聯通視覺與更抽象的世界知識。
Author information:
第一作者:Adrien Doerig
Department of Psychology and Education, Freie Universit?t Berlin, Berlin, Germany
柏林自由大學心理學與教育系(德國柏林)
Institute of Cognitive Science, University of Osnabrück, Osnabrück, Germany
奧斯納布呂克大學認知科學研究所(德國奧斯納布呂克)
Bernstein Center for Computational Neuroscience, Berlin, Germany
柏林計算神經科學伯恩斯坦中心(德國柏林)
共一第二:Tim C. Kietzmann.
Institute of Cognitive Science, University of Osnabrück, Osnabrück, Germany
奧斯納布呂克大學認知科學研究所(德國奧斯納布呂克)
共同通訊:Kendrick Kay
Center for Magnetic Resonance Research, Department of Radiology, University of Minnesota, Minneapolis, MN, USA
明尼蘇達大學放射學系磁共振研究中心(美國明尼蘇達州明尼阿波利斯市)
最后通訊: Ian Charest
cerebrUM, Département de Psychologie, Université de Montréal, Montreal, Quebec, Canada
蒙特利爾大學心理學系 cerebrUM 研究中心(加拿大魁北克省蒙特利爾市)
Abstract
The human brain extracts complex information from visual inputs, including objects, their spatial and semantic interrelations, and their interactions with the environment. However, a quantitative approach for studying this information remains elusive. Here we test whether the contextual information encoded in large language models (LLMs) is beneficial for modelling the complex visual information extracted by the brain from natural scenes. We show that LLM embeddings of scene captions successfully characterize brain activity evoked by viewing the natural scenes. This mapping captures selectivities of different brain areas and is sufficiently robust that accurate scene captions can be reconstructed from brain activity. Using carefully controlled model comparisons, we then proceed to show that the accuracy with which LLM representations match brain representations derives from the ability of LLMs to integrate complex information contained in scene captions beyond that conveyed by individual words. Finally, we train deep neural network models to transform image inputs into LLM representations. Remarkably, these networks learn representations that are better aligned with brain representations than a large number of state-of-the-art alternative models, despite being trained on orders-of-magnitude less data. Overall, our results suggest that LLM embeddings of scene captions provide a representational format that accounts for complex information extracted by the brain from visual inputs.
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.