![]()
摘要
人類大腦能夠從視覺輸入中提取復雜的信息,包括物體、它們的空間與語義關系,以及與環境的互動。然而,長期以來,缺乏一種量化方法來刻畫這種復雜信息。本研究探討了大語言模型(LLM)所編碼的上下文信息是否有助于建模大腦從自然場景中提取的復雜視覺信息。研究團隊發現,將自然場景的文字描述輸入LLM所得到的嵌入向量,可以成功預測大腦在觀看相應場景時的活動模式。這種映射不僅揭示了不同腦區的選擇性,還強大到足以從腦活動重建出場景描述。進一步的模型比較表明,LLM與大腦表征高度契合,正源于其整合了超越單個詞語的復雜上下文信息。研究還訓練了深度神經網絡,將圖像直接轉化為LLM表征,結果顯示,盡管訓練使用的數據規模小得多,這些模型比大量現有的視覺模型更符合大腦表征規律。總體而言,研究提示:LLM的嵌入為理解大腦如何從視覺輸入中提取復雜信息提供了有力的表征框架 。
關鍵詞:大腦視覺表征,大語言模型,功能核磁共振(fMRI),自然場景數據,表征相似性分析(Representational Similarity Analysis, RSA),深度神經網絡(ANN),語義上下文
彭晨| 作者
周莉| 審校
![]()
論文題目:High-level visual representations in the human brain are aligned with large language models 論文鏈接:https://www.nature.com/articles/s42256-025-01072-0 發表時間:2025年8月7日 論文來源:Nature Machine Intelligence
從視覺到語義:大腦的“翻譯”機制
大腦如何將光信號轉化為可理解的場景?過去的研究多集中于識別“這是什么物體”,而忽視了“物體處于什么環境”。然而,日常場景中,環境與語境往往比單個物體本身是什么更重要。本研究提出一個大膽假設:大腦通過層層計算,將視覺輸入投射到一個多維空間,而這一空間的結構,正可以由LLM對圖像描述的語義嵌入逼近。這意味著,語言中的抽象語義,或許與視覺中的高級表征存在某種天然的契合 。
數據與方法:7T fMRI與自然場景數據集
本研究依托“自然場景數據集”(Natural Scenes Dataset, NSD),其中包含人類受試者在7T功能磁共振下觀看數以萬計自然場景的腦活動記錄。這些場景來自COCO圖像庫,每張圖像都有人工撰寫的文字描述。研究者將這些文字輸入到MPNet等LLM中,得到句子級別的嵌入向量,并與受試者的fMRI激活模式進行對比。為了量化兩者的契合度,團隊采用了表征相似性分析(RSA)和線性編碼模型,結果顯示:LLM嵌入與大腦高級視覺區的活動顯著相關,且能夠跨個體泛化 。
![]()
圖 1. 來自LLM嵌入的映射捕獲了對自然場景的視覺反應。a、LLM到大腦映射的方法。NSD數據集中的每個圖像都與不同的人類觀察者編寫的描述場景的標題相關聯。這些標題通過LLM模型來生成嵌入。研究表征相似性分析RSA和編碼模型使用兩種方法來量化這些嵌入和fMRI數據之間的匹配。b, RSA揭示了一個擴展的大腦區域網絡,其中LLM表征與大腦活動相關。LLM嵌入(MPNet)與大腦表征(參與者N=8)之間的組平均Pearson相關性。c、線性編碼模型強調了類似的大腦區域網絡。我們執行體素線性回歸來預測LLM嵌入的體素活動。所示為測試集上預測和實際beta反應之間的組平均Pearson相關圖。d、編碼模型性能與參與者間一致性。散點圖中的每個點表示給定體素的編碼模型性能與參與者之間的一致性,計算為每個參與者體素活動與測試圖像上其余七個參與者體素活動的平均值之間的平均Pearson相關性。編碼模型在所有roi中都接近于參與者間的一致,表明了良好的性能。
從腦信號解碼文字:驚人的“讀心術”
如果LLM嵌入能預測腦區反應,那么反過來,能否從腦活動中“解讀”出文字?研究者訓練了線性解碼模型,將fMRI信號映射回LLM嵌入空間,再利用數百萬條句子作為字典進行匹配。令人震撼的是,模型不僅能夠生成與受試者看到的場景高度一致的描述,還能區分“人物”“場景”“食物”等不同選擇性腦區的特征。這意味著,借助LLM,我們正逼近一種語義層面的“腦機翻譯”。
![]()
圖 2. 基于LLM的腦活動線性預測與解碼。a,線性編碼模型捕捉不同大腦區域的選擇性。我們對比了5個新的人與地點相關的句子(左)和5個食物與人相關的句子(右)預測的大腦活動。這些對比突出了已知的對人、地點和食物有選擇性的大腦區域(人和地方區域被定位為非功能性障礙的一部分(左);描述的食物區域顯示為白色輪廓(右)。b,從視覺誘發的大腦反應中解碼字幕。上圖:擬合了一個線性模型,從fMRI體素活動中預測LLM嵌入(MPNet)。然后,使用最近鄰查找為每個圖像生成標題。左下:每個參與者在測試集中的預測分數的核密度估計圖,使用預測和目標嵌入之間的Pearson相關性進行量化。噪聲上限計算為每個圖像的五個人工生成的標題之間的一致性。右下:目標(藍色),解碼(粉紅色)和最近的訓練(綠色)標題示例,來自于hold -out測試集中的不同參與者,跨越預測分數的范圍。解碼器不是簡單地查找最接近的訓練項,而是提供另一個適當的標題。排名是指所示樣本的預測得分(即,排名0是該參與者的最佳預測,而排名514是最差的預測)。
上下文的力量:不僅僅是物體類別
進一步的分析表明,LLM與大腦契合的關鍵,在于它能整合整個句子的上下文信息。研究者對比了不同模型:僅依賴物體類別標簽、單詞嵌入,或是僅使用名詞、動詞。結果發現,只有完整句子級的嵌入,才能最好地匹配大腦活動。這說明,大腦高級視覺加工并非簡單的“物體清單”,而更像是“語義敘事”,其中語境、關系和互動才是決定性的 。
![]()
圖 3. LLM與視覺誘發的大腦活動的匹配是源于它們整合場景字幕中包含的復雜信息的能力。我們在NSD數據集的“流”ROI定義中應用RSA。“LLM標題”是指整個標題的LLM嵌入(MPNet),不同的組表示不同類別的控制模型。每個模型與大腦活動之間的匹配被量化為每個模型與給定ROI之間經過噪聲上限校正的Pearson相關性。a,分類信息的LLM嵌入提高了與大腦數據的匹配。我們比較了多種表示類別信息的格式,從二進制多熱向量(multi-hot),通過平均類別詞的快速文本(fasttext)或手套(GloVe)詞嵌入,到使用MPNet (LLM)嵌入所有類別詞的連接。b, LLM嵌入捕獲名詞或動詞之外的與大腦相關的信息。與完整標題(LLM標題)的LLM嵌入相比,連接標題名詞(LLM名詞)或動詞(LLM動詞)的LLM嵌入對大腦數據的匹配程度都要低得多(EVC中的LLM名詞除外)。c, LLM嵌入捕獲大腦相關的上下文信息。為了測試標題傳達的上下文信息是否對匹配大腦數據很重要,我們將整個標題的嵌入與單個標題詞的平均LLM、fasttext和GloVe嵌入進行了比較。
從圖像到LLM:深度網絡的新目標
研究的最后一部分,研究團隊訓練了循環卷積神經網絡(Recurrent Convolutional Neural Networks, RCNNs),讓它們直接從圖像學習預測LLM嵌入,而非傳統的物體分類標簽。結果顯示,這些RCNN的表征與人腦活動的契合度,超過了包括CLIP、ResNet等在內的13種最先進視覺模型。值得注意的是,RCNN訓練所需的數據量遠少于對比模型,卻依然取得更好結果。這意味著,以LLM嵌入為目標的訓練,或許比單純的物體識別更接近大腦真實的計算目標 。
![]()
圖 4. LLM訓練的深度循環卷積網絡在預測大腦活動方面優于其他模型。a,RCNNs,有十個循環卷積層,分別是自下而上(紫色)、橫向(綠色)和自上而下(橙色)的連接,然后是一個完全連接的讀出層。訓練目標是最小化網絡輸出和目標LLM標題嵌入之間的余弦距離。類別訓練的控制網絡是相同的,除了它們被訓練來預測多熱點類別標簽。b,類別標簽可以從LLM訓練的RCNN活動中解碼。在凍結網絡權重后,我們測試了類別標簽(分別是LLM嵌入)如何從LLM訓練(分別是類別訓練)網絡的預讀出層中的活動中解碼。該圖顯示了測試性能(N = 10個網絡實例的平均值;誤差條表示標準差),量化為預測向量和目標向量之間的余弦相似度。c, LLM訓練的RCNN與LLM嵌入。LLM訓練的RCNN活動(最后一層和時間步)與場景字幕的LLM嵌入之間的Searchlight RSA對比。d,LLM訓練與分類訓練的RCNN。與c相似的圖,但顯示了LLM訓練和類別訓練的RCNN之間的對比(最后一層和時間步長)。e, LLM訓練的RCNN與其他廣泛使用的ANN的roi比較。各種模型的預讀出層與ROI RDM之間的噪聲天花板校正相關性。我們的RCNN模型顯著優于所有其他模型(除了CORnet-S模型,該模型在頂葉ROI的表現差異不明顯)
意義與未來展望
這項研究提出了一種統一的量化框架,將大腦視覺表征與語言模型的語義空間相連接。它不僅彌合了“視覺”與“語言”的傳統鴻溝,還為未來的NeuroAI研究提供了新方向。更廣泛地說,如果視覺和語言都投射到類似的高維空間,這種“公共語義坐標系”或許能解釋多模態信息如何在大腦中整合。這對腦機接口、認知障礙康復,以及人工智能的跨模態學習,均具有深遠啟示。未來,研究者還需進一步揭示:大腦表征與LLM嵌入契合的具體要素是什么?上下文、語法、甚至跨物種的視覺系統,是否也遵循類似規律?這些問題的答案,推動我們更深入理解智能的本質 。
計算神經科學第三季讀書會
從單個神經元的放電到全腦范圍的意識涌現,理解智能的本質與演化始終是一個關于尺度的問題。更值得深思的是,無論是微觀的突觸可塑性、介觀的皮層模塊自組織,還是宏觀的全局信息廣播,不同尺度的動力學過程都在共同塑造著認知與意識。這說明,對心智的研究從最初就必須直面一個核心挑戰:局部的神經活動如何整合為統一的體驗?局域的網絡連接又如何支撐靈活的智能行為?
繼「」與「」讀書會后,集智俱樂部聯合來自數學、物理學、生物學、神經科學和計算機的一線研究者共同發起,跨越微觀、介觀與宏觀的視角,探索意識與智能的跨尺度計算、演化與涌現。重點探討物理規律與人工智能如何幫助我們認識神經動力學,以及神經活動跨尺度的計算與演化如何構建微觀與宏觀、結構與功能之間的橋梁。
詳情請見:
1.
2.
3.
4.
5.
6.
7.
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.