<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      Nat Mach Intell | 高級視覺表征為何與大語言模型“同頻”?

      0
      分享至

      基本信息

      Title:High-level visual representations in the human brain are aligned with large language models(人腦高層視覺表征與大語言模型對齊)

      Journal:Nature Machine Intelligence

      發表時間:2025.8.7

      2025 影響因子:23.7

      關鍵詞:大模型,視覺,表征對齊



      省流總結:

      作者用7T fMRI大規模自然場景數據集(NSD)發現:僅由文字生成的LLM句向量(以MPNet為代表)可以定量刻畫高層視覺皮層對自然場景的反應;基于此還能線性解碼出場景文字描述。進一步把圖像端訓練為“像素→LLM嵌入”的深度網絡后,其與大腦表征的擬合超過多種SOTA視覺模型,且所需訓練圖像數量更少。結論:人腦或將視覺輸入投射到一種與LLM嵌入對齊的高維表示空間。

      背景與研究問題:

      視覺神經科學已能用“以物體分類為目標訓練”的ANN較好預測外紋狀皮層活動,但自然場景包含超越“是什么”的語境信息(物體共呈現概率、空間-語義關系、物體呈現的經典場景等)。問題在于:如何用一個統一的、可計算的表示去概括這些復雜信息。作者提出假設:LLM對圖像標題的嵌入,或可作為這種“高層場景信息”的載體,并與人腦高層視覺表征對齊。

      數據與方法:

      數據:NSD 7T fMRI,8名被試,每人看9,000–10,000張COCO自然場景(3次重復),分辨率1.8 mm、TR=1.6 s。分析主要聚焦NSD定義的EVC、腹側、外側、頂葉的ROIs。

      文本表示:主模型為MPNet整句嵌入(all-mpnet-base-v2),僅來自文字,不含視覺信息;并對比:多類別向量、fastText、GloVe詞向量、只取名詞、動詞等。

      主要結果與圖解:



      Figure1 A mapping from LLM embeddings captures visual responses to natural scenes

      (a) LLM→大腦的映射方法。NSD數據集中每幅圖像都有不同觀察者撰寫的caption。這些caption經LLM得到嵌入。采用兩種方法量化LLM嵌入與fMRI數據的匹配(RSA與編碼模型)。

      (b) RSA揭示了廣泛腦區網絡中LLM表征與腦活動的相關。圖為組平均的Pearson相關(未進行噪聲上限校正)的Searchlight map。

      (c) 線性編碼模型突出顯示了相似的腦區網絡。進行體素級線性回歸,用LLM嵌入預測體素活動。圖為測試集上預測與真實β響應的組平均Pearson相關(未進行噪聲上限校正)。

      (d) 編碼模型性能 vs. 被試間一致性。散點圖每個點為一體素:橫軸為該體素與其他7名被試平均活動的相關(測試圖像),縱軸為編碼模型性能。研究者的編碼模型在所有ROI中接近被試間一致性,表明性能良好;低于對角線的點可解釋為模型捕捉了“組均值未包含的被試特異”方差。



      Figure2 LLM-based linear prediction and decoding of brain activities

      (a)線性編碼模型捕捉到不同腦區的選擇性。研究者對比了五句“人物相關”vs“地點相關”(左),以及五句“食物相關”vs“人物相關”(右)的預測腦活動(跨被試N=8,雙尾t檢,P=0.05,未做FDR校正)。這些對比凸顯了已知的人、地點、食物選擇性區域。

      (b) 從視覺誘發的大腦響應解碼caption。上:擬合線性模型,從fMRI體素活動預測LLM(MPNet)嵌入,再用最近鄰查找為每張圖生成caption。下左:每位被試在保留測試集上的預測分數核密度估計圖。噪聲上限為同一圖像,5條人類caption之間的一致性。下右:展示不同被試在測試集上橫跨分數范圍的目標(藍)、解碼(粉)、最近訓練(綠)caption范例。解碼器不是在查找最近訓練句,而能給出另一個同樣合適的描述。所示“名次”指該樣本在該被試內的分數排名(0最好,514最差)。縮寫:EBA(外紋狀體身體區)、FBA1/2(梭狀身體區后/前段)、FFA1/2(梭狀面孔區后/前段)、PPA(海馬旁場景區)、pSTS face(后上顳溝面孔區)、OFA(枕葉面孔區)、OPA(枕葉場景區)。



      Figur3 The match of LLMs to visually evoked brain activities derives from their ability to integrate complex information contained in scene captions.

      在NSD數據集定義的ROI中做RSA(左上角嵌入圖示ROI)。“LLM caption”指整句caption的LLM(MPNet)嵌入;其余分組為不同對照模型。

      (a) 類別信息的LLM嵌入可提升與腦fMRI數據的匹配。比較了多種表示類別的格式:二進制multi-hot;對類別詞做fastText、GloVe向量后求平均;以及把所有類別詞串成一句再用MPNet嵌入(LLM)。

      (b) LLM嵌入捕捉了超越名詞、動詞的信息。把caption的名詞拼接(LLM nouns)或動詞拼接(LLM verbs)分別做嵌入,都顯著不如整句(EVC上名詞為例外)。

      (c) LLM嵌入捕捉了上下文信息。為測試caption的上下文對匹配是否重要,把整句嵌入與逐詞嵌入再平均(LLM/fastText/GloVe)進行了比較。





      Figure 4 LLM-trained deep recurrent convolutional networks outperform other models in predicting brain activity

      (a) RCNN結構:10層遞歸卷積,含自下而上(紫)、側向(綠)、自頂向下(橙)連接。訓練目標是最小化網絡輸出與目標LLM caption嵌入之間的余弦距離。類別訓練對照網絡在結構相同,僅改為預測multi-hot類別標簽。

      (b) 類別標簽可從LLM-trained網絡活動中讀出。凍結權重后,評估從LLM-trained(或category-trained)網絡的讀出層前活動解碼類別標簽(或LLM嵌入)的效果。圖示測試性能(N=10個隨機種子的網絡,誤差線為標準差),度量為余弦相似度。

      (c) LLM-trained RCNN vs. 原始LLM嵌入。對比“LLM-trained網絡末層、末時間步”活動與“caption的LLM嵌入”的探照燈RSA。RCNN的平均RDM;

      (d) LLM-trained vs. Category-trained RCNN。與(c)類似,但對比兩種訓練目標的RCNN(末層、末時間步)。

      (e) ROI層面把LLM-trained RCNN與其它廣泛使用的ANN比較。報告各模型讀出層前表征與腹側、外側、頂葉ROI的RDM噪聲上限校正相關。RCNN在腹側、頂葉ROI顯著優于所有其他模型。

      討論與影響:

      統一的高級信息“通用碼”

      LLM嵌入可作為信息豐富、具世界知識、可跨詞類整合的表示框架,連接既有的物體、場景、關系等分散線索,邁向統一定量化的高級視覺建模。

      訓練目標比數據量更關鍵?

      與需百萬級圖像的傳統模型相比,以LLM嵌入為目標的網絡在低數據量下更貼近大腦,提示了 ”目標函數的信息密度“ 或比 “原始數據規模” 更重要。

      需注意:LLM本身依賴海量文本訓練。

      不是“語言化大腦”,而是“對齊的高層空間”

      結果不意味著視覺表征具有語言的句法、遞歸特性;更合理的解釋是:兩者在高維統計結構上對齊,使跨模態溝通和多系統信息匯合更為容易。

      局限與未來:

      任務依賴:NSD任務為持續再認,是否誘發被試“內在加字幕”尚難排除;不同任務條件下的對齊度,值得系統驗證。

      句法敏感性:MPNet在NSD短句上對詞序不敏感;復雜語法條件、長文本是否仍能對齊有待進一步測試。

      可解釋性:哪類LLM維度最貼近大腦尚不清楚,LLM嵌入的可解釋拓展與因果操控(如刺激合成)將是關鍵下一步。

      編輯部觀點:

      這項工作用雙向線性映射+嚴格的模型對照,把“自然場景中的復雜信息如何在大腦中編碼”的問題,首次落在了可操作、可對比的統一表示上:LLM整句嵌入。更具啟發性的是,把視覺網絡對齊到語言嵌入空間,比傳統的“對齊到類別標簽”更能貼近人腦高級視覺表征。這為NeuroAI提供了可復制的范式:以語言空間為橋,聯通視覺與更抽象的世界知識。

      Author information:

      第一作者:Adrien Doerig

      Department of Psychology and Education, Freie Universit?t Berlin, Berlin, Germany

      柏林自由大學心理學與教育系(德國柏林)

      Institute of Cognitive Science, University of Osnabrück, Osnabrück, Germany

      奧斯納布呂克大學認知科學研究所(德國奧斯納布呂克)

      Bernstein Center for Computational Neuroscience, Berlin, Germany

      柏林計算神經科學伯恩斯坦中心(德國柏林)

      共一第二:Tim C. Kietzmann.

      Institute of Cognitive Science, University of Osnabrück, Osnabrück, Germany

      奧斯納布呂克大學認知科學研究所(德國奧斯納布呂克)

      共同通訊:Kendrick Kay

      Center for Magnetic Resonance Research, Department of Radiology, University of Minnesota, Minneapolis, MN, USA

      明尼蘇達大學放射學系磁共振研究中心(美國明尼蘇達州明尼阿波利斯市)

      最后通訊: Ian Charest

      cerebrUM, Département de Psychologie, Université de Montréal, Montreal, Quebec, Canada

      蒙特利爾大學心理學系 cerebrUM 研究中心(加拿大魁北克省蒙特利爾市)

      Abstract

      The human brain extracts complex information from visual inputs, including objects, their spatial and semantic interrelations, and their interactions with the environment. However, a quantitative approach for studying this information remains elusive. Here we test whether the contextual information encoded in large language models (LLMs) is beneficial for modelling the complex visual information extracted by the brain from natural scenes. We show that LLM embeddings of scene captions successfully characterize brain activity evoked by viewing the natural scenes. This mapping captures selectivities of different brain areas and is sufficiently robust that accurate scene captions can be reconstructed from brain activity. Using carefully controlled model comparisons, we then proceed to show that the accuracy with which LLM representations match brain representations derives from the ability of LLMs to integrate complex information contained in scene captions beyond that conveyed by individual words. Finally, we train deep neural network models to transform image inputs into LLM representations. Remarkably, these networks learn representations that are better aligned with brain representations than a large number of state-of-the-art alternative models, despite being trained on orders-of-magnitude less data. Overall, our results suggest that LLM embeddings of scene captions provide a representational format that accounts for complex information extracted by the brain from visual inputs.

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      米娜酒后直播耍酒瘋,先脫衣服后劈叉,粉絲刷禮物后大方展示身材

      米娜酒后直播耍酒瘋,先脫衣服后劈叉,粉絲刷禮物后大方展示身材

      新游戲大妹子
      2026-01-17 13:16:15
      撈金失敗!2個劣跡藝人下鄉商演被舉報,官媒發文,后路要斷了

      撈金失敗!2個劣跡藝人下鄉商演被舉報,官媒發文,后路要斷了

      不寫散文詩
      2026-01-24 19:37:52
      全明星投票排名西部第12,哈登落選引爭議,賽場價值與人氣脫節

      全明星投票排名西部第12,哈登落選引爭議,賽場價值與人氣脫節

      用冷眼洞悉世界
      2026-01-24 22:47:09
      不到24小時,格蘭陵島被賣,特朗普來不及高興,就收到一個壞消息

      不到24小時,格蘭陵島被賣,特朗普來不及高興,就收到一個壞消息

      現代小青青慕慕
      2026-01-23 15:59:47
      終于知道閆學晶為什么抱怨日子過得緊巴巴了,她家三套房…

      終于知道閆學晶為什么抱怨日子過得緊巴巴了,她家三套房…

      福建平子
      2026-01-22 11:46:24
      4國首腦準備訪華,中方已遞出一張邀請函,3天后專機將會抵達北京

      4國首腦準備訪華,中方已遞出一張邀請函,3天后專機將會抵達北京

      愛下廚的阿釃
      2026-01-25 03:10:40
      古巴能源供應被切斷,垃圾堆積如山

      古巴能源供應被切斷,垃圾堆積如山

      昊軒看世界
      2026-01-14 10:15:12
      電飯煲退出廚房C位!江蘇人的“省錢烹飪法” 一鍋搞定三餐超實用

      電飯煲退出廚房C位!江蘇人的“省錢烹飪法” 一鍋搞定三餐超實用

      小兔子發現大事情
      2026-01-24 13:26:36
      趙本山擔心的事情發生了!何家是個無底洞,第三代人也來要錢了

      趙本山擔心的事情發生了!何家是個無底洞,第三代人也來要錢了

      琴聲飛揚
      2026-01-23 09:33:04
      朝鮮兩名高官發動兵變為張成澤報仇,因細節敗露,金正恩一招鎮壓

      朝鮮兩名高官發動兵變為張成澤報仇,因細節敗露,金正恩一招鎮壓

      阿胡
      2024-04-30 11:48:45
      彭加木神秘失蹤是場國際“大騙局”?749局高人揭秘事件后的真相

      彭加木神秘失蹤是場國際“大騙局”?749局高人揭秘事件后的真相

      真實異聞
      2024-03-05 21:34:40
      張子宇簽約山東高速女籃是巨大失誤,侯冰并不是知人善任的好教練

      張子宇簽約山東高速女籃是巨大失誤,侯冰并不是知人善任的好教練

      姜大叔侃球
      2026-01-24 12:57:43
      教外語應該穿什么,學外語又該穿什么?

      教外語應該穿什么,學外語又該穿什么?

      三人成虎V5
      2026-01-24 21:53:04
      它被評為“中國十大最丑”,卻成了魔都最火打卡點!

      它被評為“中國十大最丑”,卻成了魔都最火打卡點!

      GA環球建筑
      2026-01-23 23:59:12
      罪有應得!官方徹查后,閆學晶再迎噩耗,她最擔心的事還是發生了

      罪有應得!官方徹查后,閆學晶再迎噩耗,她最擔心的事還是發生了

      來科點譜
      2026-01-23 11:08:02
      除了三大上將,聊城還有六大中將?

      除了三大上將,聊城還有六大中將?

      魯西二哥
      2026-01-24 16:52:27
      baby關喆滑雪被證實!男方已婚三胎被罵不配,黃曉明坦言不會復婚

      baby關喆滑雪被證實!男方已婚三胎被罵不配,黃曉明坦言不會復婚

      八星人
      2026-01-22 10:14:09
      央媒對李亞鵬的稱呼變了,兩字之差釋放強烈信號,向華強全說對了

      央媒對李亞鵬的稱呼變了,兩字之差釋放強烈信號,向華強全說對了

      阿纂看事
      2026-01-23 19:25:11
      第二槍開打,聯合國爆發激戰,中方全面清算日本,俄朝也跟進行動

      第二槍開打,聯合國爆發激戰,中方全面清算日本,俄朝也跟進行動

      霽寒飄雪
      2026-01-23 16:27:38
      進了臘月門,大掃除,4樣東西能不動就別動!不是迷信,都是有科學依據的

      進了臘月門,大掃除,4樣東西能不動就別動!不是迷信,都是有科學依據的

      阿龍美食記
      2026-01-25 02:07:58
      2026-01-25 06:11:00
      PsyBrain腦心前沿
      PsyBrain腦心前沿
      追蹤腦科學新動態,聚焦認知與神經新研究
      129文章數 10關注度
      往期回顧 全部

      科技要聞

      黃仁勛現身上海菜市場

      頭條要聞

      張又俠、劉振立被查 解放軍報發布社論

      頭條要聞

      張又俠、劉振立被查 解放軍報發布社論

      體育要聞

      當家球星打替補,他們在故意擺爛?

      娛樂要聞

      回歸還是頂流 鳳凰傳奇將現身馬年春晚

      財經要聞

      “百年老字號”張小泉遭60億債務壓頂

      汽車要聞

      有增程和純電版可選 日產NX8或于3-4月間上市

      態度原創

      教育
      健康
      游戲
      親子
      軍事航空

      教育要聞

      電氣工程選科別慌!物理化學是關鍵

      耳石脫落為何讓人天旋地轉+惡心?

      《輪回之獸》的優化不會像《寶可夢》系列那樣差

      親子要聞

      哄睡新妙招!吹風機聲+束帶,寶寶一會兒就睡著了,網友:為什么孩子大了才告訴我!

      軍事要聞

      俄美烏首次三方會談在阿聯酋舉行

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 亚洲精品一区二区三区新线路 | 久久久久久久无码高潮| 91高级网站| 好男人社区影视在线WWW| 精品久久久久久中文字幕大豆网| 国产成人精品无码专区| 少妇人妻精品一区二区| 伊人成色| 精品秘?无码人妻| 亚洲午夜久久久影院伊人| 国产精品成人av大片| 裸体丰满白嫩大尺度尤物| 中文字幕久区久久中文字幕| 丁香婷婷激情综合俺也去| 久久久婷| 色噜噜亚洲精品中文字幕| 国产精品人妻无码久久久豆腐| 亚洲AV无码码潮喷在线观看| 日本高清视频网站www| 国产又色又爽又黄的在线观看视频| 一本久久综合亚洲鲁鲁五月天| 亚洲精品国产主播一区二区| 老熟女高潮一区二区三区| 惠来县| 熟妇人妻一区二区三区四区| 亚洲天堂中文字幕| 精品人妻一区二区三区-国产精品| 91日韩| 中文字幕一区二区三区乱码| 99精品国产成人一区二区| 国产粉嫩小泬在线观看泬| 午夜在线不卡| 久久亚洲精品成人综合| 天海翼无码在线| 欧美一本大道香蕉综合视频| 美女大量吞精在线观看456| 在线免费成人亚洲av| 久久久久久国产精品美女| 怀仁县| 欧美性受xxxx黑人猛交| 连州市|