PsyBrain 腦心前沿 | 公眾號 PSY-Brain_Frontier
一鍵關(guān)注,點亮星標 ??
不錯過每日前沿資訊
認知神經(jīng)科學前沿文獻分享
![]()
基本信息:
Title:Structure as an inductive bias for brain–model alignment
發(fā)表時間:12.4
Journal:Nature Machine Intelligence(News & Views)
影響因子:23.9
獲取原文:
添加小助手:PSY-Brain-Frontier即可獲取PDF版本
![]()
![]()
引言
當我們拿起手機刷短視頻時,眼睛只是在接收光線,但大腦和算法模型會在背后飛快地“解碼”:這是貓還是狗?是自拍還是風景?在人工智能里,卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network, CNN)長期被視為“最像視覺皮層”的架構(gòu),而近幾年崛起的Vision Transformer(ViT)、MLP-Mixer等新模型,則靠著驚艷的性能不斷挑戰(zhàn)這個地位。問題來了:
到底是誰更像大腦?是架構(gòu)本身,還是后天用海量數(shù)據(jù)“喂”出來的表示?
傳統(tǒng)觀點認為,只要給模型足夠多的圖像和標簽,訓練好之后,不論是 CNN 還是 ViT,內(nèi)部表征都會與靈長類視覺皮層有不錯的一致性。但這篇 News & Views 解讀的 Kazemian 等人的工作提出了一個“更挑釁”的問題:
如果我們干脆不訓練,只保留隨機初始化的網(wǎng)絡(luò)結(jié)構(gòu),哪種架構(gòu)天生更接近大腦?
作者抓住了一個神經(jīng)科學中非常經(jīng)典、但在工程上容易被忽略的現(xiàn)象:從視網(wǎng)膜到大腦皮層,信息維度是“猛烈擴張”的——大約一百萬個視網(wǎng)膜神經(jīng)節(jié)細胞的信號,要被鋪展到數(shù)十億個皮層神經(jīng)元中去,這種“維度擴張(dimensionality expansion)”被認為是大腦支持豐富表征能力的關(guān)鍵。Kazemian 等人于是把這條生物學線索“移植”到人工網(wǎng)絡(luò)里:在不訓練任何參數(shù)的前提下,他們系統(tǒng)地比較 CNN、全連接網(wǎng)絡(luò)(fully connected network)和 transformer,在最后一層人為增加輸出特征的數(shù)量,看誰最能預測猴和人的視覺腦響應(yīng)。
![]()
Fig. 1 | Comparing untrained network architectures and the principle of dimensionality expansion.
這聽起來有點像給幾個剛出廠、沒上過學的小機器人,同樣看一堆圖片,再問:誰對大腦信號的“直覺”最好?如果答案是 CNN,那么它“像大腦”就不只是因為被大數(shù)據(jù)調(diào)教得好,而是因為架構(gòu)結(jié)構(gòu)本身就帶著強烈的歸納偏好(inductive bias)。
這篇 News & Views 文章在簡要介紹實驗結(jié)果的同時,還把它放回更大的 NeuroAI 版圖:從無限寬度網(wǎng)絡(luò)對應(yīng)的高斯過程(Gaussian process)理論,到隨機 CNN 中天生出現(xiàn)的“人臉單元”,再到我們該如何更謹慎地使用線性回歸來衡量“腦–模型對齊”。
![]()
核心發(fā)現(xiàn)
1. 未訓練 CNN 的結(jié)構(gòu),就已經(jīng)比 ViT 更“腦對齊”
最直接的結(jié)果是:在維度相同、參數(shù)規(guī)模對齊的前提下,五層的未訓練 CNN 在各個輸出維度上都穩(wěn)定優(yōu)于未訓練的 Vision Transformer 和多層感知機(MLP)。隨著最后一層特征數(shù)從較小逐步擴展到近百萬維,三類模型的腦預測性能都在緩慢上升,但 CNN 的提升幅度最大,甚至逼近經(jīng)典預訓練模型 AlexNet 的水平,而 ViT 和 MLP 的收益有限。News & Views 中 Fig.1 右側(cè)通過“預測響應(yīng) vs 實際響應(yīng)”的相關(guān)性示意,直觀傳達了這種架構(gòu)差異:相同線性讀出、相同數(shù)據(jù)集下,只有 CNN 在“結(jié)構(gòu) + 維度擴張”的組合中,真正激活出了與皮層更對齊的隨機特征空間。
2. 維度擴張:把視網(wǎng)膜的“生物學竅門”搬進隨機網(wǎng)絡(luò)
這項研究的另一條主線,是把神經(jīng)系統(tǒng)中的維度擴張原則與深度網(wǎng)絡(luò)的架構(gòu)設(shè)計對應(yīng)起來:從視網(wǎng)膜到枕葉皮層,信號經(jīng)歷了空間上的壓縮和特征維度上的指數(shù)級擴張,而 CNN 中的池化(pooling)與通道數(shù)(channels)變化,正好實現(xiàn)了類似的“空間壓縮 + 特征擴張”的組合。原文中多組曲線圖展示:在不改變前面層結(jié)構(gòu)的情況下,單純增加 CNN 最后一層的特征數(shù)量,就能顯著提高對猴子和人類視覺皮層的預測性能;而對 ViT 或全連接網(wǎng)絡(luò)做同樣的維度擴張,收益卻非常有限。這說明,維度擴張不是萬能藥,只有放在卷積這種更接近生物視覺幾何約束的架構(gòu)里,才能真正轉(zhuǎn)化為“腦對齊”的增益。
3. 隨機網(wǎng)絡(luò)中的“先天表征”與隨機彩票假說
News & Views 把 Kazemian 等人的結(jié)果,與一系列“隨機 CNN 的奇妙能力”串聯(lián)起來:早期經(jīng)典工作已經(jīng)發(fā)現(xiàn),V1 皮層部分神經(jīng)元在視覺經(jīng)驗出現(xiàn)之前就具有方向選擇性;相對應(yīng)地,未經(jīng)訓練的 CNN 中也會自然冒出對人臉或特定物體類別選擇性的單元,這被稱為“隨機彩票(random lottery)假說”——即隨機初始化時就暗含著一批幸運的、接近真實任務(wù)需求的特征通道。 Kazemian 等人的結(jié)果進一步表明:當我們在 CNN 中加入模擬大腦的維度擴張,這些“先天表征”就有了一個更大、更合適的特征舞臺,能夠在不依賴大規(guī)模訓練的情況下,與靈長類視覺皮層的活動模式形成更高的一致性。這提示我們:追求生物學真實的神經(jīng)網(wǎng)絡(luò)模型,不能只看訓練終點,更要關(guān)心“隨機起點”的結(jié)構(gòu)特性。
4. 線性讀出不是萬能:腦–模型對齊指標本身也需要“對齊”
文章最后提出了一個很重要、卻常被忽略的警告:我們今天衡量“腦–模型對齊”的主流方法——線性回歸讀出,本身可能是一個“過于強大”的放大鏡。由于帶正則化的線性讀出可以在高維空間中自由重組特征,它有時能把本質(zhì)上截然不同的表示“擠”到類似的預測精度上,從而讓許多并不真正腦樣的模型,看起來也同樣“brain-like”。News & Views 呼吁,未來的工作需要給這些讀出增加更多約束(例如稀疏性、權(quán)重非負等),或者直接分析回歸權(quán)重的分布模式,去區(qū)分“由少量關(guān)鍵特征驅(qū)動”的真實對齊,和“由大量不相關(guān)特征湊出來”的偽對齊。再往前一步,作者指出:在無限寬度極限下,隨機網(wǎng)絡(luò)等價于高斯過程,其核函數(shù)直接由架構(gòu)決定,而這些核在神經(jīng)科學里正好可以視作表征相似性矩陣——這為從理論上推導“腦對齊核”打開了新路。
![]()
歸納總結(jié)和點評
綜合來看,這篇 News & Views 通過解讀 Kazemian 等人的工作,給 NeuroAI 社區(qū)傳遞了幾個清晰的信息:
第一,卷積結(jié)構(gòu)本身就蘊含著強烈的生物學歸納偏好,即便在完全未訓練狀態(tài)下,只要配合類似視網(wǎng)膜到皮層的維度擴張,就能逼近經(jīng)典任務(wù)驅(qū)動網(wǎng)絡(luò)的腦預測水平;
第二,大腦和模型的相似性不能只從終點表現(xiàn)看,更要從結(jié)構(gòu)先驗和隨機狀態(tài)出發(fā);
第三,腦–模型對齊的評估工具需要被同樣嚴肅地審視與約束,否則容易被線性讀出“帶偏”。
在大模型架構(gòu)百花齊放的今天,這篇文章提醒我們:真正“像大腦”的模型,未必是參數(shù)最多或最難訓練的那個,而是結(jié)構(gòu)和生物學約束最“對味”的那個——這對未來設(shè)計更可解釋、更高效的視覺模型和腦機接口,都有重要啟示。
![]()
AI 一句話銳評
在一切都想靠“更多數(shù)據(jù)、更大模型”取勝的時代,這項工作冷靜地補了一刀:也許最接近大腦的那一步,不在訓練集里,而藏在我們一開始如何寫下那幾行“卷積 + 池化 + 維度擴張”的架構(gòu)代碼中。
前沿交流|歡迎加入認知神經(jīng)科學前沿交流群!
![]()
核心圖表、方法細節(jié)、統(tǒng)計結(jié)果與討論見原文及其拓展數(shù)據(jù)。
分享人:BQ
審核:PsyBrain 腦心前沿編輯部
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.