<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      1100多個模型殊途同歸,指向一個通用子空間,柏拉圖又贏一回?

      0
      分享至



      機器之心報道

      編輯:張倩

      模型架構(gòu)的重要性可能遠超我們之前的認知。

      最近,約翰斯?霍普金斯大學的一項研究發(fā)現(xiàn):1100 多個不同的神經(jīng)網(wǎng)絡,即使在完全不同的數(shù)據(jù)集上訓練、用不同的初始化和超參數(shù),最終學到的權(quán)重都會收斂到一個共享的低維子空間。

      這似乎是說明:存在一個「先驗的」數(shù)學結(jié)構(gòu),所有神經(jīng)網(wǎng)絡都在逼近它。訓練不是在「創(chuàng)造」什么,而是在「發(fā)現(xiàn)」一個早已存在的幾何形式。換句話說,神經(jīng)網(wǎng)絡「想學的東西」似乎高度一致,架構(gòu)決定了它能學什么,比數(shù)據(jù)影響更大。



      這一發(fā)現(xiàn)有助于解釋很多「神秘」現(xiàn)象,比如為什么過參數(shù)化的模型(參數(shù)遠多于訓練樣本)還能泛化?為什么不同初始化最終學到相似的表示?為什么 LoRA、權(quán)重共享這些技術能 work?如果神經(jīng)網(wǎng)絡確實在共享子空間內(nèi)學習,這將為隱式正則化、可遷移性以及稀疏訓練方法的有效性提供支持性解釋,同時也為諸如高效合并、新的優(yōu)化技術、更快更高效的學習和推理等應用開辟道路。



      • 論文標題:THE UNIVERSAL WEIGHT SUBSPACE HYPOTHESIS
      • 論文鏈接:https://www.arxiv.org/pdf/2512.05117

      這篇論文在 Alphaxiv、X 等平臺上吸引了很多關注,一度攀升到 Alphaxiv 榜一的位置。



      有人說,柏拉圖又贏了一回。(注:柏拉圖的理念論認為:我們看到的具體事物(桌子、馬、圓形)都只是「理念」(Forms/Ideas)的不完美投影。真正的、完美的圓存在于一個抽象的理念世界,現(xiàn)實中的圓只是對它的模仿。其核心主張是:抽象結(jié)構(gòu)先于具體實例。)



      也有人從中讀出了一些令人擔憂的信號:如果所有模型都收斂到同一個子空間,那意味著當前架構(gòu)存在內(nèi)在的天花板,再多的數(shù)據(jù)和算力也只是在同一個「盆地」里打轉(zhuǎn)。



      論文概覽

      在具體研究中,作者首先聚焦于 LoRA 適配器,因其易于訓練且能大量收集,在 Mistral-7B 模型的約 500 個適配器中觀察到了通用子空間的涌現(xiàn)。隨后,研究擴展到完整權(quán)重空間,從約 500 個 Vision Transformer 和 50 個 LLaMA3-8B 模型中提取出相似的低秩通用子空間,這些模型各自使用不同數(shù)據(jù)集和初始化方式訓練。



      此前已有多條線索暗示這一現(xiàn)象:神經(jīng)正切核理論表明,在無限寬度極限下,網(wǎng)絡訓練動態(tài)由一個與具體任務基本無關的核函數(shù)主導;機制可解釋性研究在視覺網(wǎng)絡的特定層中發(fā)現(xiàn)了反復出現(xiàn)的電路模式;彩票假說和模式連通性也指向可復用的低維結(jié)構(gòu);早在 2012 年就有人觀察到,卷積網(wǎng)絡第一層在各種視覺任務中都會學到類 Gabor 濾波器。但這些工作要么聚焦于表示層面,要么未涉及不同模型間參數(shù)性質(zhì)的收斂。

      這項研究的獨特之處在于:首次在權(quán)重層面提供了具體證據(jù)和明確通用假設,為深度神經(jīng)網(wǎng)絡參數(shù)空間中 「通用性」的存在提供了最為嚴謹?shù)膶嵶C證據(jù)。

      盡管這種通用性的根本成因仍有待探索,但即便是初步理解也具有深遠意義。共享子空間有望實現(xiàn):大規(guī)模模型壓縮(只需存儲子空間系數(shù)而非完整權(quán)重)、在已學習子空間內(nèi)快速適應新任務、對泛化邊界和優(yōu)化景觀的理論洞察,以及通過減少訓練和推理計算需求帶來的環(huán)境效益。此外,這種幾何通用性也為研究泛化、頓悟(grokking)、災難性遺忘和數(shù)據(jù)效率等基本問題提供了新視角。

      作者也坦承了若干開放問題:不同架構(gòu)的通用子空間如何相互區(qū)別?能否通過顯式設計架構(gòu)來優(yōu)化子空間的幾何結(jié)構(gòu)?更根本的是,如果所有網(wǎng)絡都坍縮到同一子空間,它們就會繼承共同的偏見、能力邊界和失效模式 —— 這種多樣性的缺失本身是否構(gòu)成了一個根本瓶頸?是否應該開發(fā)專門用于打破這種收斂的方法?

      方法與結(jié)果概覽

      作者證明,與架構(gòu)相關、逐層分布的通用子空間在各類神經(jīng)模型中持續(xù)涌現(xiàn)。無論模型是從頭訓練、完全微調(diào)還是通過低秩方法適配,對通用子空間假說的遵循都表現(xiàn)穩(wěn)健,未見顯著偏離。這一現(xiàn)象在不同的初始化策略、模態(tài)、數(shù)據(jù)格式和數(shù)據(jù)集內(nèi)容之間保持不變。

      值得注意的是,所提取子空間的精度與可用模型的數(shù)量和質(zhì)量相關。基于此,作者推測每種架構(gòu)內(nèi)在地存在一個「理想」通用子空間,各個模型實例都在向其收斂。作者假設,更優(yōu)的算法、更干凈的數(shù)據(jù)和更有效的優(yōu)化策略能使模型更接近這一理想狀態(tài)。盡管本文未正式驗證「理想通用子空間」假說,但作者認為這一子空間代表了當代反向傳播訓練的神經(jīng)網(wǎng)絡最穩(wěn)定的配置,因此這一規(guī)則的例外情況可能為進一步的研究提供沃土。

      分析方法

      由于目前尚無方法能夠比較不同架構(gòu)模型的子空間,作者聚焦于在同一架構(gòu)上訓練的大量模型,對 LoRA 適配器以及 Transformer 和 CNN 的經(jīng)典權(quán)重進行分析。除非另有說明,所有實驗僅執(zhí)行 1-2 階的高階奇異值分解(HOSVD),以確保方法在最簡單情況下也能奏效。譜分析依賴高效的譜分解庫,甚至可在 CPU 上運行,作者的所有分析和實驗均在單塊 Nvidia A5000 GPU 上完成。通過對數(shù)千個公開可用模型進行分析,作者無需任何訓練成本即可提取通用子空間。

      以下是作者所實現(xiàn)的算法:



      聯(lián)合子空間分析結(jié)果

      在 CNN 實驗中,作者從隨機初始化開始,在五個互不重疊的數(shù)據(jù)集(CIFAR-10、CIFAR-100、ImageNet、Oxford-IIIT Pets 和 EuroSAT)上訓練 ResNet-50 進行圖像分類。盡管理論分析表明少量模型可能導致對聯(lián)合通用子空間的欠近似,但從頭訓練 CNN 的規(guī)模限制了可納入研究的模型數(shù)量。

      即便如此,對 ResNet-50 所有層的平均解釋方差(圖 2b)分析揭示了一個跨越這些不相交任務的獨特共享低秩結(jié)構(gòu):大部分信息僅存在于 16 個(或更少)不同的子空間方向中。此外,將模型投影到這一子空間以獲得低秩 ResNet-50(從而減少參數(shù))后,其性能相對于完全微調(diào)仍具競爭力,進一步支持了聯(lián)合子空間的存在和實用性(圖 2a)。



      為進行更大規(guī)模的真實世界實驗,作者選擇對 LoRA 模型進行子空間分析,因為它們在公共領域大量存在。鑒于 LoRA 模型明確捕獲任務特定方向且與原始權(quán)重對齊較弱,它們是驗證假說的良好替代。

      在首個實驗中,作者使用基于 Mistral-7B-Instruct-v0.2 訓練的 500 個自然指令任務的 LoRA 模型,每個 LoRA 單獨至少為 16 秩。分析結(jié)果(圖 3)顯示,所有 500 個模型的參數(shù)都可被一個有限的低秩子空間良好近似,且這一模式在所有層中一致存在。



      為測試通用子空間的表達能力,作者通過將隨機選擇的已見(IID)和未見(OOD)任務的 LoRA 參數(shù)投影到通用子空間來解析重構(gòu)它們,結(jié)果(圖 4)表明通用子空間模型在兩種情況下都表現(xiàn)穩(wěn)健。作為對照,使用譜分解剩余分量(稱為次級子空間)重做實驗時,性能大幅落后。值得一提的是,通用子空間模型的內(nèi)存效率提升了 19 倍,因為不再需要保存全部 500 個 LoRA。



      接下來,作者進一步將分析擴展到使用 Stable Diffusion-XL 的文生圖任務。從 HuggingFace 上公開可用的 LoRA 中提取通用子空間后,將單個 LoRA 投影到該子空間,生成的圖像保持了視覺質(zhì)量和風格(圖 5)。



      基于 CLIP 的評估顯示,通用子空間在某些情況下甚至優(yōu)于單個 LoRA,這可能歸因于先前研究中觀察到的去噪效應。



      為測試將多個模型壓縮到單一通用子空間的能力,作者將其方法與最先進的模型合并方法進行比較,包括 RegMean、Task Arithmetic、TIES、DARE-TIES、KnOTS-TIES 和 KnOTS-DARE-TIES。這些基線方法通常需要調(diào)整縮放系數(shù)、剪枝閾值或在驗證集上進行迭代調(diào)優(yōu)。

      相比之下,通用子空間方法僅基于跨模型識別的共享低秩子空間的幾何結(jié)構(gòu)來解析計算合并系數(shù),無需迭代調(diào)優(yōu)或驗證數(shù)據(jù)。由于子空間本質(zhì)上是低秩的,合并后的模型參數(shù)顯著少于任何單個模型。實驗結(jié)果(表 2)表明,該方法在降低參數(shù)數(shù)量的同時取得了更高的平均準確率,實現(xiàn)了無需啟發(fā)式剪枝或驗證開銷的可擴展、穩(wěn)健的模型合并。



      總而言之,這四組實驗為通用子空間假說提供了強有力的實證支持,并展示了其在內(nèi)存效率、模型合并、模型可復用性以及跨任務跨模態(tài)可擴展部署方面的實際優(yōu)勢。

      不過,也有人提醒說,這篇論文雖然有價值,但結(jié)論需要經(jīng)過更加嚴格的驗證。首先,任務多樣性不夠真實,研究沒有在真正異質(zhì)的任務(如 MIDI 生成、英語文本、MNIST 像素生成)之間尋找共享子空間,所以發(fā)現(xiàn)的可能只是「任務子宇宙特定的子空間」而非真正的通用子空間;二是沒有跨架構(gòu)比較的方法,無法聲稱 ViT 和 LLaMA3 擁有相同子空間。



      為什么通用子空間會涌現(xiàn)?

      在論文中,作者對于通用子空間涌現(xiàn)的原因也給出了自己的推論。他們認為,若干理論因素可能促成了這些共享結(jié)構(gòu)的出現(xiàn)。

      首先,神經(jīng)網(wǎng)絡已知表現(xiàn)出對低頻函數(shù)的譜偏好,產(chǎn)生特征值的多項式衰減,從而將學習動態(tài)集中到少數(shù)主導方向上。其次,現(xiàn)代架構(gòu)施加了強烈的歸納偏置,約束了解空間:卷積結(jié)構(gòu)天然偏好局部的、類 Gabor 模式,而注意力機制則優(yōu)先處理反復出現(xiàn)的關系回路。第三,基于梯度的優(yōu)化方法的普遍性 —— 在無限寬度極限下由與具體任務基本無關的核函數(shù)主導 —— 內(nèi)在地偏好平滑解,將多樣的學習軌跡引導向共享的幾何流形。

      如果這些假說成立,通用子空間很可能捕獲了超越特定任務的基本計算模式,這或許能解釋遷移學習的有效性,以及為何多樣化的問題往往能從相似的架構(gòu)改進中受益。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      國安部提醒!手機APP非必要不授權(quán)位置權(quán)限

      國安部提醒!手機APP非必要不授權(quán)位置權(quán)限

      看看新聞Knews
      2025-12-14 15:48:03
      韓媒:金與正手持最新款折疊手機,疑似中國品牌

      韓媒:金與正手持最新款折疊手機,疑似中國品牌

      隨波蕩漾的漂流瓶
      2025-12-15 10:49:46
      一個經(jīng)濟學家比較了中美特斯拉工廠的生產(chǎn)效率,結(jié)果讓大家都震驚了……

      一個經(jīng)濟學家比較了中美特斯拉工廠的生產(chǎn)效率,結(jié)果讓大家都震驚了……

      風向觀察
      2025-12-14 13:01:44
      大勢已去!江蘇老板突然反悔,國資宣布協(xié)議作廢,5000人徹底絕望

      大勢已去!江蘇老板突然反悔,國資宣布協(xié)議作廢,5000人徹底絕望

      壹只灰鴿子
      2025-12-14 23:31:33
      難以置信!上海徐匯區(qū)某街道招聘9名社工,報名600多人,堪比公考

      難以置信!上海徐匯區(qū)某街道招聘9名社工,報名600多人,堪比公考

      火山詩話
      2025-12-15 04:56:43
      蘋果 5 大新品曝光,迎來重大更新

      蘋果 5 大新品曝光,迎來重大更新

      科技堡壘
      2025-12-12 12:41:53
      平頂山28歲女老師婚禮前墜亡!絕筆信戳穿死因,遺體晾曬無人管!

      平頂山28歲女老師婚禮前墜亡!絕筆信戳穿死因,遺體晾曬無人管!

      天天熱點見聞
      2025-12-14 08:19:11
      午評:滬指低開高走跌0.11% 中國平安漲近5%創(chuàng)四年多新高

      午評:滬指低開高走跌0.11% 中國平安漲近5%創(chuàng)四年多新高

      財聯(lián)社
      2025-12-15 11:33:05
      中國乒協(xié)出面道歉!張本智和抗議有效,聲稱不會忘記經(jīng)歷的這一切

      中國乒協(xié)出面道歉!張本智和抗議有效,聲稱不會忘記經(jīng)歷的這一切

      十點街球體育
      2025-12-15 00:10:02
      亂港民主黨解散清盤

      亂港民主黨解散清盤

      環(huán)球時報國際
      2025-12-15 08:58:56
      亞運會金牌得主舉報訓練基地主任“索要比賽獎金” 當?shù)伢w育局:關注到舉報,正在核查

      亞運會金牌得主舉報訓練基地主任“索要比賽獎金” 當?shù)伢w育局:關注到舉報,正在核查

      極目新聞
      2025-12-15 10:47:04
      何晴告別式現(xiàn)場,前夫許亞軍疑似現(xiàn)身雙眼泛紅,大量群眾自發(fā)悼念

      何晴告別式現(xiàn)場,前夫許亞軍疑似現(xiàn)身雙眼泛紅,大量群眾自發(fā)悼念

      萌神木木
      2025-12-15 11:18:27
      專家:無糖飲料長期大量飲用之后,你就會肥胖體重降不下來

      專家:無糖飲料長期大量飲用之后,你就會肥胖體重降不下來

      映射生活的身影
      2025-12-14 22:58:24
      女教師結(jié)婚墜亡后續(xù):婚紗照眼神無光,村干部透露女方家條件很好

      女教師結(jié)婚墜亡后續(xù):婚紗照眼神無光,村干部透露女方家條件很好

      知法而形
      2025-12-15 09:23:16
      26歲史上最年輕博導,原來取的是馬克思的真經(jīng)

      26歲史上最年輕博導,原來取的是馬克思的真經(jīng)

      基本常識
      2025-12-14 23:09:22
      創(chuàng)紀錄!籃網(wǎng)9人上雙狂勝雄鹿45分 小波特無緣連5場30+

      創(chuàng)紀錄!籃網(wǎng)9人上雙狂勝雄鹿45分 小波特無緣連5場30+

      醉臥浮生
      2025-12-15 09:16:54
      痛心!山東知名網(wǎng)紅“謝爾比”去世,享年86歲,上個月剛過完生日

      痛心!山東知名網(wǎng)紅“謝爾比”去世,享年86歲,上個月剛過完生日

      裕豐娛間說
      2025-12-14 21:46:52
      本要“打老虎”,結(jié)果審計沉默了!南京醫(yī)生匿名14年墊50萬醫(yī)藥費

      本要“打老虎”,結(jié)果審計沉默了!南京醫(yī)生匿名14年墊50萬醫(yī)藥費

      墨蘭史書
      2025-12-15 06:10:03
      亞運三金得主運動員王莉,實名舉報獲獎歸來竟被領導索要獎金

      亞運三金得主運動員王莉,實名舉報獲獎歸來竟被領導索要獎金

      回旋鏢
      2025-12-14 22:01:43
      410次開房記錄流出:央企“女老虎”陶荔芳,背后還有多少同伙

      410次開房記錄流出:央企“女老虎”陶荔芳,背后還有多少同伙

      深度報
      2025-12-14 22:36:54
      2025-12-15 12:39:00
      機器之心Pro incentive-icons
      機器之心Pro
      專業(yè)的人工智能媒體
      11911文章數(shù) 142509關注度
      往期回顧 全部

      科技要聞

      平價數(shù)碼產(chǎn)品,要和我們說再見了?

      頭條要聞

      媒體:賴清德將砍出第三板斧 對臺灣的影響是致命的

      頭條要聞

      媒體:賴清德將砍出第三板斧 對臺灣的影響是致命的

      體育要聞

      戰(zhàn)勝完全體雷霆,馬刺“瘋狂動物城”只是半成品

      娛樂要聞

      黃綺珊在何晴去世首發(fā),10年悄悄祈福

      財經(jīng)要聞

      新會陳皮亂象曝光:產(chǎn)地造假、年份速成

      汽車要聞

      奔馳小G諜照,或搭混動或燃油動力

      態(tài)度原創(chuàng)

      家居
      房產(chǎn)
      健康
      藝術
      軍事航空

      家居要聞

      溫暖色調(diào) 大空間不冷清

      房產(chǎn)要聞

      6.66億摘地,海南封關大動作,千畝海澄新城震撼登場

      甲狀腺結(jié)節(jié)到這個程度,該穿刺了!

      藝術要聞

      砸50億!369米!洛陽第一高樓“龍塔”,為何爛尾成公園?

      軍事要聞

      澤連斯基稱烏方已妥協(xié)不加入北約 俄方發(fā)聲

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 成人3d动漫一区二区三区| 无码无码无码| 定南县| 国产成人无码www免费视频播放| 曰本无码人妻丰满熟妇啪啪| 亚洲中文字幕无码专区| 中文字幕无码传媒| 福利在线视频导航| 国产高清一区二区三区视频| 午夜一区欧美二区高清三区| 色77777| 亚洲精品色欲| 欧美日一本| 国产乱码精品一区二区三区中文| 久国产精品韩国三级视频| 国产在线你懂| 国产91人妻人伦a8198v久| 麻豆国产va免费精品高清在线| 麻豆国产va免费精品高清在线| 不卡的无码AV| 天天躁日日躁人妻久久澡| 色欲人妻综合网站| www夜插内射视频网站| 国产 麻豆 日韩 欧美 久久| 东京热大乱w姦| 精品无码毛片| 无码av中文一区二区三区桃花岛| 果冻传媒一区| 一出一进一爽一粗一大视频| 精品人妻V| 国产九九视频在线播放| 99久久国产综合精品1| 国产一区二区日韩在线| 91pao| 亚洲成熟女人毛毛耸耸多| 男人靠女人免费视频网站| 亚洲精品电影院| 婷婷有码| 亚洲综合无码一区二区| 国产精品天干天干| 内射在线播放|