<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      架構(gòu)解耦是統(tǒng)一多模態(tài)模型所必須的嗎?全新AIA損失:No

      0
      分享至



      近一年以來,統(tǒng)一理解與生成模型發(fā)展十分迅速,該任務(wù)的主要挑戰(zhàn)在于視覺理解和生成任務(wù)本身在網(wǎng)絡(luò)層間會產(chǎn)生沖突。早期的完全統(tǒng)一模型(如 Emu3)與單任務(wù)的方法差距巨大,Janus-Pro、BAGEL 通過一步一步解耦模型架構(gòu),極大地減小了與單任務(wù)模型的性能差距,后續(xù)方法甚至通過直接拼接現(xiàn)有理解和生成模型以達到極致的性能。

      香港中文大學(xué) MMLab 和美團的研究者相信,在不久的將來統(tǒng)一模型的性能一定能夠達到單任務(wù)的水平,但同時也引起了他們的思考,目前通過拆解架構(gòu)換取性能提升的方式真的是正確的嗎,它是否背離統(tǒng)一模型的初衷,它能夠提升性能的內(nèi)在原因又是什么,這種方式真的是統(tǒng)一模型必須的嗎?

      「統(tǒng)一模型的初衷」以及「 架構(gòu)解耦的缺點」

      統(tǒng)一理解生成模型的初衷是為了通過透明化、合理化的圖文交錯思考過程,提高單任務(wù)的性能,例如讓模型走迷宮時統(tǒng)一模型可以生成每一步對應(yīng)的圖像,可以在模型做數(shù)學(xué)題的時候給圖像畫上輔助線,或者是在生成一張圖像的時候邊畫邊思考有沒有生成不合理的地方并且自動修正,這些都是 Uni-MMMU 等當(dāng)前統(tǒng)一模型基準(zhǔn)所關(guān)注,也是它本身被獨立成一個領(lǐng)域的初衷。

      再回到架構(gòu)解耦的模型,例如 BAGEL 上,它本身如果要實現(xiàn)圖文交錯思考,需要經(jīng)歷隱空間解碼到文字或者像素空間,然后再編碼到隱空間的復(fù)雜過程,兩個任務(wù)也幾乎不在同一個模型空間中,具有計算開銷大、信息丟失兩大問題。雖然在當(dāng)前情況下相比于其可觀的性能,這個問題似乎并不顯著,但是研究者認為隨著研究的進行,這會是一個很大的問題。

      AIA: 模型架構(gòu)解耦不是統(tǒng)一模型必須的

      為了探究清楚「架構(gòu)解耦帶來性能提升的內(nèi)在原因」以及「探索不使用架構(gòu)解耦的前提下提升模型性能的方式」,香港中文大學(xué) MMLab 和美團聯(lián)合推出了 AIA。



      • 論文標(biāo)題:Architecture Decoupling Is Not All You Need For Unified Multimodal Model
      • 論文鏈接:https://arxiv.org/abs/2511.22663
      • 代碼:https://github.com/zhengdian1/AIA
      • 網(wǎng)頁:https://github.com/zhengdian1/AIA-project

      研究者首先通過研究不同架構(gòu)的統(tǒng)一模型在每一層網(wǎng)絡(luò)中跨模態(tài)交互的強度,他們驚訝地發(fā)現(xiàn)不管如何進行模型架構(gòu)解耦,理解和生成任務(wù)在同一層網(wǎng)絡(luò)中始終呈現(xiàn)負相關(guān)的關(guān)系,同時進一步驗證了這個現(xiàn)象與輸入的模態(tài)、長度和類別都沒有關(guān)系,這說明是模型自發(fā)在學(xué)習(xí)如何合理地分配兩個任務(wù)在每一層中的占比,從而 「緩解沖突」,這又說明架構(gòu)解耦本質(zhì)上并沒有解決任務(wù)之間沖突的問題。

      研究者進一步在最后一列可視化了現(xiàn)在單任務(wù) SOTA 的模型的多模態(tài)交互模式(HunyuanImage-3.0 雖然是統(tǒng)一模型,但更側(cè)重于生成效果),結(jié)果發(fā)現(xiàn)隨著模型解耦程度的增強,其對應(yīng)的跨模態(tài)交互模式會趨向于單任務(wù)的表現(xiàn),這也是能夠?qū)崿F(xiàn)性能提升的主要原因



      基于這個發(fā)現(xiàn),研究者設(shè)計了Attention Interaction Alignment (AIA) 損失,通過將單任務(wù)模型的跨模態(tài)交互模式作為學(xué)習(xí)目標(biāo),在訓(xùn)練的過程中顯式地約束統(tǒng)一模型的交互模式。

      AIA 效果如何?

      研究者在 Emu3 和 Janus-Pro 這兩種完全統(tǒng)一架構(gòu)、輕微模型解耦架構(gòu)上進行了實驗,如下表所示,結(jié)果表明本文的方法能夠在沒有任何其他 trick 的情況下提升這些模型的性能,減小了與更高解耦程度模型的差距。



      同時,研究者給出了使用 AIA 損失之后 Emu3 和 Janus-Pro 跨模態(tài)交互模式曲線變化,可以發(fā)現(xiàn)加入了 AIA 損失之后,兩個模型的交互曲線都向單任務(wù)模型的表現(xiàn)靠近了,既證明了 AIA 損失的有效性,同時也說明了模型架構(gòu)解耦不是唯一能夠提高統(tǒng)一模型性能的方式。

      當(dāng)然,研究者也承認在目前情況下完全統(tǒng)一的方法和高解耦程度的模型之間存在很大的差距,但正如 Emu3.5 的出現(xiàn),他們認為這個差距會越來越小。因此,研究者呼吁更多的人拋開表層的框架和數(shù)據(jù)配比,深入研究統(tǒng)一模型的任務(wù)沖突問題,尋找更優(yōu)的解法。

      AIA 好訓(xùn)嗎?

      由于 Emu3 只有預(yù)訓(xùn)練 (PT) 階段是統(tǒng)一訓(xùn)練的,因此研究者在其 PT 權(quán)重上進行微調(diào),而 Janus-Pro 給的是最終 SFT 微調(diào)后的權(quán)重,研究者在此基礎(chǔ)上進行后訓(xùn)練。

      研究者通過調(diào)整 AIA 損失與 next-token-prediction (NTP) 損失的比重來測試其微調(diào)的敏感度,結(jié)果發(fā)現(xiàn)訓(xùn)練 Emu3 的時候由于其預(yù)訓(xùn)練知識比較薄弱,AIA 損失在一個很大的范圍內(nèi)都能達到穩(wěn)定收斂的效果。而在 Janus-Pro 中,由于其本身預(yù)訓(xùn)練知識很強,AIA 的加入非常容易影響模型訓(xùn)練,但在合適的比重情況下仍然能夠達到不錯的效果。

      AIA 有什么優(yōu)勢?

      AIA 損失的加入可以一定程度上減少現(xiàn)在常見的數(shù)據(jù)配比工程問題,本文的方法在生成與理解數(shù)據(jù)配比在 1:1 的情況下能夠達到更好的效果,這說明在一定程度上兩個任務(wù)的訓(xùn)練不再是沖突的,產(chǎn)生了協(xié)同優(yōu)化的效果。

      統(tǒng)一模型訓(xùn)練的正確道路是什么?

      通過結(jié)合現(xiàn)在所有統(tǒng)一模型訓(xùn)練的問題以及本文的實驗分析,可以發(fā)現(xiàn)不管怎樣解耦模型,其始終會在統(tǒng)一訓(xùn)練的過程中動態(tài)分配不同任務(wù)在同一層的權(quán)重來緩解沖突,那這是否實際上代表了統(tǒng)一模型的正確行為



      另一條統(tǒng)一路徑是移除所有可以用來區(qū)分任務(wù)的線索(即采用統(tǒng)一分詞器、消除任務(wù)相關(guān)特殊 token、使用交錯數(shù)據(jù)數(shù)據(jù)輸入),迫使模型只能從輸入中學(xué)習(xí)真正的統(tǒng)一空間。雖然這種方法或許可以解決任務(wù)間的負相關(guān)問題,但也會顯著增加訓(xùn)練難度。

      未來展望

      AIA 邁出了統(tǒng)一模型訓(xùn)練原理分析的第一步,研究者希望能夠有更多志同道合的研究者加入這個領(lǐng)域的探索。統(tǒng)一模型現(xiàn)在的理論、架構(gòu)都遠遠沒有達到成熟,需要大家共同進行探索。同時研究者也希望大家能夠更加關(guān)注統(tǒng)一模型真正的意義,不要一味地關(guān)注當(dāng)前單任務(wù)基準(zhǔn)上的性能。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點推薦
      女子違停豎中指被撞,交警最新回應(yīng)來了!責(zé)任劃分引全網(wǎng)熱議

      女子違停豎中指被撞,交警最新回應(yīng)來了!責(zé)任劃分引全網(wǎng)熱議

      天天熱點見聞
      2026-01-23 12:57:06
      深入緬甸廢棄詐騙園區(qū)后,我發(fā)現(xiàn)這里最殘酷的真相

      深入緬甸廢棄詐騙園區(qū)后,我發(fā)現(xiàn)這里最殘酷的真相

      伯利塔BERITA
      2026-01-23 19:29:46
      千萬網(wǎng)紅“一栗小莎子”確診癌癥,不良惡習(xí)害了她,兒子不到兩歲

      千萬網(wǎng)紅“一栗小莎子”確診癌癥,不良惡習(xí)害了她,兒子不到兩歲

      以茶帶書
      2026-01-22 19:35:35
      尺度大到變態(tài),這新劇太重口了

      尺度大到變態(tài),這新劇太重口了

      天天美劇吧
      2026-01-23 20:37:50
      特朗普通告全球,不許減持美國國債;中方還剩6830億,游戲已結(jié)束

      特朗普通告全球,不許減持美國國債;中方還剩6830億,游戲已結(jié)束

      妙知
      2026-01-24 12:34:23
      46歲藍正龍悉尼被偶遇!造型邋遢似流浪漢,手提臺灣LV太搶眼

      46歲藍正龍悉尼被偶遇!造型邋遢似流浪漢,手提臺灣LV太搶眼

      史行途
      2026-01-23 15:57:57
      TOP14位身高170以上的女神,有顏有燈有演技

      TOP14位身高170以上的女神,有顏有燈有演技

      素然追光
      2026-01-02 02:45:02
      澳網(wǎng)女單16強全出爐:王欣瑜首進第二周,前8號種子僅1人掉隊

      澳網(wǎng)女單16強全出爐:王欣瑜首進第二周,前8號種子僅1人掉隊

      全景體育V
      2026-01-24 19:28:55
      21-15,24-22!陳雨菲KO手下敗將,2026年首進決賽,打破冠軍荒?

      21-15,24-22!陳雨菲KO手下敗將,2026年首進決賽,打破冠軍荒?

      劉姚堯的文字城堡
      2026-01-24 14:43:42
      云南省公安廳情報指揮中心合成作戰(zhàn)支隊支隊長袁滿榮接受紀(jì)律審查和監(jiān)察調(diào)查

      云南省公安廳情報指揮中心合成作戰(zhàn)支隊支隊長袁滿榮接受紀(jì)律審查和監(jiān)察調(diào)查

      昆明信息港
      2026-01-24 14:55:58
      胡宗南明知熊向暉是中共臥底卻不抓他,沈醉晚年回憶說出背后原因

      胡宗南明知熊向暉是中共臥底卻不抓他,沈醉晚年回憶說出背后原因

      飯小妹說歷史
      2026-01-07 09:30:45
      四大名著,終于有人敢說,這本,該踢出四大名著了

      四大名著,終于有人敢說,這本,該踢出四大名著了

      長風(fēng)文史
      2026-01-22 15:17:46
      挪威求救:每多吃一只帝王蟹都是在拯救地球!泛濫成災(zāi)還這么貴?

      挪威求救:每多吃一只帝王蟹都是在拯救地球!泛濫成災(zāi)還這么貴?

      北緯的咖啡豆
      2026-01-24 14:14:11
      上千艘中國船集結(jié)!長達467公里,日右翼恍然大悟,石破茂是對的

      上千艘中國船集結(jié)!長達467公里,日右翼恍然大悟,石破茂是對的

      boss外傳
      2026-01-23 20:00:03
      記者調(diào)查江蘇洪澤湖、駱馬湖非法捕撈:小魚直接被電死,不法分子用電舀擊打執(zhí)法人員致腦震蕩

      記者調(diào)查江蘇洪澤湖、駱馬湖非法捕撈:小魚直接被電死,不法分子用電舀擊打執(zhí)法人員致腦震蕩

      網(wǎng)絡(luò)易不易
      2026-01-24 12:50:51
      牛股業(yè)績出爐!300475、688233、300503,預(yù)計盈利大增

      牛股業(yè)績出爐!300475、688233、300503,預(yù)計盈利大增

      證券時報e公司
      2026-01-24 14:43:33
      6000米深海!日本重金開采稀土,剛動手就被中國一紙禁令“掐喉”

      6000米深海!日本重金開采稀土,剛動手就被中國一紙禁令“掐喉”

      素衣讀史
      2026-01-23 17:20:48
      比恒大還慘!中國第二大民企倒了,負債7500億,創(chuàng)始人被帶走

      比恒大還慘!中國第二大民企倒了,負債7500億,創(chuàng)始人被帶走

      芳芳歷史燴
      2025-12-25 20:32:52
      46名學(xué)者學(xué)術(shù)不端,被集中通報批評

      46名學(xué)者學(xué)術(shù)不端,被集中通報批評

      新京報政事兒
      2026-01-24 14:50:35
      臺軍女飛行員郭文靜:只要長官敢下令,我會毫不猶豫的擊落殲20!

      臺軍女飛行員郭文靜:只要長官敢下令,我會毫不猶豫的擊落殲20!

      顧史
      2026-01-21 21:04:39
      2026-01-24 21:12:49
      機器之心Pro incentive-icons
      機器之心Pro
      專業(yè)的人工智能媒體
      12179文章數(shù) 142549關(guān)注度
      往期回顧 全部

      科技要聞

      特斯拉Cybercrab即將落地 每公里不到1塊錢

      頭條要聞

      安徽女教師校內(nèi)宿舍病亡2天后才被發(fā)現(xiàn) 學(xué)校:建議起訴

      頭條要聞

      安徽女教師校內(nèi)宿舍病亡2天后才被發(fā)現(xiàn) 學(xué)校:建議起訴

      體育要聞

      當(dāng)家球星打替補,他們在故意擺爛?

      娛樂要聞

      回歸還是頂流 鳳凰傳奇將現(xiàn)身馬年春晚

      財經(jīng)要聞

      “百年老字號”張小泉遭60億債務(wù)壓頂

      汽車要聞

      有增程和純電版可選 日產(chǎn)NX8或于3-4月間上市

      態(tài)度原創(chuàng)

      房產(chǎn)
      游戲
      時尚
      數(shù)碼
      軍事航空

      房產(chǎn)要聞

      正式官宣!三亞又一所名校要來了!

      踢球還能爆衣?這款足球新游還是太懂玩家了

      冬天最佳“顯瘦”公式:上短+下長

      數(shù)碼要聞

      技嘉推出鏡面WOLED顯示器GO27Q24G:27英寸QHD 240Hz

      軍事要聞

      俄美烏首次三方會談在阿聯(lián)酋舉行

      無障礙瀏覽 進入關(guān)懷版 主站蜘蛛池模板: 国产亚洲欧洲AⅤ综合一区| 久久精品国产2020| 2025中文无码| 秘密教学57薇娅求子豪免费| 三上悠亚日韩精品二区| 亚洲中文字幕日产无码2020| 中文字幕无码免费久久| 日韩无码2020| 亚洲成人日韩| 精品?国产区一区二| 中文字幕无码一区二区三四区| 日日碰狠狠添天天爽五月婷| 成人自拍偷拍| 疯狂三人交性欧美| 最新日韩无码中文字幕| 精品成人中文无码专区| 日本极品少妇videossexhd| 欧美精品1区| 亚洲老妈激情一区二区三区| 91色爱欧美精品www| 国产精品久久精品国产| 久热99re在线无码一区| 精品人妻一区| 影音先锋你懂得| 后入内射欧美99二区视频| 午夜免费视频国产在线| 欧洲人与动牲交α欧美精品| 午夜在线不卡| 中文字幕一区二区三区乱码不卡| 午夜羞羞影院男女爽爽爽| 永川市| 成在线人免费| 51自拍视频| 久久精品人人做人人综合试看| 人妻人久久精品中文字幕| 97精品综合久久| 狠狠躁夜夜躁人人爽天天5| 91九色系列视频在线国产| 亚洲午夜亚洲精品国产成人| 久久99精品国产99久久6尤物| 色婷婷婷丁香亚洲综合|