<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      架構(gòu)解耦是統(tǒng)一多模態(tài)模型所必須的嗎?全新AIA損失:No

      0
      分享至



      近一年以來,統(tǒng)一理解與生成模型發(fā)展十分迅速,該任務的主要挑戰(zhàn)在于視覺理解和生成任務本身在網(wǎng)絡(luò)層間會產(chǎn)生沖突。早期的完全統(tǒng)一模型(如 Emu3)與單任務的方法差距巨大,Janus-Pro、BAGEL 通過一步一步解耦模型架構(gòu),極大地減小了與單任務模型的性能差距,后續(xù)方法甚至通過直接拼接現(xiàn)有理解和生成模型以達到極致的性能。

      香港中文大學 MMLab 和美團的研究者相信,在不久的將來統(tǒng)一模型的性能一定能夠達到單任務的水平,但同時也引起了他們的思考,目前通過拆解架構(gòu)換取性能提升的方式真的是正確的嗎,它是否背離統(tǒng)一模型的初衷,它能夠提升性能的內(nèi)在原因又是什么,這種方式真的是統(tǒng)一模型必須的嗎?

      「統(tǒng)一模型的初衷」以及「 架構(gòu)解耦的缺點」

      統(tǒng)一理解生成模型的初衷是為了通過透明化、合理化的圖文交錯思考過程,提高單任務的性能,例如讓模型走迷宮時統(tǒng)一模型可以生成每一步對應的圖像,可以在模型做數(shù)學題的時候給圖像畫上輔助線,或者是在生成一張圖像的時候邊畫邊思考有沒有生成不合理的地方并且自動修正,這些都是 Uni-MMMU 等當前統(tǒng)一模型基準所關(guān)注,也是它本身被獨立成一個領(lǐng)域的初衷。

      再回到架構(gòu)解耦的模型,例如 BAGEL 上,它本身如果要實現(xiàn)圖文交錯思考,需要經(jīng)歷隱空間解碼到文字或者像素空間,然后再編碼到隱空間的復雜過程,兩個任務也幾乎不在同一個模型空間中,具有計算開銷大、信息丟失兩大問題。雖然在當前情況下相比于其可觀的性能,這個問題似乎并不顯著,但是研究者認為隨著研究的進行,這會是一個很大的問題。

      AIA: 模型架構(gòu)解耦不是統(tǒng)一模型必須的

      為了探究清楚「架構(gòu)解耦帶來性能提升的內(nèi)在原因」以及「探索不使用架構(gòu)解耦的前提下提升模型性能的方式」,香港中文大學 MMLab 和美團聯(lián)合推出了 AIA。



      • 論文標題:Architecture Decoupling Is Not All You Need For Unified Multimodal Model
      • 論文鏈接:https://arxiv.org/abs/2511.22663
      • 代碼:https://github.com/zhengdian1/AIA
      • 網(wǎng)頁:https://github.com/zhengdian1/AIA-project

      研究者首先通過研究不同架構(gòu)的統(tǒng)一模型在每一層網(wǎng)絡(luò)中跨模態(tài)交互的強度,他們驚訝地發(fā)現(xiàn)不管如何進行模型架構(gòu)解耦,理解和生成任務在同一層網(wǎng)絡(luò)中始終呈現(xiàn)負相關(guān)的關(guān)系,同時進一步驗證了這個現(xiàn)象與輸入的模態(tài)、長度和類別都沒有關(guān)系,這說明是模型自發(fā)在學習如何合理地分配兩個任務在每一層中的占比,從而 「緩解沖突」,這又說明架構(gòu)解耦本質(zhì)上并沒有解決任務之間沖突的問題。

      研究者進一步在最后一列可視化了現(xiàn)在單任務 SOTA 的模型的多模態(tài)交互模式(HunyuanImage-3.0 雖然是統(tǒng)一模型,但更側(cè)重于生成效果),結(jié)果發(fā)現(xiàn)隨著模型解耦程度的增強,其對應的跨模態(tài)交互模式會趨向于單任務的表現(xiàn),這也是能夠?qū)崿F(xiàn)性能提升的主要原因



      基于這個發(fā)現(xiàn),研究者設(shè)計了Attention Interaction Alignment (AIA) 損失,通過將單任務模型的跨模態(tài)交互模式作為學習目標,在訓練的過程中顯式地約束統(tǒng)一模型的交互模式。

      AIA 效果如何?

      研究者在 Emu3 和 Janus-Pro 這兩種完全統(tǒng)一架構(gòu)、輕微模型解耦架構(gòu)上進行了實驗,如下表所示,結(jié)果表明本文的方法能夠在沒有任何其他 trick 的情況下提升這些模型的性能,減小了與更高解耦程度模型的差距。



      同時,研究者給出了使用 AIA 損失之后 Emu3 和 Janus-Pro 跨模態(tài)交互模式曲線變化,可以發(fā)現(xiàn)加入了 AIA 損失之后,兩個模型的交互曲線都向單任務模型的表現(xiàn)靠近了,既證明了 AIA 損失的有效性,同時也說明了模型架構(gòu)解耦不是唯一能夠提高統(tǒng)一模型性能的方式。

      當然,研究者也承認在目前情況下完全統(tǒng)一的方法和高解耦程度的模型之間存在很大的差距,但正如 Emu3.5 的出現(xiàn),他們認為這個差距會越來越小。因此,研究者呼吁更多的人拋開表層的框架和數(shù)據(jù)配比,深入研究統(tǒng)一模型的任務沖突問題,尋找更優(yōu)的解法。

      AIA 好訓嗎?

      由于 Emu3 只有預訓練 (PT) 階段是統(tǒng)一訓練的,因此研究者在其 PT 權(quán)重上進行微調(diào),而 Janus-Pro 給的是最終 SFT 微調(diào)后的權(quán)重,研究者在此基礎(chǔ)上進行后訓練。

      研究者通過調(diào)整 AIA 損失與 next-token-prediction (NTP) 損失的比重來測試其微調(diào)的敏感度,結(jié)果發(fā)現(xiàn)訓練 Emu3 的時候由于其預訓練知識比較薄弱,AIA 損失在一個很大的范圍內(nèi)都能達到穩(wěn)定收斂的效果。而在 Janus-Pro 中,由于其本身預訓練知識很強,AIA 的加入非常容易影響模型訓練,但在合適的比重情況下仍然能夠達到不錯的效果。

      AIA 有什么優(yōu)勢?

      AIA 損失的加入可以一定程度上減少現(xiàn)在常見的數(shù)據(jù)配比工程問題,本文的方法在生成與理解數(shù)據(jù)配比在 1:1 的情況下能夠達到更好的效果,這說明在一定程度上兩個任務的訓練不再是沖突的,產(chǎn)生了協(xié)同優(yōu)化的效果。

      統(tǒng)一模型訓練的正確道路是什么?

      通過結(jié)合現(xiàn)在所有統(tǒng)一模型訓練的問題以及本文的實驗分析,可以發(fā)現(xiàn)不管怎樣解耦模型,其始終會在統(tǒng)一訓練的過程中動態(tài)分配不同任務在同一層的權(quán)重來緩解沖突,那這是否實際上代表了統(tǒng)一模型的正確行為



      另一條統(tǒng)一路徑是移除所有可以用來區(qū)分任務的線索(即采用統(tǒng)一分詞器、消除任務相關(guān)特殊 token、使用交錯數(shù)據(jù)數(shù)據(jù)輸入),迫使模型只能從輸入中學習真正的統(tǒng)一空間。雖然這種方法或許可以解決任務間的負相關(guān)問題,但也會顯著增加訓練難度。

      未來展望

      AIA 邁出了統(tǒng)一模型訓練原理分析的第一步,研究者希望能夠有更多志同道合的研究者加入這個領(lǐng)域的探索。統(tǒng)一模型現(xiàn)在的理論、架構(gòu)都遠遠沒有達到成熟,需要大家共同進行探索。同時研究者也希望大家能夠更加關(guān)注統(tǒng)一模型真正的意義,不要一味地關(guān)注當前單任務基準上的性能。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點推薦
      安卓首款闊折疊!三星Galaxy Z Fold8 Wide來了:對標華為

      安卓首款闊折疊!三星Galaxy Z Fold8 Wide來了:對標華為

      快科技
      2026-04-25 21:19:26
      李小冉問鐘漢良:我能演《蜜語紀》許蜜語嗎?朱珠的回復超搞笑

      李小冉問鐘漢良:我能演《蜜語紀》許蜜語嗎?朱珠的回復超搞笑

      TVB的四小花
      2026-04-26 20:16:58
      新加坡外長公開表態(tài):如果必須站隊,不選美國也不能選中國

      新加坡外長公開表態(tài):如果必須站隊,不選美國也不能選中國

      熱點大放送
      2026-04-25 20:27:59
      10萬億窟窿!比恒大更坑的民企來了,曾力壓許家印,位居第一

      10萬億窟窿!比恒大更坑的民企來了,曾力壓許家印,位居第一

      孤單是寂寞的毒
      2026-03-04 15:38:03
      麥克法蘭:想給桑切斯更多傳球選擇,而不是總讓他被迫打地面

      麥克法蘭:想給桑切斯更多傳球選擇,而不是總讓他被迫打地面

      懂球帝
      2026-04-27 00:59:03
      中國最危險的“淀粉崇拜”!不吃米飯哪有力氣?這套農(nóng)耕廢物邏輯害慘了現(xiàn)代人

      中國最危險的“淀粉崇拜”!不吃米飯哪有力氣?這套農(nóng)耕廢物邏輯害慘了現(xiàn)代人

      知識圈
      2026-04-25 20:46:53
      黑衣美女,顏值真高

      黑衣美女,顏值真高

      藍色海洋009
      2026-04-24 21:32:46
      比披絲巾更可怕的是“瑜伽褲外穿”,廉價又卡襠,三角區(qū)更尷尬

      比披絲巾更可怕的是“瑜伽褲外穿”,廉價又卡襠,三角區(qū)更尷尬

      生命之泉的奧秘
      2026-03-20 03:56:49
      黃一鳴閉口不回應!蘇易陸再爆猛料,60歲李姓老人被黃備注為爸爸

      黃一鳴閉口不回應!蘇易陸再爆猛料,60歲李姓老人被黃備注為爸爸

      小娛樂悠悠
      2026-04-26 11:23:47
      麻省理工科技評論:DeepSeek新版本V4之所以重要,有三個原因

      麻省理工科技評論:DeepSeek新版本V4之所以重要,有三個原因

      我不叫阿哏
      2026-04-25 18:00:26
      39歲前國腳現(xiàn)狀:定居美國踢野球,早已財富自由,有2個可愛女兒

      39歲前國腳現(xiàn)狀:定居美國踢野球,早已財富自由,有2個可愛女兒

      攬星河的筆記
      2026-04-14 15:18:30
      暴雨大暴雨,又要來了!

      暴雨大暴雨,又要來了!

      齊魯壹點
      2026-04-26 16:49:13
      美高官:先打中國再打朝鮮,打不過就核戰(zhàn),只因中國火箭軍太強大

      美高官:先打中國再打朝鮮,打不過就核戰(zhàn),只因中國火箭軍太強大

      君笙拂兮啊
      2026-04-25 22:38:25
      阿聯(lián)酋突然曝出新聞:美以這回捅了馬蜂窩

      阿聯(lián)酋突然曝出新聞:美以這回捅了馬蜂窩

      三石記
      2026-04-23 16:40:49
      中國人口絕不能到億級體量之下

      中國人口絕不能到億級體量之下

      文青大叔說
      2026-03-08 09:19:26
      5月醫(yī)療反腐新規(guī)落地!回扣3萬直接入刑,倒查5年大案件追溯20年

      5月醫(yī)療反腐新規(guī)落地!回扣3萬直接入刑,倒查5年大案件追溯20年

      芳姐侃社會
      2026-04-26 19:53:17
      《黑夜告白》開播!觀眾要求下架,理由:故弄玄虛、掛羊頭賣狗肉

      《黑夜告白》開播!觀眾要求下架,理由:故弄玄虛、掛羊頭賣狗肉

      趣味八卦
      2026-04-26 16:30:17
      炸鍋!張藝謀監(jiān)制王炸劇官宣定檔,央視八套+騰訊獨播,劇迷集體狂歡

      炸鍋!張藝謀監(jiān)制王炸劇官宣定檔,央視八套+騰訊獨播,劇迷集體狂歡

      陳意小可愛
      2026-04-27 00:33:44
      美著名學者提醒美軍:殲-36是中國戰(zhàn)略圈套

      美著名學者提醒美軍:殲-36是中國戰(zhàn)略圈套

      星星會墜落
      2026-04-26 12:06:39
      廣東省最厲害的八個醫(yī)院科室

      廣東省最厲害的八個醫(yī)院科室

      白宸侃片
      2026-04-20 11:30:58
      2026-04-27 01:16:49
      機器之心Pro incentive-icons
      機器之心Pro
      專業(yè)的人工智能媒體
      12855文章數(shù) 142636關(guān)注度
      往期回顧 全部

      科技要聞

      漲價浪潮下,DeepSeek推動AI“價格戰(zhàn)”

      頭條要聞

      特朗普內(nèi)閣又一女部長落馬:強迫男下屬為其提供性服務

      頭條要聞

      特朗普內(nèi)閣又一女部長落馬:強迫男下屬為其提供性服務

      體育要聞

      森林狼3比1掘金:逆境中殺出了多孫穆?!

      娛樂要聞

      僅次《指環(huán)王》的美劇,有第二季

      財經(jīng)要聞

      事關(guān)新就業(yè)群體,中辦、國辦發(fā)文

      汽車要聞

      預售19.38萬元起 哈弗猛龍PLUS七座版亮相

      態(tài)度原創(chuàng)

      房產(chǎn)
      游戲
      健康
      教育
      軍事航空

      房產(chǎn)要聞

      新一輪教育大爆發(fā)來了!海口,開始瘋狂建學校!

      LOL最吸金戰(zhàn)隊誕生!T1主場坐滿15000人,LPL解說滿臉羨慕

      干細胞如何讓燒燙傷皮膚"再生"?

      教育要聞

      超燃暴擊!孩子們?yōu)樯抖紭贩炝耍浚∵@所人附系學校揭秘

      軍事要聞

      伊朗總統(tǒng):不會在壓力、威脅下進行談判

      無障礙瀏覽 進入關(guān)懷版 主站蜘蛛池模板: 真人作爱免费视频| 国产精品久久精品| 岛国无码AV| 色综合久久88色综合天天免费 | 91老肥熟女九色老女人| 寿宁县| 成人影片一区免费观看| 色77777| 国产午夜亚洲精品国产成人| 午夜成人理论无码电影在线播放| 日韩精品人妻系列无码专区免费 | 一本色道久久爱88av| 日韩在线视频线观看一区| 男人用嘴添女人下身免费视频| 黑人一级片| 人妻精品成人| 7777精品久久久大香线蕉| 太仆寺旗| 在线a久青草视频在线观看| 国产熟睡乱子伦视频在线播放| 久久国产免费福利永久| 夜夜躁天天躁很很躁| 最新日韩无码中文字幕| ass日本少妇高潮pics| 亚洲成av人在线观看网站| 国产免费av网站| 日本va欧美va欧美va精品| 丰满午夜人妻无码AAAA| 肏屄视频在线播放| 丰满人妻被黑人猛烈进入| 军人粗大的内捧猛烈进出视频 | 尹人香蕉久久99天天拍欧美p7| 秋霞av鲁丝片一区二区| 91最新在线| 亚洲一区二区精品久久岳| 另类 专区 欧美 制服丝袜| 无码AV无码免费一区二区| 国产乱子伦日B视频| 超碰福利导航| 激情久久av一区av二区av三区| 在线看av一区二区三区|