<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      架構解耦是統一多模態模型所必須的嗎?全新AIA損失:No

      0
      分享至



      近一年以來,統一理解與生成模型發展十分迅速,該任務的主要挑戰在于視覺理解和生成任務本身在網絡層間會產生沖突。早期的完全統一模型(如 Emu3)與單任務的方法差距巨大,Janus-Pro、BAGEL 通過一步一步解耦模型架構,極大地減小了與單任務模型的性能差距,后續方法甚至通過直接拼接現有理解和生成模型以達到極致的性能。

      香港中文大學 MMLab 和美團的研究者相信,在不久的將來統一模型的性能一定能夠達到單任務的水平,但同時也引起了他們的思考,目前通過拆解架構換取性能提升的方式真的是正確的嗎,它是否背離統一模型的初衷,它能夠提升性能的內在原因又是什么,這種方式真的是統一模型必須的嗎?

      「統一模型的初衷」以及「 架構解耦的缺點」

      統一理解生成模型的初衷是為了通過透明化、合理化的圖文交錯思考過程,提高單任務的性能,例如讓模型走迷宮時統一模型可以生成每一步對應的圖像,可以在模型做數學題的時候給圖像畫上輔助線,或者是在生成一張圖像的時候邊畫邊思考有沒有生成不合理的地方并且自動修正,這些都是 Uni-MMMU 等當前統一模型基準所關注,也是它本身被獨立成一個領域的初衷。

      再回到架構解耦的模型,例如 BAGEL 上,它本身如果要實現圖文交錯思考,需要經歷隱空間解碼到文字或者像素空間,然后再編碼到隱空間的復雜過程,兩個任務也幾乎不在同一個模型空間中,具有計算開銷大、信息丟失兩大問題。雖然在當前情況下相比于其可觀的性能,這個問題似乎并不顯著,但是研究者認為隨著研究的進行,這會是一個很大的問題。

      AIA: 模型架構解耦不是統一模型必須的

      為了探究清楚「架構解耦帶來性能提升的內在原因」以及「探索不使用架構解耦的前提下提升模型性能的方式」,香港中文大學 MMLab 和美團聯合推出了 AIA。



      • 論文標題:Architecture Decoupling Is Not All You Need For Unified Multimodal Model
      • 論文鏈接:https://arxiv.org/abs/2511.22663
      • 代碼:https://github.com/zhengdian1/AIA
      • 網頁:https://github.com/zhengdian1/AIA-project

      研究者首先通過研究不同架構的統一模型在每一層網絡中跨模態交互的強度,他們驚訝地發現不管如何進行模型架構解耦,理解和生成任務在同一層網絡中始終呈現負相關的關系,同時進一步驗證了這個現象與輸入的模態、長度和類別都沒有關系,這說明是模型自發在學習如何合理地分配兩個任務在每一層中的占比,從而 「緩解沖突」,這又說明架構解耦本質上并沒有解決任務之間沖突的問題。

      研究者進一步在最后一列可視化了現在單任務 SOTA 的模型的多模態交互模式(HunyuanImage-3.0 雖然是統一模型,但更側重于生成效果),結果發現隨著模型解耦程度的增強,其對應的跨模態交互模式會趨向于單任務的表現,這也是能夠實現性能提升的主要原因



      基于這個發現,研究者設計了Attention Interaction Alignment (AIA) 損失,通過將單任務模型的跨模態交互模式作為學習目標,在訓練的過程中顯式地約束統一模型的交互模式。

      AIA 效果如何?

      研究者在 Emu3 和 Janus-Pro 這兩種完全統一架構、輕微模型解耦架構上進行了實驗,如下表所示,結果表明本文的方法能夠在沒有任何其他 trick 的情況下提升這些模型的性能,減小了與更高解耦程度模型的差距。



      同時,研究者給出了使用 AIA 損失之后 Emu3 和 Janus-Pro 跨模態交互模式曲線變化,可以發現加入了 AIA 損失之后,兩個模型的交互曲線都向單任務模型的表現靠近了,既證明了 AIA 損失的有效性,同時也說明了模型架構解耦不是唯一能夠提高統一模型性能的方式。

      當然,研究者也承認在目前情況下完全統一的方法和高解耦程度的模型之間存在很大的差距,但正如 Emu3.5 的出現,他們認為這個差距會越來越小。因此,研究者呼吁更多的人拋開表層的框架和數據配比,深入研究統一模型的任務沖突問題,尋找更優的解法。

      AIA 好訓嗎?

      由于 Emu3 只有預訓練 (PT) 階段是統一訓練的,因此研究者在其 PT 權重上進行微調,而 Janus-Pro 給的是最終 SFT 微調后的權重,研究者在此基礎上進行后訓練。

      研究者通過調整 AIA 損失與 next-token-prediction (NTP) 損失的比重來測試其微調的敏感度,結果發現訓練 Emu3 的時候由于其預訓練知識比較薄弱,AIA 損失在一個很大的范圍內都能達到穩定收斂的效果。而在 Janus-Pro 中,由于其本身預訓練知識很強,AIA 的加入非常容易影響模型訓練,但在合適的比重情況下仍然能夠達到不錯的效果。

      AIA 有什么優勢?

      AIA 損失的加入可以一定程度上減少現在常見的數據配比工程問題,本文的方法在生成與理解數據配比在 1:1 的情況下能夠達到更好的效果,這說明在一定程度上兩個任務的訓練不再是沖突的,產生了協同優化的效果。

      統一模型訓練的正確道路是什么?

      通過結合現在所有統一模型訓練的問題以及本文的實驗分析,可以發現不管怎樣解耦模型,其始終會在統一訓練的過程中動態分配不同任務在同一層的權重來緩解沖突,那這是否實際上代表了統一模型的正確行為



      另一條統一路徑是移除所有可以用來區分任務的線索(即采用統一分詞器、消除任務相關特殊 token、使用交錯數據數據輸入),迫使模型只能從輸入中學習真正的統一空間。雖然這種方法或許可以解決任務間的負相關問題,但也會顯著增加訓練難度。

      未來展望

      AIA 邁出了統一模型訓練原理分析的第一步,研究者希望能夠有更多志同道合的研究者加入這個領域的探索。統一模型現在的理論、架構都遠遠沒有達到成熟,需要大家共同進行探索。同時研究者也希望大家能夠更加關注統一模型真正的意義,不要一味地關注當前單任務基準上的性能。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      KTV小姐有償陪侍,花50萬請國企高管,男子沒拿下6億項目怒而曝光

      KTV小姐有償陪侍,花50萬請國企高管,男子沒拿下6億項目怒而曝光

      漢史趣聞
      2025-12-07 14:43:29
      《大生意人》原來,慈禧賜古平原“天下第一茶”竟然有4個原因!

      《大生意人》原來,慈禧賜古平原“天下第一茶”竟然有4個原因!

      情感大頭說說
      2025-12-07 16:27:49
      上海知名主持萌叔, 離職5年轉行帶貨,如今后悔放棄編制虧100萬

      上海知名主持萌叔, 離職5年轉行帶貨,如今后悔放棄編制虧100萬

      一娛三分地
      2025-12-07 23:45:50
      同事搭我便車,高速上一路冷嘲熱諷,到服務區后:你在這等我一下

      同事搭我便車,高速上一路冷嘲熱諷,到服務區后:你在這等我一下

      蘭姐說故事
      2025-12-03 12:05:07
      為什么感覺金融圈子很淫亂呢?看完回答感受到人性欲望的丑惡

      為什么感覺金融圈子很淫亂呢?看完回答感受到人性欲望的丑惡

      另子維愛讀史
      2025-12-05 21:20:39
      日媒:殲-15開火控雷達照射F-15J,中國戰機首次鎖定日本戰機,日方飛行員在長達半小時的鎖定時間上為什么不逃跑脫離呢?認為我們打不到?

      日媒:殲-15開火控雷達照射F-15J,中國戰機首次鎖定日本戰機,日方飛行員在長達半小時的鎖定時間上為什么不逃跑脫離呢?認為我們打不到?

      軍霆說
      2025-12-07 23:55:09
      全家4人連續吃妻子自制饅頭6年,全部確診胰腺癌,一個細節沒注意

      全家4人連續吃妻子自制饅頭6年,全部確診胰腺癌,一個細節沒注意

      卡西莫多的故事
      2025-12-01 10:26:41
      299個“外籍院士”竟來自同一機構?誰在買賣學術帽子?

      299個“外籍院士”竟來自同一機構?誰在買賣學術帽子?

      過了法考的新聞人
      2025-12-05 17:16:46
      姆巴佩達成西甲50場里程碑,此前49場貢獻47球7助

      姆巴佩達成西甲50場里程碑,此前49場貢獻47球7助

      懂球帝
      2025-12-08 04:21:05
      前一秒用槍指著,撕毀4億合同,下一秒全國斷電,才知道誰是大爺

      前一秒用槍指著,撕毀4億合同,下一秒全國斷電,才知道誰是大爺

      一根香煙的少女
      2025-10-11 19:46:47
      高市早苗天塌了,美國宣布退守美洲,李在明提前在臺海問題上站隊

      高市早苗天塌了,美國宣布退守美洲,李在明提前在臺海問題上站隊

      策略述
      2025-12-07 15:17:06
      皇馬頭號藥罐子又倒下!拉傷大腿+2年出場率僅32% 10個后衛傷6個

      皇馬頭號藥罐子又倒下!拉傷大腿+2年出場率僅32% 10個后衛傷6個

      風過鄉
      2025-12-08 06:05:02
      拆隊倒計時!東部第八+被自家球迷噓,2.2億豪陣啊,就這表現?

      拆隊倒計時!東部第八+被自家球迷噓,2.2億豪陣啊,就這表現?

      球童無忌
      2025-12-08 00:02:30
      京圈大格格或已被封殺?

      京圈大格格或已被封殺?

      微微熱評
      2025-11-25 10:52:11
      147:5!中俄反對無效,聯大通過決議,日本要求中國“自廢武功”

      147:5!中俄反對無效,聯大通過決議,日本要求中國“自廢武功”

      混沌錄
      2025-12-05 22:20:08
      王鷗跟女兒散步,母親一起同行,祖孫三代好溫馨!

      王鷗跟女兒散步,母親一起同行,祖孫三代好溫馨!

      小小一米月兒
      2025-12-08 00:50:05
      曾風靡一時,又突然消失的7件家電:科技進步太快,難怪被淘汰

      曾風靡一時,又突然消失的7件家電:科技進步太快,難怪被淘汰

      小柱解說游戲
      2025-12-07 10:04:13
      出版社通報:全面下架該書!

      出版社通報:全面下架該書!

      南方都市報
      2025-12-07 16:39:02
      皇馬四名首發后衛無人踢完全場,兩人染紅一人傷退一人被換下

      皇馬四名首發后衛無人踢完全場,兩人染紅一人傷退一人被換下

      懂球帝
      2025-12-08 06:20:27
      小瓦格納傷退狀元郎打鐵,布倫森單核爆砍30+9,尼克斯復仇魔術

      小瓦格納傷退狀元郎打鐵,布倫森單核爆砍30+9,尼克斯復仇魔術

      釘釘陌上花開
      2025-12-08 06:32:22
      2025-12-08 06:55:00
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      11862文章數 142509關注度
      往期回顧 全部

      科技要聞

      獨家|李笛再創業,炮轟大模型,再戰AI

      頭條要聞

      馬斯克一句話說到梅德韋杰夫心里 卻引發歐洲政治風暴

      頭條要聞

      馬斯克一句話說到梅德韋杰夫心里 卻引發歐洲政治風暴

      體育要聞

      梅開48度!2年半,這是梅西在邁阿密的一人一城

      娛樂要聞

      林俊杰AAA頒獎禮,韓娛愛豆均站起鞠躬

      財經要聞

      五糧液降價?回應來了

      汽車要聞

      傳奇超跑電動形態重生 雷克薩斯LFA純電概念車

      態度原創

      藝術
      時尚
      旅游
      公開課
      軍事航空

      藝術要聞

      他是“攝影界倫勃朗”,拍下無數偉大的時代面孔,每一張都充滿了故事

      遼京:當一個媽媽開始寫作

      旅游要聞

      從小眾到爆火!連云港楓樹灣用一片紅葉,點亮江蘇秋冬旅游

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      日本稱中方雷達照射日戰機 國防部回應

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 国产熟妇乱子伦视频在线观看| 全南县| 五月综合激情婷婷六月色窝| 天美传媒精品| 亚洲成av人无码免费观看| 欧美久久久| 出国| 国产偷人妻精品一区二区在线| 国产精品18久久久久久vr| 久久精品午夜视频| 中文字幕无码视频播放| 亚洲人妻无码一区| 欧美人与性动交ccoo| 午夜无码国产18禁| 久久黄色片| 安溪县| 精品国产亚洲一区二区三区| 一个人看的www日本高清视频| 国产精品露脸视频观看| 日本韩国一级| 国产一区二区三区高清在线观看 | 日韩无码系列| 国产精品丝袜黑色高跟鞋| 中文字幕美人妻亅u乚一596| 最近中文字幕免费手机版| 色性av| 成人大香蕉| 夜夜欢天天干| 亚洲av专区一区| 亚州脚交| 国产精品人妻一区二区高| 亚洲中文字幕无码爆乳av| 2024男人天堂| 色伊人亚洲| 国产热の有码热の无码视频| 中文字幕精品av一区二区五区| 久久久久久久久熟女AV| 欧美日韩一卡二卡| 色婷婷久久久swag精品| 国内视频自拍| 泉州市|