<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      清華、西交聯合開源發布Cheers : 更簡潔、更高效統一多模態路線

      0
      分享至





      • 論文標題:Cheers: Decoupling Patch Details from Semantic Representations Enables Unified Multimodal Comprehension and Generation
      • 項目地址:https://github.com/AI9Stars/Cheers
      • 模型地址:https://huggingface.co/ai9stars/Cheers
      • HF Daily Paper:https://huggingface.co/papers/2603.12793
      • 論文鏈接:https://arxiv.org/abs/2603.12793

      過去幾年,多模態模型在理解任務上快速演進,圖像問答、OCR、視覺推理、跨模態對話等能力不斷提升;與此同時,圖像生成模型也在視覺質量、指令遵循和細節表達上持續突破。下一步一個自然的問題是:能否用同一個模型,同時做好理解與生成?這正是統一多模態模型(Unified Multimodal Models, UMMs)正在回答的問題。

      但這件事并不容易。理解任務更依賴穩定、抽象、適合推理的語義表示,生成任務則要求模型保留充足的局部細節與高頻紋理,以保證圖像質量和真實感。近期越來越多工作都注意到,理解與生成在視覺表征和優化目標上存在天然張力,如何在同一個框架中兼顧二者,仍然是統一多模態建模最核心的挑戰之一。



      今天,我們正式介紹并開源發布 CHEERS。CHEERS 提出了一種面向統一多模態理解與生成的架構路線:在盡可能保持系統簡潔的前提下,將理解任務與生成任務統一到同一個端到端框架中進行聯合優化,并最大程度繼承開源預訓練模型已有知識。我們希望它回答的不只是 “能否統一”,更是能否以一種足夠簡潔、足夠高效、足夠開源友好的方式完成統一。Cheers 實現了:

      • 統一多模態理解與生成的端到端框架
      • 保持架構簡潔,同時實現理解與生成聯合優化
      • 零額外預訓練成本,充分繼承開源預訓練模型知識,相對傳統 VLM 僅增加輕量 VAE 與 Cascaded Flow Matching Head
      • 更少訓練數據下達到同規模 SOTA / 領先性能
      • 4× token compression,兼顧統一建模與高效率

      一、當前統一多模態模型的技術方案?



      從視覺表示角度看,現有工作又大致呈現出幾種典型思路。有些方法會把理解和生成放在相對分離的視覺空間里,各自優化、互不干擾,這類方案任務性能通常不差,但統一性相對有限;有些方法更強調單一語義空間,希望讓同一套表示同時支撐理解與生成,但往往會在結構細節上遇到瓶頸;還有一些方法嘗試融合異構特征,把語義信息與像素級信息匯總到一起,但融合之后也容易出現干擾和拉扯。CHEERS 的位置,正是在這些路線之間給出一個更加克制的答案:不追求把所有問題壓縮成一種表示,也不走完全分離的雙系統,而是在統一框架下重新安排語義與細節的職責。

      二、CHEERS,一條現實可行的統一路線

      在這個問題上,CHEERS 的出發點非常明確:不是為了統一而引入龐大而復雜的組合系統,而是在保留已有開源預訓練能力的基礎上,用盡可能小的架構增量完成從 “理解模型” 到 “理解 + 生成統一模型” 的升級。具體來說,CHEERS 構建了一個統一多模態大模型框架,通過統一視覺 tokenizer、LLM 主干以及 Cascaded Flow Matching Head,將多模態理解與圖像生成納入同一條端到端鏈路。

      這個設計最重要的價值在于兩點。第一,它實現了理解與生成任務的同時優化。同一個 LLM 主干既服務于文本自回歸與多模態理解,也服務于圖像生成過程中的條件建模,從而讓統一不再停留在 “模塊拼裝”,而成為真正端到端的聯合建模。第二,它盡可能繼承了開源預訓練模型已有知識。CHEERS 不需要為了 “統一化” 額外再做一輪昂貴的大規模預訓練,而是完整保留并利用已有預訓練能力,讓統一多模態模型的構建成本顯著降低。對于開源社區而言,這一點尤其重要,因為真正能被持續復現、擴展和使用的路線,不只是性能強,更要足夠現實。

      三、CHEERS 如何處理 “語義” 和 “細節”



      近期不少統一多模態工作都已經觀察到類似經驗:理解更偏向穩定語義,生成更依賴細節保真。這說明問題本身正在逐漸被行業看清。在 CHEERS 中,視覺信息被組織為兩類互補成分:語義 token 用于多模態理解和生成條件控制,細節殘差則用于在生成過程中補足高頻紋理和局部保真。



      對應地,在生成階段,CHEERS 采用 “先語義、后細節” 的級聯方式:先生成全局語義布局,再通過語義門控逐步注入細節信息,對局部紋理進行修正和增強。同時我們發現,即便沒有對高頻細節注入強度做顯式監督,模型也會在生成后期自然增強對高頻細節的使用。這種現象非常像人類作畫時 “先搭結構、再補內容、后補紋理” 的過程,也說明 CHEERS 的設計并不是機械堆疊模塊,而是在建模上更貼近理解與生成各自的需求節奏。

      四、小數據,大性能:

      更重要的是特征空間的統一





      從實驗結果來看,CHEERS 在同等規模統一多模態模型中取得了很強的綜合表現。在多項主流理解基準與生成基準上,CHEERS 都展現出競爭性甚至領先的結果。論文中,CHEERS 在 GenEval 上達到 0.78,在 MMBench、MMStar、AI2D、MathVista 等理解基準上也取得了穩健表現。同時,CHEERS 還實現了 4× token compression,為高分辨率視覺理解與生成提供了更高效率的統一建模方式。

      相比單純列舉性能,我們更想強調另一點:CHEERS 達成這些結果時,使用的數據規模顯著小于部分同類方法。CHEERS 總訓練樣本規模為 83M,相比一些同類工作節省了約 2× 甚至更多的數據需求,仍然能夠達到同規模 SOTA 或領先性能。這說明 CHEERS 的優勢不只是 “訓得出來”,而是它對已有預訓練知識具有更高的繼承和利用效率。某種意義上,這比單純提升某個 benchmark 分數更值得關注,因為統一多模態走到今天,真正稀缺的已經不只是數據規模,而是如何把已有知識體系更高效地組織起來。

      五、總結

      在我們看來,CHEERS 的意義不止體現在結果上,也體現在它對統一多模態研究提供了一些值得繼續思考的方向。

      第一個啟發是:統一模型真正需要統一的,未必是單一視覺表示本身,而可能是一個足夠穩定、足夠高效的信息接口。如果不同任務對視覺信息的需求本來就不同,那么比起強行讓所有能力共享同一份表征,更重要的也許是讓不同信息以合適方式進入統一主干。

      第二個啟發是:理解與生成并不一定互相拖累,關鍵在于架構設計是否合理。論文表明,在統一架構設計下,聯合訓練生成目標不會顯著破壞理解能力,反而有機會帶來細粒度感知層面的增益。

      第三個啟發是:高效統一多模態,不一定意味著更重、更大、更復雜。CHEERS 用簡單的系統改動,完成了從傳統理解型 VLM 到統一模型的升級,這為后續很多開源工作提供了一種更現實的參考路徑。

      第四個啟發是:效率問題本身就是統一多模態問題的一部分。CHEERS 的 4× token compression 不只是工程優化,也意味著高分辨率理解與生成可以在更現實的計算預算下被同時納入一個系統中,這對未來更長上下文、更復雜視覺輸入的統一建模都很關鍵。

      我們期待的不只是一個更強的模型,而是一條讓更多研究者和開發者都能繼續往前推進的路線。因此我們開源了訓練、推理測評代碼和模型權重,并于近期開源微調數據。希望大家可以支持我們的工作。

      作者簡介:

      張易辰,碩士,高級工程師,專注于理解生成統一方向,面向基礎模型架構設計、大模型預訓練進行了相關研究;彭達,碩士在讀,專注于多模態理解和生成、高效推理,面向基礎架構、預訓練、視頻高效編碼進行了相關研究;通訊作者郭宗昊,博士,清華THUNLP訪問學者,專注于多模態智能,面向多模態基礎模型架構設計、大模型預訓練與模型深思考能力進行了相關研究,在CVPR、NeurIPS、IJCV等頂會頂刊發表論文20余篇,谷歌學術引用超2000次。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      不可錯過!3月26日晚間19:00比賽!中央5套CCTV5、CCTV5+直播表

      不可錯過!3月26日晚間19:00比賽!中央5套CCTV5、CCTV5+直播表

      皮皮觀天下
      2026-03-26 15:33:07
      為什么有個漂亮老婆還是想要分 網友講出自身經歷真是一言難盡

      為什么有個漂亮老婆還是想要分 網友講出自身經歷真是一言難盡

      侃神評故事
      2026-03-10 18:50:04
      4.0 英寸 4050mAh 還有實體鍵盤!這絕對是今年最酷的新機了

      4.0 英寸 4050mAh 還有實體鍵盤!這絕對是今年最酷的新機了

      科技狐
      2026-03-25 22:34:58
      伊朗掛斷王毅電話后發全球照會,薩勒曼震怒

      伊朗掛斷王毅電話后發全球照會,薩勒曼震怒

      空間展示知識
      2026-03-26 07:06:58
      張凌赫和田曦薇,謝謝你倆讓我看到了真人秀有多假

      張凌赫和田曦薇,謝謝你倆讓我看到了真人秀有多假

      草莓解說體育
      2026-03-26 14:17:01
      加時被逆轉!申京:一切發生太快!杜蘭特:在胡打,我該果斷出手

      加時被逆轉!申京:一切發生太快!杜蘭特:在胡打,我該果斷出手

      籃球資訊達人
      2026-03-26 15:28:40
      新華社消息|覆蓋全民!我國加快建立長期護理保險制度

      新華社消息|覆蓋全民!我國加快建立長期護理保險制度

      新華社
      2026-03-25 23:15:12
      好辣眼睛!黃多多穿三點式泳裝,20歲身材矮小,在國外思想開放

      好辣眼睛!黃多多穿三點式泳裝,20歲身材矮小,在國外思想開放

      章眽八卦
      2026-03-26 13:22:27
      炸鍋!利物浦 1.25 億標王主動申請離隊,首選下家完全出乎意料

      炸鍋!利物浦 1.25 億標王主動申請離隊,首選下家完全出乎意料

      瀾歸序
      2026-03-26 06:08:07
      面相這東西真藏不住,停播一個半月的李亞鵬,

      面相這東西真藏不住,停播一個半月的李亞鵬,

      小光侃娛樂
      2026-03-26 16:05:08
      押注中國!迪拜資本大轉移,數千億真金白銀連夜搬家到東方

      押注中國!迪拜資本大轉移,數千億真金白銀連夜搬家到東方

      小舟談歷史
      2026-03-25 06:28:02
      發生了什么?午后,滬指再度失守3900點

      發生了什么?午后,滬指再度失守3900點

      每經牛眼
      2026-03-26 15:25:31
      李鑫認親第3天!姐弟鬧掰再次失聯,姐姐深夜哭訴,養家姐姐發聲

      李鑫認親第3天!姐弟鬧掰再次失聯,姐姐深夜哭訴,養家姐姐發聲

      離離言幾許
      2026-03-26 12:11:37
      俄警告絕非空言:暗殺伊朗領導人,正在打開中東戰亂的潘多拉魔盒

      俄警告絕非空言:暗殺伊朗領導人,正在打開中東戰亂的潘多拉魔盒

      華人星光
      2026-03-24 11:45:23
      鵝蛋營養價值驚人,發現:常吃鵝蛋的人,不用多久,或有4個改善

      鵝蛋營養價值驚人,發現:常吃鵝蛋的人,不用多久,或有4個改善

      垚垚分享健康
      2026-03-23 17:30:11
      000968,午后垂直漲停!油氣概念股,集體異動!

      000968,午后垂直漲停!油氣概念股,集體異動!

      證券時報e公司
      2026-03-26 16:05:07
      日媒:政府出手后,日本汽油價已降至7.71元/升

      日媒:政府出手后,日本汽油價已降至7.71元/升

      隨波蕩漾的漂流瓶
      2026-03-25 15:39:49
      剖腹自盡?日本陸自軍官持刀沖入中國大使館,想殺中國外交員!

      剖腹自盡?日本陸自軍官持刀沖入中國大使館,想殺中國外交員!

      軍武次位面
      2026-03-26 14:26:42
      如果美國解體,猶太財閥的巨資何處安放下一個宿主,答案超乎想象

      如果美國解體,猶太財閥的巨資何處安放下一個宿主,答案超乎想象

      芳芳歷史燴
      2026-03-25 22:24:25
      張雪峰傳奇人生揭秘:父母下崗,大學考上鄭大,第一份工作開飯店

      張雪峰傳奇人生揭秘:父母下崗,大學考上鄭大,第一份工作開飯店

      談史論天地
      2026-03-25 07:26:54
      2026-03-26 17:56:49
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      12606文章數 142593關注度
      往期回顧 全部

      科技要聞

      Meta高管狂分百億期權,700名員工卻下崗

      頭條要聞

      男子從四家公司貸出共計356萬元 實際到手卻僅8萬多元

      頭條要聞

      男子從四家公司貸出共計356萬元 實際到手卻僅8萬多元

      體育要聞

      申京努力了,然而杜蘭特啊

      娛樂要聞

      張雪峰家人首發聲 不設追思會喪事從簡

      財經要聞

      長護險誰能享受?享受多少?解答來了

      汽車要聞

      一汽奧迪A6L e-tron開啟預售 CLTC最大續航815km

      態度原創

      親子
      旅游
      游戲
      健康
      教育

      親子要聞

      售賣“增高神藥”讓孩子“猛長20厘米”?多家店鋪被立案調查!

      旅游要聞

      視點|陶然亭公園海棠春花文化節,解鎖春日新體驗

      又一經典最終幻想游戲將停運!開服至今已六年有余

      轉頭就暈的耳石癥,能開車上班嗎?

      教育要聞

      中小學家長必看數據,看與不看都會后悔

      無障礙瀏覽 進入關懷版