【CNMO科技消息】據(jù)騰訊混元官方消息,近日,計算機視覺頂級學術會議CVPR 2026正式公布錄取結(jié)果。本屆大會共收到16092篇有效投稿,最終錄用4090篇,接受率為25.42%。在激烈的競爭中,騰訊混元團隊表現(xiàn)亮眼,共有超過25篇論文成功入選,研究范疇深度覆蓋視頻生成、圖像編輯、3D資產(chǎn)創(chuàng)建及多模態(tài)交互等核心領域。
![]()
在視頻生成與數(shù)字人領域,騰訊混元提出了多項突破性成果。SoliReward框架通過改進損失函數(shù)與數(shù)據(jù)策略,有效緩解了視頻生成獎勵模型中的“獎勵黑客”與標注噪聲問題,顯著提升了物理規(guī)律一致性。UniAVGen與Harmony則聚焦音視頻聯(lián)合生成,前者以非對稱跨模態(tài)交互機制實現(xiàn)了人像音視頻的時空精準同步,后者通過跨任務協(xié)同范式解決了音畫同步漂移痛點。針對實時交互需求,StreamAvatar模型成功將高質(zhì)量擴散模型蒸餾為高效的流式架構(gòu),實現(xiàn)了低延遲的720P無限長數(shù)字人視頻生成,而ActAvatar則通過時序感知機制,僅需50億參數(shù)即可實現(xiàn)高精度的虛擬形象動作控制。
圖像編輯與理解方面,Meta-CoT提出元思維鏈編輯范式,通過三元組認知分解與元任務操作分解,兼顧了細粒度指令跟隨與跨任務泛化能力。JarvisEvo構(gòu)建了編輯器與評估器協(xié)同優(yōu)化的自進化智能體,利用交錯式多模態(tài)思維鏈打破純文本推理的信息壁壘。此外,PromptEnhancer與TAG-MoE分別通過細粒度獎勵優(yōu)化提示重寫及任務感知門控機制,大幅提升了文本到圖像生成的語義對齊度與多任務處理能力。
在3D生成與世界模型構(gòu)建上,騰訊混元同樣成果豐碩。LATTICE框架利用半結(jié)構(gòu)化VoxSet表示法,彌合了3D與2D生成模型在質(zhì)量與可擴展性上的差距;NaTex與PoseMaster分別實現(xiàn)了基于潛在顏色擴散的無縫紋理生成及原生3D骨架控制的姿態(tài)風格化。ArtLLM與X-Part進一步推動了關節(jié)式資產(chǎn)生成與高保真形狀分解技術的發(fā)展。WorldStereo則通過幾何記憶模塊,成功橋接了可控視頻生成與3D場景重建。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.