- 允中 發(fā)自 凹非寺
量子位 | 公眾號(hào) QbitAI
圖像界又殺出一匹黑馬!
剛剛,Luma AI甩出全新模型Uni-1,正面對標(biāo)谷歌Nano Banana Pro和GPT Image 1.5。
![]()
Uni-1是一個(gè)統(tǒng)一的圖像理解與生成模型。
在官方展示中,Uni-1具備角色姿態(tài)遷移、故事板生成、草稿+材質(zhì)結(jié)合參考生成、草稿轉(zhuǎn)漫畫、多參考圖場景合成、草稿引導(dǎo)的照片編輯、UV貼圖生成、帶有文字的賀卡海報(bào)生成等諸多能力。
![]()
在多項(xiàng)權(quán)威任務(wù)評(píng)測中,Uni-1不僅能對標(biāo)Nano Banana Pro、GPT Image 1.5,部分任務(wù)的表現(xiàn)更是達(dá)到世界領(lǐng)先水平。
例如下面這個(gè)案例,Uni-1精準(zhǔn)拿捏細(xì)節(jié),在風(fēng)格一致性、元素融合度和細(xì)節(jié)還原上更勝一籌。
![]()
更令人意外的是,能實(shí)現(xiàn)如此驚艷效果的Uni-1,背后并非大廠重兵投入,而是一支不到15人的華人研究團(tuán)隊(duì)。
Uni-1發(fā)布后評(píng)論一片叫好,甚至引來谷歌DeepMind首席科學(xué)家、Nano Banana項(xiàng)目技術(shù)負(fù)責(zé)人Oliver Wang點(diǎn)贊:
![]()
英偉達(dá)機(jī)器人主管Jim Fan也送上了祝福:
![]()
Uni-1效果到底有多炸?話不多說,來看更多圖。
解鎖多元?jiǎng)?chuàng)作場景
馬年新春賀卡
先來一個(gè)簡單的測試:
生成一張馬年新春賀卡,要包含“新春快樂”、“馬年大吉·萬事如意”、“馬年 二〇二六”等中文文字。
![]()
Uni-1生成的賀卡文字內(nèi)容完整、排版合理,馬的形象和中國傳統(tǒng)剪紙風(fēng)格高度一致。相比之下,GPT Image 1.5出現(xiàn)了文字混亂,Nano Banana Pro的文字渲染也有明顯瑕疵。
中文文字渲染一直是圖像生成模型的“照妖鏡”——Uni-1交出了一份相當(dāng)能打的答卷。
多參考圖場景合成
給模型5張參考圖——兩只貓、兩位男士、Luma AI的logo——要求合成一個(gè)會(huì)議場景:
一只貓展示Luma AI幻燈片,另一只貓旁聽,同時(shí)融入真人照片和logo。
![]()
Uni-1精確還原了每張參考圖的身份特征——貓的毛色花紋、男士的五官和發(fā)型、logo的細(xì)節(jié)——并將它們合理地組織進(jìn)了同一個(gè)場景。
GPT Image 1.5則把參考圖片直接“貼”到了幻燈片上,而Nano Banana Pro連基本的參考圖融合都沒做到。
信息圖提取
給模型一張地鐵站實(shí)拍的“THE BEES NEED YOU”公益海報(bào),要求提取為可直接用于生產(chǎn)的信息圖——生成完整圖片,不帶占位框,準(zhǔn)確還原信息圖中所有可見文字。
![]()
這個(gè)任務(wù)同時(shí)考驗(yàn)“看”和“畫”兩種能力:
先要理解實(shí)拍海報(bào)里的全部信息層級(jí),再要重新生成一張排版清晰的信息圖。
Uni-1準(zhǔn)確還原了完整的海報(bào)布局、所有文字、正確配色,以及黑色草地剪影和正確的縱橫比。GPT Image 1.5部分文字顏色錯(cuò)誤,底部文字全部缺失,野花種子和蜜蜂的logo也出了問題。Nano Banana Pro整體布局尚可,但底部文字同樣缺失。
草稿轉(zhuǎn)漫畫
再來看生成能力——把一張粗糙的草稿(貓站在書架上,旁邊有人說”Hey! Get down from there!”)轉(zhuǎn)化為專業(yè)級(jí)漫畫。
![]()
Uni-1完美地將草稿意圖轉(zhuǎn)化為專業(yè)漫畫:分格構(gòu)圖、對話氣泡的位置和方向都精準(zhǔn)還原,所有細(xì)節(jié)完整保留——貓耳朵、翹起的尾巴、卷煙缸、書架上的書,甚至手機(jī)屏幕顯示著911。
鋼琴前的一生:6幀故事板
下面可能是最能體現(xiàn)Uni-1實(shí)力的demo之一。
要求:生成6幀故事板,展示同一個(gè)角色從童年到老年在鋼琴前的一生。一個(gè)人從男孩到少年、到青年、到中年、到老年,最后變成一家人在臺(tái)上的大合照。
![]()
6幀畫面中角色身份保持一致——同一張臉,鋼琴、透視和畫風(fēng)不變,僅人物形象和背景隨時(shí)間變化。這種跨幀的角色一致性和時(shí)間敘事能力,是當(dāng)前圖像模型的核心難題之一。
UV貼圖生成
給模型一個(gè)人從不同角度拍攝的三張照片(正面、左側(cè)、右側(cè)),要求生成一張標(biāo)準(zhǔn)面部拓?fù)涞恼归_UV貼圖。
![]()
UV貼圖是3D建模中的核心環(huán)節(jié),對面部對齊、左右對稱和膚色一致性要求極高。
Uni-1生成的UV貼圖在這三個(gè)維度上都明顯優(yōu)于GPT Image 1.5、Nano Banana Pro:
GPT Image 1.5的正臉和側(cè)面貼圖出現(xiàn)了不一致,Nano Banana Pro則完全沒能生成符合標(biāo)準(zhǔn)UV布局規(guī)范的結(jié)果。
能搞定這種專業(yè)級(jí)3D任務(wù),說明Uni-1不只是“畫圖好看”,而是真正具備了對三維空間結(jié)構(gòu)的深層理解。
不到15人,憑什么?
看完效果,你可能會(huì)好奇:這些通常只在大廠才能看到的結(jié)果,到底是怎么從一個(gè)不到15人的團(tuán)隊(duì)手里做出來的?
答案或許就藏在這支團(tuán)隊(duì)的兩位研究負(fù)責(zé)人身上。
宋佳銘,清華大學(xué)本科,斯坦福大學(xué)博士。
他最廣為人知的貢獻(xiàn)是發(fā)明了DDIM(Denoising Diffusion Implicit Models)。如果你用過任何基于擴(kuò)散模型的圖像生成工具,從Stable Diffusion到DALL·E,背后幾乎都離不開DDIM帶來的采樣加速技術(shù)。
這篇論文至今被引用超過萬次,并獲得ICLR 2022 Outstanding Paper Award。
![]()
沈博魁,斯坦福大學(xué)本科及博士。
他的代表作獲得了CVPR 2018 Best Paper Award——CVPR是計(jì)算機(jī)視覺領(lǐng)域的頂級(jí)會(huì)議,每年僅有極少數(shù)論文能獲此殊榮。此外,他還入選了RSS 2022 Best Student Paper Finalist。
![]()
一位是擴(kuò)散模型加速的奠基人,一位是計(jì)算機(jī)視覺的頂尖研究者——兩位華人學(xué)者聯(lián)手,帶領(lǐng)一支精銳小隊(duì),選擇了一條和大廠截然不同的路線:
不是把理解和生成分開做,而是用一個(gè)統(tǒng)一的模型把兩件事一起搞定。
統(tǒng)一模型:給邏輯大腦長出“心靈之眼”
Uni-1的核心理念,用Luma自己的話說,就是“給邏輯大腦長出心靈之眼”。
傳統(tǒng)路線下,圖像理解(看圖說話、物體檢測)和圖像生成(文生圖、圖像編輯)是兩套獨(dú)立的系統(tǒng)。但Uni-1采用了一種decoder-only自回歸Transformer架構(gòu),將文本和圖像表示在同一個(gè)交錯(cuò)序列中——既是輸入,也是輸出。
這意味著,Uni-1不需要分別訓(xùn)練“理解模塊”和“生成模塊”,而是在一個(gè)統(tǒng)一框架內(nèi)同時(shí)建模時(shí)間、空間和邏輯。
更有意思的是,Luma發(fā)現(xiàn)生成訓(xùn)練能顯著提升理解能力。換句話說,當(dāng)模型學(xué)會(huì)“畫畫”之后,它“看圖”的能力也變強(qiáng)了——這和人類的認(rèn)知規(guī)律竟然高度一致。
在推理式生成任務(wù)中,Uni-1會(huì)在合成圖像前進(jìn)行結(jié)構(gòu)化的內(nèi)部推理:先分解指令、規(guī)劃構(gòu)圖,然后再渲染輸出
這種“先想后畫”的能力,讓它在RISEBench(評(píng)估時(shí)間推理、因果推理、空間推理和邏輯推理四個(gè)維度的基準(zhǔn)測試)上取得了世界最優(yōu)成績
![]()
在開放詞匯密集檢測(ODinW-13)基準(zhǔn)上,Uni-1同樣展現(xiàn)出了強(qiáng)勁的競爭力——要知道,這是一個(gè)傳統(tǒng)上由純理解模型主導(dǎo)的領(lǐng)域。一個(gè)統(tǒng)一模型能在理解任務(wù)上也不輸專門的理解模型,本身就已經(jīng)是一個(gè)重要的信號(hào)。
為什么這很重要?
把Uni-1放到更大的AI行業(yè)圖景中看,有兩件事值得關(guān)注:
第一,統(tǒng)一模型可能是下一代視覺AI的方向。
當(dāng)理解和生成不再是兩個(gè)獨(dú)立系統(tǒng),而是同一個(gè)模型的兩面,很多過去需要復(fù)雜pipeline的任務(wù)——多輪編輯、參考圖合成、風(fēng)格遷移——都可以在一個(gè)模型內(nèi)優(yōu)雅地完成。Uni-1已經(jīng)在這些任務(wù)上展示了這種優(yōu)勢。
第二,頂尖AI研究不一定需要萬人團(tuán)隊(duì)和無限算力。
不到15人的華人研究團(tuán)隊(duì),在一個(gè)被Google和OpenAI主導(dǎo)的賽道上做出了世界級(jí)的成果。這再次證明:在正確的技術(shù)路線上,優(yōu)秀的人才密度可以彌補(bǔ)資源的差距。
Luma表示,Uni-1只是第一步。下一階段,這個(gè)統(tǒng)一框架將從靜態(tài)圖像擴(kuò)展到視頻、語音、交互式世界模擬——最終目標(biāo)是構(gòu)建能夠“看、說、推理、想象”的統(tǒng)一多模態(tài)系統(tǒng)。
從一個(gè)不到15人的華人團(tuán)隊(duì)開始,這個(gè)目標(biāo)或許并不遙遠(yuǎn)。
Luma AI官方博客:https://lumalabs.ai/uni-1
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.