網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請入駐

黑馬圖像模型被Nano Banana技術(shù)負(fù)責(zé)人點(diǎn)贊！

2026-03-06 22:34:17　來源: 量子位

北京舉報(bào)

分享至

允中發(fā)自凹非寺
量子位 | 公眾號(hào) QbitAI

圖像界又殺出一匹黑馬！

剛剛，Luma AI甩出全新模型Uni-1，正面對標(biāo)谷歌Nano Banana Pro和GPT Image 1.5。

Uni-1是一個(gè)統(tǒng)一的圖像理解與生成模型。

在官方展示中，Uni-1具備角色姿態(tài)遷移、故事板生成、草稿+材質(zhì)結(jié)合參考生成、草稿轉(zhuǎn)漫畫、多參考圖場景合成、草稿引導(dǎo)的照片編輯、UV貼圖生成、帶有文字的賀卡海報(bào)生成等諸多能力。

在多項(xiàng)權(quán)威任務(wù)評(píng)測中，Uni-1不僅能對標(biāo)Nano Banana Pro、GPT Image 1.5，部分任務(wù)的表現(xiàn)更是達(dá)到世界領(lǐng)先水平。

例如下面這個(gè)案例，Uni-1精準(zhǔn)拿捏細(xì)節(jié)，在風(fēng)格一致性、元素融合度和細(xì)節(jié)還原上更勝一籌。

更令人意外的是，能實(shí)現(xiàn)如此驚艷效果的Uni-1，背后并非大廠重兵投入，而是一支不到15人的華人研究團(tuán)隊(duì)。

Uni-1發(fā)布后評(píng)論一片叫好，甚至引來谷歌DeepMind首席科學(xué)家、Nano Banana項(xiàng)目技術(shù)負(fù)責(zé)人Oliver Wang點(diǎn)贊：

英偉達(dá)機(jī)器人主管Jim Fan也送上了祝福：

Uni-1效果到底有多炸？話不多說，來看更多圖。

解鎖多元?jiǎng)?chuàng)作場景

馬年新春賀卡

先來一個(gè)簡單的測試：

生成一張馬年新春賀卡，要包含“新春快樂”、“馬年大吉·萬事如意”、“馬年二〇二六”等中文文字。

Uni-1生成的賀卡文字內(nèi)容完整、排版合理，馬的形象和中國傳統(tǒng)剪紙風(fēng)格高度一致。相比之下，GPT Image 1.5出現(xiàn)了文字混亂，Nano Banana Pro的文字渲染也有明顯瑕疵。

中文文字渲染一直是圖像生成模型的“照妖鏡”——Uni-1交出了一份相當(dāng)能打的答卷。

多參考圖場景合成

給模型5張參考圖——兩只貓、兩位男士、Luma AI的logo——要求合成一個(gè)會(huì)議場景：

一只貓展示Luma AI幻燈片，另一只貓旁聽，同時(shí)融入真人照片和logo。

Uni-1精確還原了每張參考圖的身份特征——貓的毛色花紋、男士的五官和發(fā)型、logo的細(xì)節(jié)——并將它們合理地組織進(jìn)了同一個(gè)場景。

GPT Image 1.5則把參考圖片直接“貼”到了幻燈片上，而Nano Banana Pro連基本的參考圖融合都沒做到。

信息圖提取

給模型一張地鐵站實(shí)拍的“THE BEES NEED YOU”公益海報(bào)，要求提取為可直接用于生產(chǎn)的信息圖——生成完整圖片，不帶占位框，準(zhǔn)確還原信息圖中所有可見文字。

這個(gè)任務(wù)同時(shí)考驗(yàn)“看”和“畫”兩種能力：

先要理解實(shí)拍海報(bào)里的全部信息層級(jí)，再要重新生成一張排版清晰的信息圖。

Uni-1準(zhǔn)確還原了完整的海報(bào)布局、所有文字、正確配色，以及黑色草地剪影和正確的縱橫比。GPT Image 1.5部分文字顏色錯(cuò)誤，底部文字全部缺失，野花種子和蜜蜂的logo也出了問題。Nano Banana Pro整體布局尚可，但底部文字同樣缺失。

草稿轉(zhuǎn)漫畫

再來看生成能力——把一張粗糙的草稿（貓站在書架上，旁邊有人說”Hey! Get down from there!”）轉(zhuǎn)化為專業(yè)級(jí)漫畫。

Uni-1完美地將草稿意圖轉(zhuǎn)化為專業(yè)漫畫：分格構(gòu)圖、對話氣泡的位置和方向都精準(zhǔn)還原，所有細(xì)節(jié)完整保留——貓耳朵、翹起的尾巴、卷煙缸、書架上的書，甚至手機(jī)屏幕顯示著911。

鋼琴前的一生：6幀故事板

下面可能是最能體現(xiàn)Uni-1實(shí)力的demo之一。

要求：生成6幀故事板，展示同一個(gè)角色從童年到老年在鋼琴前的一生。一個(gè)人從男孩到少年、到青年、到中年、到老年，最后變成一家人在臺(tái)上的大合照。

6幀畫面中角色身份保持一致——同一張臉，鋼琴、透視和畫風(fēng)不變，僅人物形象和背景隨時(shí)間變化。這種跨幀的角色一致性和時(shí)間敘事能力，是當(dāng)前圖像模型的核心難題之一。

UV貼圖生成

給模型一個(gè)人從不同角度拍攝的三張照片（正面、左側(cè)、右側(cè)），要求生成一張標(biāo)準(zhǔn)面部拓?fù)涞恼归_UV貼圖。

UV貼圖是3D建模中的核心環(huán)節(jié)，對面部對齊、左右對稱和膚色一致性要求極高。

Uni-1生成的UV貼圖在這三個(gè)維度上都明顯優(yōu)于GPT Image 1.5、Nano Banana Pro：

GPT Image 1.5的正臉和側(cè)面貼圖出現(xiàn)了不一致，Nano Banana Pro則完全沒能生成符合標(biāo)準(zhǔn)UV布局規(guī)范的結(jié)果。

能搞定這種專業(yè)級(jí)3D任務(wù)，說明Uni-1不只是“畫圖好看”，而是真正具備了對三維空間結(jié)構(gòu)的深層理解。

不到15人，憑什么？

看完效果，你可能會(huì)好奇：這些通常只在大廠才能看到的結(jié)果，到底是怎么從一個(gè)不到15人的團(tuán)隊(duì)手里做出來的？

答案或許就藏在這支團(tuán)隊(duì)的兩位研究負(fù)責(zé)人身上。

宋佳銘，清華大學(xué)本科，斯坦福大學(xué)博士。

他最廣為人知的貢獻(xiàn)是發(fā)明了DDIM（Denoising Diffusion Implicit Models）。如果你用過任何基于擴(kuò)散模型的圖像生成工具，從Stable Diffusion到DALL·E，背后幾乎都離不開DDIM帶來的采樣加速技術(shù)。

這篇論文至今被引用超過萬次，并獲得ICLR 2022 Outstanding Paper Award。

沈博魁，斯坦福大學(xué)本科及博士。

他的代表作獲得了CVPR 2018 Best Paper Award——CVPR是計(jì)算機(jī)視覺領(lǐng)域的頂級(jí)會(huì)議，每年僅有極少數(shù)論文能獲此殊榮。此外，他還入選了RSS 2022 Best Student Paper Finalist。

一位是擴(kuò)散模型加速的奠基人，一位是計(jì)算機(jī)視覺的頂尖研究者——兩位華人學(xué)者聯(lián)手，帶領(lǐng)一支精銳小隊(duì)，選擇了一條和大廠截然不同的路線：

不是把理解和生成分開做，而是用一個(gè)統(tǒng)一的模型把兩件事一起搞定。

統(tǒng)一模型：給邏輯大腦長出“心靈之眼”

Uni-1的核心理念，用Luma自己的話說，就是“給邏輯大腦長出心靈之眼”。

傳統(tǒng)路線下，圖像理解（看圖說話、物體檢測）和圖像生成（文生圖、圖像編輯）是兩套獨(dú)立的系統(tǒng)。但Uni-1采用了一種decoder-only自回歸Transformer架構(gòu)，將文本和圖像表示在同一個(gè)交錯(cuò)序列中——既是輸入，也是輸出。

這意味著，Uni-1不需要分別訓(xùn)練“理解模塊”和“生成模塊”，而是在一個(gè)統(tǒng)一框架內(nèi)同時(shí)建模時(shí)間、空間和邏輯。

更有意思的是，Luma發(fā)現(xiàn)生成訓(xùn)練能顯著提升理解能力。換句話說，當(dāng)模型學(xué)會(huì)“畫畫”之后，它“看圖”的能力也變強(qiáng)了——這和人類的認(rèn)知規(guī)律竟然高度一致。

在推理式生成任務(wù)中，Uni-1會(huì)在合成圖像前進(jìn)行結(jié)構(gòu)化的內(nèi)部推理：先分解指令、規(guī)劃構(gòu)圖，然后再渲染輸出

這種“先想后畫”的能力，讓它在RISEBench（評(píng)估時(shí)間推理、因果推理、空間推理和邏輯推理四個(gè)維度的基準(zhǔn)測試）上取得了世界最優(yōu)成績

在開放詞匯密集檢測（ODinW-13）基準(zhǔn)上，Uni-1同樣展現(xiàn)出了強(qiáng)勁的競爭力——要知道，這是一個(gè)傳統(tǒng)上由純理解模型主導(dǎo)的領(lǐng)域。一個(gè)統(tǒng)一模型能在理解任務(wù)上也不輸專門的理解模型，本身就已經(jīng)是一個(gè)重要的信號(hào)。

為什么這很重要？

把Uni-1放到更大的AI行業(yè)圖景中看，有兩件事值得關(guān)注：

第一，統(tǒng)一模型可能是下一代視覺AI的方向。

當(dāng)理解和生成不再是兩個(gè)獨(dú)立系統(tǒng)，而是同一個(gè)模型的兩面，很多過去需要復(fù)雜pipeline的任務(wù)——多輪編輯、參考圖合成、風(fēng)格遷移——都可以在一個(gè)模型內(nèi)優(yōu)雅地完成。Uni-1已經(jīng)在這些任務(wù)上展示了這種優(yōu)勢。

第二，頂尖AI研究不一定需要萬人團(tuán)隊(duì)和無限算力。

不到15人的華人研究團(tuán)隊(duì)，在一個(gè)被Google和OpenAI主導(dǎo)的賽道上做出了世界級(jí)的成果。這再次證明：在正確的技術(shù)路線上，優(yōu)秀的人才密度可以彌補(bǔ)資源的差距。

Luma表示，Uni-1只是第一步。下一階段，這個(gè)統(tǒng)一框架將從靜態(tài)圖像擴(kuò)展到視頻、語音、交互式世界模擬——最終目標(biāo)是構(gòu)建能夠“看、說、推理、想象”的統(tǒng)一多模態(tài)系統(tǒng)。

從一個(gè)不到15人的華人團(tuán)隊(duì)開始，這個(gè)目標(biāo)或許并不遙遠(yuǎn)。

Luma AI官方博客：https://lumalabs.ai/uni-1

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.