- 允中 發自 凹非寺
量子位 | 公眾號 QbitAI
圖像界又殺出一匹黑馬!
剛剛,Luma AI甩出全新模型Uni-1,正面對標谷歌Nano Banana Pro和GPT Image 1.5。
![]()
Uni-1是一個統一的圖像理解與生成模型。
在官方展示中,Uni-1具備角色姿態遷移、故事板生成、草稿+材質結合參考生成、草稿轉漫畫、多參考圖場景合成、草稿引導的照片編輯、UV貼圖生成、帶有文字的賀卡海報生成等諸多能力。
![]()
在多項權威任務評測中,Uni-1不僅能對標Nano Banana Pro、GPT Image 1.5,部分任務的表現更是達到世界領先水平。
例如下面這個案例,Uni-1精準拿捏細節,在風格一致性、元素融合度和細節還原上更勝一籌。
![]()
更令人意外的是,能實現如此驚艷效果的Uni-1,背后并非大廠重兵投入,而是一支不到15人的華人研究團隊。
Uni-1發布后評論一片叫好,甚至引來谷歌DeepMind首席科學家、Nano Banana項目技術負責人Oliver Wang點贊:
![]()
英偉達機器人主管Jim Fan也送上了祝福:
![]()
Uni-1效果到底有多炸?話不多說,來看更多圖。
解鎖多元創作場景
馬年新春賀卡
先來一個簡單的測試:
生成一張馬年新春賀卡,要包含“新春快樂”、“馬年大吉·萬事如意”、“馬年 二〇二六”等中文文字。
![]()
Uni-1生成的賀卡文字內容完整、排版合理,馬的形象和中國傳統剪紙風格高度一致。相比之下,GPT Image 1.5出現了文字混亂,Nano Banana Pro的文字渲染也有明顯瑕疵。
中文文字渲染一直是圖像生成模型的“照妖鏡”——Uni-1交出了一份相當能打的答卷。
多參考圖場景合成
給模型5張參考圖——兩只貓、兩位男士、Luma AI的logo——要求合成一個會議場景:
一只貓展示Luma AI幻燈片,另一只貓旁聽,同時融入真人照片和logo。
![]()
Uni-1精確還原了每張參考圖的身份特征——貓的毛色花紋、男士的五官和發型、logo的細節——并將它們合理地組織進了同一個場景。
GPT Image 1.5則把參考圖片直接“貼”到了幻燈片上,而Nano Banana Pro連基本的參考圖融合都沒做到。
信息圖提取
給模型一張地鐵站實拍的“THE BEES NEED YOU”公益海報,要求提取為可直接用于生產的信息圖——生成完整圖片,不帶占位框,準確還原信息圖中所有可見文字。
![]()
這個任務同時考驗“看”和“畫”兩種能力:
先要理解實拍海報里的全部信息層級,再要重新生成一張排版清晰的信息圖。
Uni-1準確還原了完整的海報布局、所有文字、正確配色,以及黑色草地剪影和正確的縱橫比。GPT Image 1.5部分文字顏色錯誤,底部文字全部缺失,野花種子和蜜蜂的logo也出了問題。Nano Banana Pro整體布局尚可,但底部文字同樣缺失。
草稿轉漫畫
再來看生成能力——把一張粗糙的草稿(貓站在書架上,旁邊有人說”Hey! Get down from there!”)轉化為專業級漫畫。
![]()
Uni-1完美地將草稿意圖轉化為專業漫畫:分格構圖、對話氣泡的位置和方向都精準還原,所有細節完整保留——貓耳朵、翹起的尾巴、卷煙缸、書架上的書,甚至手機屏幕顯示著911。
鋼琴前的一生:6幀故事板
下面可能是最能體現Uni-1實力的demo之一。
要求:生成6幀故事板,展示同一個角色從童年到老年在鋼琴前的一生。一個人從男孩到少年、到青年、到中年、到老年,最后變成一家人在臺上的大合照。
![]()
6幀畫面中角色身份保持一致——同一張臉,鋼琴、透視和畫風不變,僅人物形象和背景隨時間變化。這種跨幀的角色一致性和時間敘事能力,是當前圖像模型的核心難題之一。
UV貼圖生成
給模型一個人從不同角度拍攝的三張照片(正面、左側、右側),要求生成一張標準面部拓撲的展開UV貼圖。
![]()
UV貼圖是3D建模中的核心環節,對面部對齊、左右對稱和膚色一致性要求極高。
Uni-1生成的UV貼圖在這三個維度上都明顯優于GPT Image 1.5、Nano Banana Pro:
GPT Image 1.5的正臉和側面貼圖出現了不一致,Nano Banana Pro則完全沒能生成符合標準UV布局規范的結果。
能搞定這種專業級3D任務,說明Uni-1不只是“畫圖好看”,而是真正具備了對三維空間結構的深層理解。
不到15人,憑什么?
看完效果,你可能會好奇:這些通常只在大廠才能看到的結果,到底是怎么從一個不到15人的團隊手里做出來的?
答案或許就藏在這支團隊的兩位研究負責人身上。
宋佳銘,清華大學本科,斯坦福大學博士。
他最廣為人知的貢獻是發明了DDIM(Denoising Diffusion Implicit Models)。如果你用過任何基于擴散模型的圖像生成工具,從Stable Diffusion到DALL·E,背后幾乎都離不開DDIM帶來的采樣加速技術。
這篇論文至今被引用超過萬次,并獲得ICLR 2022 Outstanding Paper Award。
![]()
沈博魁,斯坦福大學本科及博士。
他的代表作獲得了CVPR 2018 Best Paper Award——CVPR是計算機視覺領域的頂級會議,每年僅有極少數論文能獲此殊榮。此外,他還入選了RSS 2022 Best Student Paper Finalist。
![]()
一位是擴散模型加速的奠基人,一位是計算機視覺的頂尖研究者——兩位華人學者聯手,帶領一支精銳小隊,選擇了一條和大廠截然不同的路線:
不是把理解和生成分開做,而是用一個統一的模型把兩件事一起搞定。
統一模型:給邏輯大腦長出“心靈之眼”
Uni-1的核心理念,用Luma自己的話說,就是“給邏輯大腦長出心靈之眼”。
傳統路線下,圖像理解(看圖說話、物體檢測)和圖像生成(文生圖、圖像編輯)是兩套獨立的系統。但Uni-1采用了一種decoder-only自回歸Transformer架構,將文本和圖像表示在同一個交錯序列中——既是輸入,也是輸出。
這意味著,Uni-1不需要分別訓練“理解模塊”和“生成模塊”,而是在一個統一框架內同時建模時間、空間和邏輯。
更有意思的是,Luma發現生成訓練能顯著提升理解能力。換句話說,當模型學會“畫畫”之后,它“看圖”的能力也變強了——這和人類的認知規律竟然高度一致。
在推理式生成任務中,Uni-1會在合成圖像前進行結構化的內部推理:先分解指令、規劃構圖,然后再渲染輸出
這種“先想后畫”的能力,讓它在RISEBench(評估時間推理、因果推理、空間推理和邏輯推理四個維度的基準測試)上取得了世界最優成績
![]()
在開放詞匯密集檢測(ODinW-13)基準上,Uni-1同樣展現出了強勁的競爭力——要知道,這是一個傳統上由純理解模型主導的領域。一個統一模型能在理解任務上也不輸專門的理解模型,本身就已經是一個重要的信號。
為什么這很重要?
把Uni-1放到更大的AI行業圖景中看,有兩件事值得關注:
第一,統一模型可能是下一代視覺AI的方向。
當理解和生成不再是兩個獨立系統,而是同一個模型的兩面,很多過去需要復雜pipeline的任務——多輪編輯、參考圖合成、風格遷移——都可以在一個模型內優雅地完成。Uni-1已經在這些任務上展示了這種優勢。
第二,頂尖AI研究不一定需要萬人團隊和無限算力。
不到15人的華人研究團隊,在一個被Google和OpenAI主導的賽道上做出了世界級的成果。這再次證明:在正確的技術路線上,優秀的人才密度可以彌補資源的差距。
Luma表示,Uni-1只是第一步。下一階段,這個統一框架將從靜態圖像擴展到視頻、語音、交互式世界模擬——最終目標是構建能夠“看、說、推理、想象”的統一多模態系統。
從一個不到15人的華人團隊開始,這個目標或許并不遙遠。
Luma AI官方博客:https://lumalabs.ai/uni-1
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.