網易首頁 > 網易號 > 正文申請入駐

海外華人團隊打造，統一理解與生成的圖像模型，超越Nano banana

2026-03-06 14:31:14　來源: 機器之心Pro

北京舉報

分享至

機器之心編輯部

上周，谷歌推出了 Nano Banana 2，主打一個又快又便宜，迅速在社交平臺刷屏。

網友們在 X 上曬出各種效果圖，有像素級還原的產品渲染、細節拉滿的人物寫真、風格各異的插畫……

這股熱浪還未消退，海外 AI 初創公司 Luma 也發布了一款最新圖像生成模型 Uni-1。

這是 Luma 首個將「理解」與「生成」統一在同一套架構里的模型，試圖讓 AI 不只會畫，還真的會想。

比如，它生成的極具視覺沖擊力的時尚雜志大片：

Prompt：Figure seen from behind wearing a flowing white cloak and wide-brimmed black hat standing in a vast field of tall vivid red grass, rolling hill stretching to the horizon, deep saturated blue sky with no clouds, strong color contrast between red field white fabric and blue sky, shot on medium format film, infrared photography aesthetic, high fashion editorial feel, sharp shadows, portrait orientation

生成同一棵櫻花樹的四季景色更迭：

Prompt：The four seasons of a single cherry blossom tree shown simultaneously in one image, divided into four vertical strips left to right: spring with pink blossoms and rain, summer with full green canopy and butterflies, autumn with red and gold leaves falling, winter with bare branches and fresh snow. Same tree, same angle, seamless transitions between seasons.

該模型采用 decoder-only 自回歸 Transformer 架構，在 RISEBench 推理式生成基準上取得最優成績，并在 ODinW-13 開放詞匯密集檢測等理解任務上展現出強勁競爭力。

這款模型效果咋樣，還得拉出來遛遛。

這款模型成色幾何？

接下來，我們將通過多組任務，看看 Uni-1 在不同場景下的具體表現。所有對比均在相同 prompt 條件下與 GPT Image 1.5 和 Google Nano Banana Pro 進行。

中文文字渲染：馬年新春賀卡

Prompt：生成一張包含「新春快樂」、「馬年大吉?萬事如意」、「馬年二〇二六」等中文文字的馬年新春賀卡。

中文文字渲染長期以來是圖像生成模型的薄弱環節，涉及字符級別的精確控制和排版語義理解。

Uni-1 生成的賀卡在文字完整性、排版合理性和視覺風格一致性上均優于對比模型。GPT Image 1.5 出現了文字排列混亂的問題，而 Nano Banana Pro 的文字渲染存在明顯的筆畫瑕疵。

信息圖理解與生成

海報提取為信息圖

Prompt：將一張「THE BEES NEED YOU」公益海報提取為可用于生產的信息圖，直接生成完整圖片，不帶任何占位框，清楚描述信息圖中所有可見文字。

該任務同時考驗模型的視覺理解能力（準確提取海報中的文字和版式信息）和生成能力（重新組織為清晰的信息圖）。Uni-1 準確還原了文字內容、保持了正確的層級結構。而 GPT Image 1.5 混淆了文字層級，部分文字難以辨認；Nano Banana Pro 則未能完整呈現信息圖的內容。

密集文字信息圖

Prompt：生成一張關于{水鐘（Clepsydra）與古代計時}的密集文字信息圖，包含多個知識板塊和精細插圖。

該任務要求模型在單張圖像中同時處理大量文字、圖表和插圖元素。Uni-1 在布局規劃、文字清晰度和圖文配合方面的表現優于其他模型。其生成的信息圖在多個知識板塊之間保持了視覺層級和邏輯連貫性。

平鋪式信息圖

Prompt：生成「種子到植物生命周期」（Seed-to-Plant Life Cycle）的平鋪式信息圖。

Uni-1 準確呈現了完整的生命周期階段，每個階段的插圖和標注文字清晰可辨。值得注意的是，Uni-1 在處理「Young Plant」到「Mature Plant」的過渡階段時，正確呈現了植物形態的漸變關系，展現了對生物學常識的理解。

參考圖引導生成

多參考圖場景合成（對比）

Prompt：給定 4 張參考圖（兩只貓的形象、一位真人照片、Luma AI 的 logo），合成一個會議討論場景 —— 一只貓在展示關于 Luma AI 的幻燈片，另一只貓在旁聽，同時融入真人照片和品牌 logo。

這一任務要求模型同時理解多張參考圖的語義身份，并將它們合理地組織在一個新場景中。Uni-1 準確保留了每個參考對象的身份特征，并實現了合理的場景構圖。相比之下，GPT Image 1.5 將參考圖的原始圖片直接嵌入了幻燈片區域，缺乏語義層面的融合；Nano Banana Pro 則未能有效利用全部參考信息。

5 張參考圖場景合成

Prompt：將 5 張參考圖 ——3 只動物、一個 logo 和學術畢業禮帽 —— 融合為一個連貫場景。

Uni-1 在處理 5 個不同參考源時，準確保留了每只動物各自的身份特征（毛色花紋、品種、頭部輪廓），同時將學術氛圍元素和品牌 logo 有機地融入了同一畫面，展現了對多源參考信息的精確控制能力。

漫畫角色參考（對比）

Prompt：融合角色設計圖和配色方案生成一個漫畫角色，同時將品牌 logo 自然地融入角色身上。

Uni-1 準確地將配色方案應用于二維漫畫角色，保持了角色設計和 logo 的完整性。GPT Image 1.5 則未能區分 2D 和 3D 風格，生成了偏寫實的 3D 人偶；Nano Banana Pro 未能準確識別角色設計圖的意圖。

草稿 + 材質→產品渲染

Prompt：將外套設計草稿與面料材質參考結合，生成寫實的產品概念圖。

Uni-1 準確地將面料的紋理質感 —— 燈芯絨的條紋、高級面料的光澤和垂墜感 —— 映射到了草稿的輪廓上，生成了具有商業可用度的產品渲染圖。這類任務在時裝設計和工業設計領域具有直接的應用價值。

草稿引導編輯與轉化

草稿引導的照片編輯

Prompt：將手繪草稿疊加轉化為寫實編輯 —— 在一張貓的照片旁，以草稿為參考添加一只彩色蝴蝶。

Uni-1 將草稿的疊加轉化為寫實的照片編輯，保持了原始照片的細節完整性：貓的身份信息（毛色花紋、耳部形態）、環境（光線和背景）均未受影響，新增的蝴蝶自然融入了場景。

草稿轉漫畫

Prompt：將一張粗略草稿（貓站在書架上的多格漫畫分鏡）轉化為精細漫畫插圖。

Uni-1 將草稿的分鏡結構、人物動態和對話氣泡位置完整地轉化為專業漫畫畫面。所有細部信息均被保留并精細化：貓耳朵的弧度、卷煙缸的位置、書架上的書本排列，以及手機屏幕上顯示的「911」文字，體現了模型對草稿語義的深層理解。

風格遷移與角色一致性

發型遷移至名畫

Prompt：將一位現代女性的棕金色層次發型遷移至蒙娜麗莎的畫像上，同時保留文藝復興油畫的藝術風格。

該任務要求模型精確區分「需要遷移的元素」（發型的形態和色彩）和「需要保留的元素」（達?芬奇的暈涂法畫風、背景、衣著、面部神態）。Uni-1 在兩個維度上均表現出良好的控制力，生成結果在風格一致性和遷移準確性之間取得了平衡。

角色姿態遷移

Prompt：將真實人物的姿態遷移到虛構角色上，同時保留角色身份和環境設定。

參考圖中一名男子在電梯間的半蹲姿勢被遷移至一個穿宇航服的擬人化老鼠角色上，場景被重構為工業風格背景。Uni-1 在保持角色完整身份的同時 —— 鱗片狀外衣、宇航服細節、耳機和口袋設計 —— 準確還原了參考姿態的關節角度和重心分布，體現了對人體動力學和角色設計語義的雙重理解。

故事板生成：鋼琴前的一生

Prompt：生成 6 幀故事板，展示同一角色從童年到老年在鋼琴前的一生。

6 幀畫面中角色的身份特征保持一致 —— 面部結構、膚色在不同年齡階段平滑演變，同時鋼琴、透視和畫面風格保持穩定。從第 1 幀的小男孩到第 6 幀的大家庭合照，全程維持了敘事連貫性和時間邏輯。這種跨幀的長程角色一致性和時間推理能力，是當前圖像模型面臨的核心挑戰之一。

多輪交互編輯

多輪編輯

Prompt：對一張泰迪熊照片進行連續三輪編輯 —— 第 1 輪「去掉面前這只熊」，第 2 輪「背景上加一個黑色布簾」，第 3 輪「讓它變成黑白照片的風格」。

多輪編輯是檢驗統一模型優勢的典型場景。每一輪編輯都需要模型在執行新指令的同時，保持此前所有編輯結果的一致性和空間布局的穩定性。Uni-1 在三輪編輯中均精準執行了指令，且主體身份和空間關系在各輪之間保持了連貫。這正是統一架構的優勢所在 —— 理解和生成在同一個模型內完成，不需要在不同模塊間傳遞和對齊信息。

專業視覺任務

UV 貼圖生成（對比）

Prompt：給定一人從不同角度拍攝的三張照片（正面、左側、右側），生成一張標準面部拓撲 / SMPL 體和布局的展開 UV 貼圖。

UV 貼圖生成是 3D 建模工作流中的關鍵環節。Uni-1 生成的 UV 貼圖在面部特征對齊、左右對稱性和膚色一致性方面均優于對比模型。GPT Image 1.5 遭遇了正臉和側面貼圖的不一致問題，而 Nano Banana Pro 則未能生成符合標準 UV 布局規范的結果。

技術路線：從「分治」到「統一」

在當前的視覺 AI 領域，圖像理解（如視覺問答、物體檢測、圖像分割）和圖像生成（如文生圖、圖像編輯、風格遷移）長期以來是兩條獨立的技術路線，各自使用不同的模型架構和訓練范式。

這種「分治」策略雖然在各自領域取得了顯著進展，但也帶來了明顯的局限：理解模型缺乏視覺想象力，生成模型缺乏深層語義理解，而需要兩者協同的復雜任務（如多輪引導編輯、基于推理的圖像合成）則往往需要拼接多個模型的復雜 pipeline。

Uni-1 的核心設計思路是將這兩種能力統一在單一模型中，即在一個具備推理能力的模型基礎上，同時賦予它視覺生成的能力

具體而言，Uni-1 采用decoder-only 自回歸 Transformer 架構，將文本 token 和圖像 token 表示在同一個交錯序列（interleaved sequence）中。在這一框架下，文本和圖像既可以作為輸入條件，也可以作為生成輸出，實現了對時間、空間和邏輯的聯合建模。

這種架構選擇帶來了一個值得注意的發現：生成訓練能夠顯著提升模型的細粒度理解能力

換言之，當模型通過生成任務學會了「如何畫出」一個場景后，它對場景的理解 —— 包括物體關系、空間布局、語義層次 —— 也隨之增強。這與認知科學中關于「生成式心智模型」的假說不謀而合。

Uni-1 的一個關鍵技術特征是推理式生成（reasoning-informed generation）。在接收到復雜的圖像合成指令后，模型并非直接進入像素生成階段，而是首先進行結構化的內部推理：分解指令語義、規劃畫面構圖、確定元素間的邏輯關系，然后再執行渲染。

在評估這一能力的 RISEBench 基準測試中，Uni-1 取得了當前最優成績。RISEBench 覆蓋四個推理維度：時間推理、因果推理、空間推理和邏輯推理，是目前評估生成模型推理能力最全面的基準之一。

理解能力方面，在 ODinW-13 開放詞匯密集檢測基準上取得有競爭力的成績。該基準傳統上由專門的理解模型主導，Uni-1 作為統一模型在此基準上的表現，驗證了「生成訓練提升理解能力」這一技術假說的有效性。

起底背后團隊

Uni-1 的核心研究團隊不到 15 人，由兩位華人學者領銜。

公司首席科學家宋佳銘，本科畢業于清華大學，博士就讀于斯坦福大學，師從 Stefano Ermon。

他最廣為人知的工作是發明了 DDIM—— 一種大幅加速擴散模型采樣速度的算法，如今已被 Stable Diffusion、DALL?E 等主流圖像生成系統廣泛采用。

他在 ICLR 2022 上憑借這項工作拿到了 Outstanding Paper Award，引用量超過萬次。

隨后在 NVIDIA Research 工作了一段時間，再加入 Luma，先后主導了視頻生成模型 Dream Machine 和文生 3D 模型 Genie 的訓練工作，Uni-1 是他帶隊推進的最新成果。

另一位核心研究負責人 William Shen（沈博魁）同樣是斯坦福計算機科學博士，師從 Silvio Savarese 和 Leonidas Guibas，本科也在斯坦福完成，畢業時獲得系里榮譽和全校杰出畢業生稱號。

他的研究橫跨計算機視覺、機器人、圖形學和生成模型，曾獲 CVPR Best Paper Award 和 RSS Best Student Paper Award 提名。

此外，沈博魁還曾作為 CEO 與聯合創始人創建 Apparate Labs，并主導推出一款讓魯迅說繞口令、赫本玩嘻哈的低延遲基礎模型 Proteus，而后被Luma AI收購。

這兩個人的履歷，放在任何一家頂級實驗室里都不會顯得突兀。但他們選擇了一家初創公司，選擇了在資源有限的條件下做一件他們認為正確的事。

結語

AI 領域從來不缺大力出奇跡的故事。

谷歌、OpenAI、Meta，每一家都在用巨量資源堆砌模型的上限，這是小公司難以復制的路徑。

然而 Luma 有另一套打法。在正確的方向上，用更聰明的架構設計，做出超越規模優勢的結果。

當然，一張基準測試榜單只是起點。Uni-1 目前還在向合作伙伴定向開放，距離大規模商業化還有距離。谷歌和 OpenAI 的迭代速度也從未放慢，Nano Banana 2 之后，下一個版本或許已經在路上了。

Uni-1 也只是 Luma 邁向統一多模態智能的第一步，后續統一框架將從靜態圖像擴展到視頻、語音和交互式世界模擬等模態，最終構建能夠在一個連續流中完成「看、說、推理、想象」的多模態系統。

在這個從來不缺大玩家的賽場上，Uni-1 證明了以小博大的可能性，小規模精英團隊在前沿 AI 研究中仍具有競爭力。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.