網易首頁 > 網易號 > 正文申請入駐

黑馬圖像模型被Nano Banana技術負責人點贊！

2026-03-06 22:34:17　來源: 量子位

北京舉報

分享至

允中發自凹非寺
量子位 | 公眾號 QbitAI

圖像界又殺出一匹黑馬！

剛剛，Luma AI甩出全新模型Uni-1，正面對標谷歌Nano Banana Pro和GPT Image 1.5。

Uni-1是一個統一的圖像理解與生成模型。

在官方展示中，Uni-1具備角色姿態遷移、故事板生成、草稿+材質結合參考生成、草稿轉漫畫、多參考圖場景合成、草稿引導的照片編輯、UV貼圖生成、帶有文字的賀卡海報生成等諸多能力。

在多項權威任務評測中，Uni-1不僅能對標Nano Banana Pro、GPT Image 1.5，部分任務的表現更是達到世界領先水平。

例如下面這個案例，Uni-1精準拿捏細節，在風格一致性、元素融合度和細節還原上更勝一籌。

更令人意外的是，能實現如此驚艷效果的Uni-1，背后并非大廠重兵投入，而是一支不到15人的華人研究團隊。

Uni-1發布后評論一片叫好，甚至引來谷歌DeepMind首席科學家、Nano Banana項目技術負責人Oliver Wang點贊：

英偉達機器人主管Jim Fan也送上了祝福：

Uni-1效果到底有多炸？話不多說，來看更多圖。

解鎖多元創作場景

馬年新春賀卡

先來一個簡單的測試：

生成一張馬年新春賀卡，要包含“新春快樂”、“馬年大吉·萬事如意”、“馬年二〇二六”等中文文字。

Uni-1生成的賀卡文字內容完整、排版合理，馬的形象和中國傳統剪紙風格高度一致。相比之下，GPT Image 1.5出現了文字混亂，Nano Banana Pro的文字渲染也有明顯瑕疵。

中文文字渲染一直是圖像生成模型的“照妖鏡”——Uni-1交出了一份相當能打的答卷。

多參考圖場景合成

給模型5張參考圖——兩只貓、兩位男士、Luma AI的logo——要求合成一個會議場景：

一只貓展示Luma AI幻燈片，另一只貓旁聽，同時融入真人照片和logo。

Uni-1精確還原了每張參考圖的身份特征——貓的毛色花紋、男士的五官和發型、logo的細節——并將它們合理地組織進了同一個場景。

GPT Image 1.5則把參考圖片直接“貼”到了幻燈片上，而Nano Banana Pro連基本的參考圖融合都沒做到。

信息圖提取

給模型一張地鐵站實拍的“THE BEES NEED YOU”公益海報，要求提取為可直接用于生產的信息圖——生成完整圖片，不帶占位框，準確還原信息圖中所有可見文字。

這個任務同時考驗“看”和“畫”兩種能力：

先要理解實拍海報里的全部信息層級，再要重新生成一張排版清晰的信息圖。

Uni-1準確還原了完整的海報布局、所有文字、正確配色，以及黑色草地剪影和正確的縱橫比。GPT Image 1.5部分文字顏色錯誤，底部文字全部缺失，野花種子和蜜蜂的logo也出了問題。Nano Banana Pro整體布局尚可，但底部文字同樣缺失。

草稿轉漫畫

再來看生成能力——把一張粗糙的草稿（貓站在書架上，旁邊有人說”Hey! Get down from there!”）轉化為專業級漫畫。

Uni-1完美地將草稿意圖轉化為專業漫畫：分格構圖、對話氣泡的位置和方向都精準還原，所有細節完整保留——貓耳朵、翹起的尾巴、卷煙缸、書架上的書，甚至手機屏幕顯示著911。

鋼琴前的一生：6幀故事板

下面可能是最能體現Uni-1實力的demo之一。

要求：生成6幀故事板，展示同一個角色從童年到老年在鋼琴前的一生。一個人從男孩到少年、到青年、到中年、到老年，最后變成一家人在臺上的大合照。

6幀畫面中角色身份保持一致——同一張臉，鋼琴、透視和畫風不變，僅人物形象和背景隨時間變化。這種跨幀的角色一致性和時間敘事能力，是當前圖像模型的核心難題之一。

UV貼圖生成

給模型一個人從不同角度拍攝的三張照片（正面、左側、右側），要求生成一張標準面部拓撲的展開UV貼圖。

UV貼圖是3D建模中的核心環節，對面部對齊、左右對稱和膚色一致性要求極高。

Uni-1生成的UV貼圖在這三個維度上都明顯優于GPT Image 1.5、Nano Banana Pro：

GPT Image 1.5的正臉和側面貼圖出現了不一致，Nano Banana Pro則完全沒能生成符合標準UV布局規范的結果。

能搞定這種專業級3D任務，說明Uni-1不只是“畫圖好看”，而是真正具備了對三維空間結構的深層理解。

不到15人，憑什么？

看完效果，你可能會好奇：這些通常只在大廠才能看到的結果，到底是怎么從一個不到15人的團隊手里做出來的？

答案或許就藏在這支團隊的兩位研究負責人身上。

宋佳銘，清華大學本科，斯坦福大學博士。

他最廣為人知的貢獻是發明了DDIM（Denoising Diffusion Implicit Models）。如果你用過任何基于擴散模型的圖像生成工具，從Stable Diffusion到DALL·E，背后幾乎都離不開DDIM帶來的采樣加速技術。

這篇論文至今被引用超過萬次，并獲得ICLR 2022 Outstanding Paper Award。

沈博魁，斯坦福大學本科及博士。

他的代表作獲得了CVPR 2018 Best Paper Award——CVPR是計算機視覺領域的頂級會議，每年僅有極少數論文能獲此殊榮。此外，他還入選了RSS 2022 Best Student Paper Finalist。

一位是擴散模型加速的奠基人，一位是計算機視覺的頂尖研究者——兩位華人學者聯手，帶領一支精銳小隊，選擇了一條和大廠截然不同的路線：

不是把理解和生成分開做，而是用一個統一的模型把兩件事一起搞定。

統一模型：給邏輯大腦長出“心靈之眼”

Uni-1的核心理念，用Luma自己的話說，就是“給邏輯大腦長出心靈之眼”。

傳統路線下，圖像理解（看圖說話、物體檢測）和圖像生成（文生圖、圖像編輯）是兩套獨立的系統。但Uni-1采用了一種decoder-only自回歸Transformer架構，將文本和圖像表示在同一個交錯序列中——既是輸入，也是輸出。

這意味著，Uni-1不需要分別訓練“理解模塊”和“生成模塊”，而是在一個統一框架內同時建模時間、空間和邏輯。

更有意思的是，Luma發現生成訓練能顯著提升理解能力。換句話說，當模型學會“畫畫”之后，它“看圖”的能力也變強了——這和人類的認知規律竟然高度一致。

在推理式生成任務中，Uni-1會在合成圖像前進行結構化的內部推理：先分解指令、規劃構圖，然后再渲染輸出

這種“先想后畫”的能力，讓它在RISEBench（評估時間推理、因果推理、空間推理和邏輯推理四個維度的基準測試）上取得了世界最優成績

在開放詞匯密集檢測（ODinW-13）基準上，Uni-1同樣展現出了強勁的競爭力——要知道，這是一個傳統上由純理解模型主導的領域。一個統一模型能在理解任務上也不輸專門的理解模型，本身就已經是一個重要的信號。

為什么這很重要？

把Uni-1放到更大的AI行業圖景中看，有兩件事值得關注：

第一，統一模型可能是下一代視覺AI的方向。

當理解和生成不再是兩個獨立系統，而是同一個模型的兩面，很多過去需要復雜pipeline的任務——多輪編輯、參考圖合成、風格遷移——都可以在一個模型內優雅地完成。Uni-1已經在這些任務上展示了這種優勢。

第二，頂尖AI研究不一定需要萬人團隊和無限算力。

不到15人的華人研究團隊，在一個被Google和OpenAI主導的賽道上做出了世界級的成果。這再次證明：在正確的技術路線上，優秀的人才密度可以彌補資源的差距。

Luma表示，Uni-1只是第一步。下一階段，這個統一框架將從靜態圖像擴展到視頻、語音、交互式世界模擬——最終目標是構建能夠“看、說、推理、想象”的統一多模態系統。

從一個不到15人的華人團隊開始，這個目標或許并不遙遠。

Luma AI官方博客：https://lumalabs.ai/uni-1

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

Claude考場突然「覺醒」，自行寫代碼偷答案！人類考試，管不住AI了

新智元 2026-03-09 19:50:11
1 跟貼 1
GAN之父Ian Goodfellow病后歸來，劍指高效世界模型

機器之心Pro 2026-03-09 14:31:36
1 跟貼 1

訓練到推理「瘦身」演進：首篇高效擴散語言模型（dLLM）深度綜述

機器之心Pro 2026-03-10 10:00:07
0 跟貼 0

吃瓜、開會、追熱點，我靠AI穩坐信息高地

36氪 2025-11-27 18:27:11
0 跟貼 0
30B參數超越GPT-5！REDSearcher讓深度搜索Agent做到低成本可擴展

機器之心Pro 2026-03-09 13:28:51
0 跟貼 0

不同靈巧手，終于可以共用「一套大腦」了

機器之心Pro 2026-03-06 14:40:41
0 跟貼 0

VL-LN Bench：模擬「邊走邊問找具體目標」的真實導航場景

機器之心Pro 2026-02-02 17:10:55
0 跟貼 0
1美元Token撬動4800美元收益!百萬美元級基準,最賺錢Agent出現了

機器之心Pro 2026-03-10 10:06:03
0 跟貼 0

周鴻祎談“龍蝦”爆火：很快就能“一鍵安裝”

大象新聞 2026-03-09 11:37:43
260 跟貼 260
對話南理工楊劍飛：機器人走進家庭之前，必須先學會如何與人共處

DeepTech深科技 2025-12-28 18:38:06
0 跟貼 0
別被忽悠了！Openclaw取代打工人？我搭了一次發現驚人真相

雷科技 2026-03-10 10:55:29
0 跟貼 0
國內大廠首個開源龍蝦來了！網易有道LobsterAI發布，能干啥？

雷科技 2026-03-10 11:09:08
0 跟貼 0
陶哲軒用Claude Code解題，兩度宕機，因為token不夠用

DeepTech深科技 2026-03-09 18:31:36
0 跟貼 0
Nano Banana終于不是文盲了，但我可能會變「傻」

愛范兒 2025-11-24 14:33:39
0 跟貼 0
ICLR 2026｜早于DeepSeek Engram，STEM已重構Transformer記憶

機器之心Pro 2026-03-09 14:50:58
0 跟貼 0
才播4集，收視率全國第三！央八這部年代劇，又是2026黑馬

清衣渡a 2026-03-10 09:10:05
1 跟貼 1
2026年最強AI PPT神器！一點PPT助你搞定職場匯報

中關村在線 2026-03-06 11:31:37
26 跟貼 26
Nano Banana 2 完整使用指南，零門檻高效上手

AK007設計師 2026-03-07 00:49:30
0 跟貼 0
充氣模型如何騙取導彈

純白的夢j 2026-03-07 07:35:38
0 跟貼 0
NBA最新排名：騎士僅第四，綠凱黑馬第二，老鷹第九，籃網墊底

籃球看比賽 2026-03-10 11:16:55
0 跟貼 0
只有梅西可以做到，原地靜態擺脫為所欲為！

足球印象CC 2026-03-06 19:17:34
23 跟貼 23
男孩放羊時遇到河流，趴在羊背上讓羊馱著他過河

南陽日報 2026-03-09 15:31:35
441 跟貼 441
日本部署遠程導彈射程在1000公里左右

參考消息 2026-03-09 14:33:40
25231 跟貼 25231
伊朗媒體發布一則用玩具模型制作的視頻，講述戰爭如何結束

車馬點兵V 2026-03-08 13:42:50
0 跟貼 0
工地智能外衣隔絕99%揚塵，網友建議推廣

新華社 2026-03-10 01:41:50
45 跟貼 45
深度剖析東大對薩德問題態度轉變的內在邏輯，一起來聽聽

八極拳兌一 2026-03-10 03:48:51
1 跟貼 1
大風315 | 游客稱飛3000公里在西雙版納一景區游玩，因明星錄制綜藝節目被清場；景區：具體情況需由游客回應

大風新聞 2026-03-09 17:06:09
6035 跟貼 6035
3B打32B？海外病毒式傳播的小模型，竟然來自BOSS直聘

機器之心Pro 2026-03-09 14:09:17
1 跟貼 1
一鍵生成PPT和科研繪圖，北大開源Paper2Any，全流程可編輯

機器之心Pro 2026-01-04 17:32:26
4 跟貼 4
衛星圖像顯示，伊朗梅赫拉巴德機場遭受重創，至少16架飛機受損

偵姐有料 2026-03-09 13:53:49
119 跟貼 119
卡樂比 1:72B-58“盜賊”戰略轟炸機合金成品模型開箱測評

DS北風 2026-03-07 19:49:42
6 跟貼 6
女子在杭州西湖景區把“西泠印社”認成“杜帥冷面”，網友：四個字認錯五個，當事人：沒有文化確實不行

揚子晚報 2026-03-06 17:44:56
1447 跟貼 1447
吉林煙草公司招聘78人

吉刻新聞 2026-03-09 15:12:18
169 跟貼 169
900V平臺+6C充電倍率，靜態體驗至境世家純電版

苑叔聊車官方賬號 2026-03-07 11:35:08
6 跟貼 6
極氪8X靜態體驗：大五座SUV中，它真有點不一樣！

Eva的科技生活 2026-03-09 10:36:37
0 跟貼 0
美國、德國、英國、法國、意大利、加拿大和日本將召開緊急會議

澎湃新聞 2026-03-09 21:58:04
289 跟貼 289
女孩花50元買5枝玫瑰送媽媽，父親大鬧花店，“不退錢就讓店開不下去！” 網友：可能是孩子一生的陰影

大風新聞 2026-03-09 21:28:05
1168 跟貼 1168
網友3D建模2D效果大揭秘！3D建模2D效果哈哈

柚子Video 2026-03-08 09:47:12
1 跟貼 1
43天寒假無休送外賣掙萬元，財務管理專業大三學生收獲人生“第一桶金”

封面新聞 2026-03-09 13:14:08
6198 跟貼 6198
無需訓練、即插即用，這個解碼方法讓模型學會謹慎思考

DeepTech深科技 2026-02-23 20:21:48
0 跟貼 0

量子位

追蹤人工智能動態

12254文章數 176413關注度

往期回顧全部

G7稱暫不釋放油儲但"隨時準備"采取必要措施

汽車要聞

蔚來換電和理想5C，誰能硬剛，比亞迪兆瓦閃充？

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

藝術

房產

旅游

健康

時尚

手機 / 數碼

房產 / 家居

黑馬圖像模型被Nano Banana技術負責人點贊！

解鎖多元創作場景

不到15人，憑什么？

統一模型：給邏輯大腦長出“心靈之眼”

為什么這很重要？

“龍蝦”狂歡，賣“飼料”的先掙錢了

應對來自伊朗的無人機 澤連斯基稱已有11國向烏方求助

應對來自伊朗的無人機 澤連斯基稱已有11國向烏方求助

韓國女足羨慕的奢侈品，為何選擇中國女足

肖戰首奪SMG視帝，孫儷四封視后創歷史

全民"養龍蝦"背后 第一批受害者浮現

蔚來換電和理想5C，誰能硬剛，比亞迪兆瓦閃充？

態度原創

30000畝杏花開了，新疆的春天這么美！

國家要砸400億！海南這個超級項目又有新消息！

轉頭就暈的耳石癥，能開車上班嗎？

今年最流行的5條半裙，怎么搭都好看！

應對來自伊朗的無人機澤連斯基稱已有11國向烏方求助

應對來自伊朗的無人機澤連斯基稱已有11國向烏方求助

全民"養龍蝦"背后第一批受害者浮現