![]()
智東西
編譯 楊京麗
編輯 李水青
智東西3月24日消息,3月23日,硅谷初創公司Luma AI正式推出全新圖像模型Uni-1。該模型將圖像理解與圖像生成統一起來,因而既能思考又能創作。Uni-1基準測試與Google的Gemini 3 Pro持平,并且在高分辨率圖像生成任務中成本降低了約10%到30%,空間理解能力測試得分甚至超過谷歌Nano Banana 2和OpenAI GPT Image 1.5。
![]()
▲Luma AI官宣圖片模型Uni-1(圖源:X)
創立于2021年的Luma AI此前以視頻生成工具Dream Machine聞名。此次Uni-1的發布標志著其從單一視頻生成向“統一智能”方向轉型。該模型最早于3月5日隨Luma Agents創意平臺一同亮相,3月22日的公開發布則面向更廣泛的開發者和用戶。
值得注意的是,Uni-1大膽地在底層架構上做了一次“換道”,拋棄了當前主流的擴散模型(Diffusion)路線,轉而采用自回歸生成架構,即大語言模型所使用的“逐token預測”方法。這意味著,Uni-1在生成圖像時能夠像語言模型一樣進行推理,而非僅僅“降噪出圖”。一家150人的舊金山初創公司,正在試圖重新定義AI圖像生成的技術范式。
智東西也親身體驗了一下。我讓它“生成一張宿命感照片,一個長發飄飄的女子身穿戰國袍,配了把劍”,輸入提示詞后,他會先花幾秒鐘分析我的需求,然后再進行創作。創作花了差不多5分鐘終于完成了,生成的畫面很有電影感,頭發、衣擺隨風自然飄動,服飾很有質感。整體語義理解精準、細節豐富,但是仔細看可以發現劍出現了兩把,貌似有點小問題。
![]()
▲Uni-1生成的圖片(圖源:Lumalabs)
體驗鏈接在這里,大家也可以去試試。
https://app.lumalabs.ai/
一、告別擴散模型,Uni-1用“語言模型的方式”畫圖
要理解Uni-1的意義,需要先理解它替代了什么。目前AI圖像生成領域的主流方案是擴散模型,即從隨機噪聲出發,在文本嵌入的引導下逐步去噪,最終生成一張圖像。Midjourney、Stable Diffusion、谷歌Imagen 3等知名模型均基于這一范式。擴散模型的視覺效果不錯,但有一個根本性缺陷:它不具備真正的“推理”能力,無法在生成過程中思考空間關系、物理合理性或邏輯約束。
業界此前的應對方式是“打補丁”。比如,DALL-E 3用GPT-4先改寫用戶提示詞,再交給生成模型;谷歌Imagen 3則依賴Gemini做前置推理。這些方案本質上引入了一道“翻譯層”,用來消除創作中的理解偏差。
![]()
▲X上網友對于Uni-1的評價(圖源:X)
Uni-1則選擇了一種完全不同的方式。據Luma AI的技術文檔,Uni-1采用純解碼器(decoder-only)自回歸Transformer架構,即文本和圖像token在同一序列中交錯排列,共享傳播通道,不依賴獨立的視覺編碼器。Luma AI稱,Uni-1能在圖像合成前和合成中進行結構化內部推理,包括分解指令、解決約束和規劃構圖。
在實際操作中,模型可將多張寵物照片中的動物合成到一個全新場景中,穿上學術禮服、站在寫滿科學圖表的白板前,保留每只動物的獨特特征。以往這些任務通常需要大量手動調整或后期處理。
![]()
▲Uni-1技術文檔中示例圖片(圖源:Lumalabs)
二、關鍵跑分:推理能力拉開差距,邏輯推理得分翻倍
基于推理的視覺編輯的基準測試工具RISEBench從時間、因果、空間和邏輯四大維度對圖像生成AI進行了跑分,Uni-1綜合分0.51,谷歌Nano Banana 2得分0.50,Nano Banana Pro是0.49,OpenAI GPT Image 1.5是0.46。總分看著咬得很緊,我們可以聚焦不同維度來比一比:
- 空間推理:Uni-1得分0.58,Nano Banana 2僅0.47;
- 邏輯推理:Uni-1得分0.32,略次于Nano Banana 2(0.38),是GPT Image 1.5(0.15)和Qwen-Image-2(0.17)的兩倍以上。
![]()
▲五款圖片生成模型RISEBench跑分對比(圖源:Lumalabs)
在ODinW-13物體檢測基準測試中,Uni-1完整版得分46.2 mAP,幾乎追平谷歌Gemini 3 Pro的46.3,大幅領先Qwen3-VL-Thinking的43.2。值得注意的是,Uni-1僅具備理解能力(未經生成訓練)的變體得分為43.9,而完整版提升了2.3分。這直接證明了一個關鍵假設:學會生成圖像,能反過來提升模型的圖像理解能力。
![]()
▲物體檢測基準測試Uni-1幾乎追平谷歌Gemini 3 Pro(圖源:Lumalabs)
在與Midjourney v8的對比中,科技媒體The Decoder的測試認為Uni-1在復雜推理類生成任務上“明顯優于Midjourney v8”。有Reddit用戶在逐一對比后評價:“在真正的邏輯推理、復雜場景理解、空間合理性這些方面,Uni-1完全碾壓。”不過,Midjourney在藝術風格化和審美質感方面仍保有優勢。
三、定價策略:高分辨率比谷歌便宜,瞄準企業客戶
根據公開定價數據,Uni-1在企業常用的2K分辨率上具有明顯的價格優勢:
谷歌Nano Banana 2在低分辨率上仍有價格優勢,0.5K圖像約0.045美元/張(約合人民幣0.31元),1K圖像約0.067美元/張(約合人民幣0.46元)。對于大規模生產高分辨率圖像的企業團隊而言,Uni-1在質量和成本兩端同時占優。Luma AI在輸出端的token定價為每百萬token 45.45美元(約合人民幣322元)。
面向個人用戶,定價則分為包年、包月和單次計價三種模式。作為一家初創公司,Luma AI無法在分發渠道和基礎設施上與谷歌抗衡,“性能更強、價格更低”是它能打動客戶的核心籌碼。
![]()
▲Uni-1定價(圖源:Uni-1官網)
四、社區反饋:從“提示詞碰運氣”到“真正的創作控制”
Uni-1發布后,盡管大規模獨立測試仍在進行中,早期社區反應積極。
X平臺用戶反饋良好,網友直言,圖像生成終于不用費勁想提示詞了。Reddit上一位進行了逐項對比測試的用戶給出了更細致的評價:Nano Banana 2在速度和文字渲染上仍有優勢,但在“真正的邏輯推理、復雜場景理解和需要深度思考的編輯任務”上,Uni-1略勝一籌。該用戶總結道:“如果你在意的是圖像真正‘合理’,而不只是‘好看又快’,Uni-1是目前的最佳選擇。”
![]()
▲X上網友對于Uni-1的評價(圖源:X)
不過,也有用戶持觀望態度。部分用戶表示仍在等待完整API權限以進行獨立測試,對非拉丁文字的處理效果、極端邊緣場景以及最高分辨率下的生成速度仍有疑問。客觀地說,社區的興奮更多針對“新技術路線的突破感”,長期表現仍需時間驗證。
目前Uni-1可在lumalabs.ai免費體驗,API訪問正在逐步開放。
結語:Luma真的能后來居上嗎?
從Uni-1的發布可以預測到,AI圖像生成的競爭正在從“誰的圖更好看”轉向“誰的模型更能理解指令”。擴散模型統治這一領域已有三年之久,而自回歸架構以大語言模型式的推理能力切入,第一次在核心基準測試上證明了這條路線的可行性,也可能影響未來更多實驗室的技術路線選擇。
真正的考驗在于,Uni-1能否在API大規模調用、多語言支持和生成速度上經受住企業級場景的檢驗。這場“架構之爭”才剛剛進入正賽。你認為自回歸路線能在圖像生成領域站穩腳跟嗎?
來源:VentureBeat、Lumalabs、X、The Decoder
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.