網易首頁 > 網易號 > 正文申請入駐

挑戰谷歌！硅谷150人創企發新模型，性能比肩香蕉、價格便宜三成！

2026-03-24 20:17:21　來源: 智東西

北京舉報

分享至

智東西
編譯楊京麗
編輯李水青

智東西3月24日消息，3月23日，硅谷初創公司Luma AI正式推出全新圖像模型Uni-1。該模型將圖像理解與圖像生成統一起來，因而既能思考又能創作。Uni-1基準測試與Google的Gemini 3 Pro持平，并且在高分辨率圖像生成任務中成本降低了約10%到30%，空間理解能力測試得分甚至超過谷歌Nano Banana 2和OpenAI GPT Image 1.5。

▲Luma AI官宣圖片模型Uni-1（圖源：X）

創立于2021年的Luma AI此前以視頻生成工具Dream Machine聞名。此次Uni-1的發布標志著其從單一視頻生成向“統一智能”方向轉型。該模型最早于3月5日隨Luma Agents創意平臺一同亮相，3月22日的公開發布則面向更廣泛的開發者和用戶。

值得注意的是，Uni-1大膽地在底層架構上做了一次“換道”，拋棄了當前主流的擴散模型（Diffusion）路線，轉而采用自回歸生成架構，即大語言模型所使用的“逐token預測”方法。這意味著，Uni-1在生成圖像時能夠像語言模型一樣進行推理，而非僅僅“降噪出圖”。一家150人的舊金山初創公司，正在試圖重新定義AI圖像生成的技術范式。

智東西也親身體驗了一下。我讓它“生成一張宿命感照片，一個長發飄飄的女子身穿戰國袍，配了把劍”，輸入提示詞后，他會先花幾秒鐘分析我的需求，然后再進行創作。創作花了差不多5分鐘終于完成了，生成的畫面很有電影感，頭發、衣擺隨風自然飄動，服飾很有質感。整體語義理解精準、細節豐富，但是仔細看可以發現劍出現了兩把，貌似有點小問題。

▲Uni-1生成的圖片（圖源：Lumalabs）

體驗鏈接在這里，大家也可以去試試。
https://app.lumalabs.ai/

一、告別擴散模型，Uni-1用“語言模型的方式”畫圖

要理解Uni-1的意義，需要先理解它替代了什么。目前AI圖像生成領域的主流方案是擴散模型，即從隨機噪聲出發，在文本嵌入的引導下逐步去噪，最終生成一張圖像。Midjourney、Stable Diffusion、谷歌Imagen 3等知名模型均基于這一范式。擴散模型的視覺效果不錯，但有一個根本性缺陷：它不具備真正的“推理”能力，無法在生成過程中思考空間關系、物理合理性或邏輯約束。

業界此前的應對方式是“打補丁”。比如，DALL-E 3用GPT-4先改寫用戶提示詞，再交給生成模型；谷歌Imagen 3則依賴Gemini做前置推理。這些方案本質上引入了一道“翻譯層”，用來消除創作中的理解偏差。

▲X上網友對于Uni-1的評價（圖源：X）

Uni-1則選擇了一種完全不同的方式。據Luma AI的技術文檔，Uni-1采用純解碼器（decoder-only）自回歸Transformer架構，即文本和圖像token在同一序列中交錯排列，共享傳播通道，不依賴獨立的視覺編碼器。Luma AI稱，Uni-1能在圖像合成前和合成中進行結構化內部推理，包括分解指令、解決約束和規劃構圖。

在實際操作中，模型可將多張寵物照片中的動物合成到一個全新場景中，穿上學術禮服、站在寫滿科學圖表的白板前，保留每只動物的獨特特征。以往這些任務通常需要大量手動調整或后期處理。

▲Uni-1技術文檔中示例圖片（圖源：Lumalabs）

二、關鍵跑分：推理能力拉開差距，邏輯推理得分翻倍

基于推理的視覺編輯的基準測試工具RISEBench從時間、因果、空間和邏輯四大維度對圖像生成AI進行了跑分，Uni-1綜合分0.51，谷歌Nano Banana 2得分0.50，Nano Banana Pro是0.49，OpenAI GPT Image 1.5是0.46。總分看著咬得很緊，我們可以聚焦不同維度來比一比：

空間推理：Uni-1得分0.58，Nano Banana 2僅0.47；
邏輯推理：Uni-1得分0.32，略次于Nano Banana 2（0.38），是GPT Image 1.5（0.15）和Qwen-Image-2（0.17）的兩倍以上。

▲五款圖片生成模型RISEBench跑分對比（圖源：Lumalabs）

在ODinW-13物體檢測基準測試中，Uni-1完整版得分46.2 mAP，幾乎追平谷歌Gemini 3 Pro的46.3，大幅領先Qwen3-VL-Thinking的43.2。值得注意的是，Uni-1僅具備理解能力（未經生成訓練）的變體得分為43.9，而完整版提升了2.3分。這直接證明了一個關鍵假設：學會生成圖像，能反過來提升模型的圖像理解能力。

▲物體檢測基準測試Uni-1幾乎追平谷歌Gemini 3 Pro（圖源：Lumalabs）

在與Midjourney v8的對比中，科技媒體The Decoder的測試認為Uni-1在復雜推理類生成任務上“明顯優于Midjourney v8”。有Reddit用戶在逐一對比后評價：“在真正的邏輯推理、復雜場景理解、空間合理性這些方面，Uni-1完全碾壓。”不過，Midjourney在藝術風格化和審美質感方面仍保有優勢。

三、定價策略：高分辨率比谷歌便宜，瞄準企業客戶

根據公開定價數據，Uni-1在企業常用的2K分辨率上具有明顯的價格優勢：

谷歌Nano Banana 2在低分辨率上仍有價格優勢，0.5K圖像約0.045美元/張（約合人民幣0.31元），1K圖像約0.067美元/張（約合人民幣0.46元）。對于大規模生產高分辨率圖像的企業團隊而言，Uni-1在質量和成本兩端同時占優。Luma AI在輸出端的token定價為每百萬token 45.45美元（約合人民幣322元）。

面向個人用戶，定價則分為包年、包月和單次計價三種模式。作為一家初創公司，Luma AI無法在分發渠道和基礎設施上與谷歌抗衡，“性能更強、價格更低”是它能打動客戶的核心籌碼。

▲Uni-1定價（圖源：Uni-1官網）

四、社區反饋：從“提示詞碰運氣”到“真正的創作控制”

Uni-1發布后，盡管大規模獨立測試仍在進行中，早期社區反應積極。

X平臺用戶反饋良好，網友直言，圖像生成終于不用費勁想提示詞了。Reddit上一位進行了逐項對比測試的用戶給出了更細致的評價：Nano Banana 2在速度和文字渲染上仍有優勢，但在“真正的邏輯推理、復雜場景理解和需要深度思考的編輯任務”上，Uni-1略勝一籌。該用戶總結道：“如果你在意的是圖像真正‘合理’，而不只是‘好看又快’，Uni-1是目前的最佳選擇。”

▲X上網友對于Uni-1的評價（圖源：X）

不過，也有用戶持觀望態度。部分用戶表示仍在等待完整API權限以進行獨立測試，對非拉丁文字的處理效果、極端邊緣場景以及最高分辨率下的生成速度仍有疑問。客觀地說，社區的興奮更多針對“新技術路線的突破感”，長期表現仍需時間驗證。

目前Uni-1可在lumalabs.ai免費體驗，API訪問正在逐步開放。

結語：Luma真的能后來居上嗎？

從Uni-1的發布可以預測到，AI圖像生成的競爭正在從“誰的圖更好看”轉向“誰的模型更能理解指令”。擴散模型統治這一領域已有三年之久，而自回歸架構以大語言模型式的推理能力切入，第一次在核心基準測試上證明了這條路線的可行性，也可能影響未來更多實驗室的技術路線選擇。

真正的考驗在于，Uni-1能否在API大規模調用、多語言支持和生成速度上經受住企業級場景的檢驗。這場“架構之爭”才剛剛進入正賽。你認為自回歸路線能在圖像生成領域站穩腳跟嗎？

來源：VentureBeat、Lumalabs、X、The Decoder

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.