![]()
智東西
作者 陳駿達
編輯 李水青
智東西11月26日報道,昨晚,德國AI圖像模型獨角獸黑森林實驗室發布了最新一代圖像生成模型家族FLUX.2。FLUX.2的核心目標是解決真實生產環境中的需求,而不僅僅是作為演示或娛樂的生成工具。
FLUX.2可同時參考多達10張圖片,并保持字符、產品和風格的一致性。下圖這張逼真的模特圖,其實就是由10張不同圖片的元素組合而來的。
![]()
其圖像細節和真實感也有提升,能生成更豐富的細節、更清晰的紋理和更穩定的光照,適用于產品拍攝、可視化和模擬攝影的用途。
![]()
文本渲染方面,復雜的排版、信息圖表、表情包和帶有清晰文本的UI Demo,如今都能被可靠地生成。
![]()
FLUX.2對復雜、結構化指令的遵守能力得到提升,包括多部分提示和組成限制,并支持了最高4百萬分辨率的圖像編輯和更靈活的輸入、輸出比例。模型還能更好地遵循現實世界的知識、光照和空間邏輯,從而產生更加連貫的場景和預期的行為。
FLUX.2系列本次一共發布3款模型,涵蓋了從完全托管、可用于生產環境的API到開發者可以自行運行的開放式檢查點等一系列模型產品。性能較強的FLUX.2 [pro]、FLUX.2 [flex]并未開源,FLUX.2 [dev]則是開源的。
值得注意的是,此前黑森林實驗室開源的Flux.1 [dev]是Hugging Face上第二受歡迎的模型,僅次于DeepSeek-R1。
FLUX.2 [pro]、FLUX.2 [flex]版本目前僅以API方式對外提供服務,前者可提供媲美頂級閉源模型的圖像質量,而后者允許用戶控制步數和引導比例等模型參數。
FLUX.2 [dev]則是一款基于FLUX.2基礎模型的32B參數量開放權重模型,這是目前最強大的開源圖像生成和編輯模型,將文生圖、圖生圖和多圖輸入功能相結合。
未來,黑森林實驗室還計劃發布開源的FLUX.2 [klein]模型,它基于FLUX.2基礎模型精簡而來,與同等規模的從零開始訓練的模型相比,它功能更強大,對開發者更友好,并具備與其教師模型相同的諸多功能。
FLUX.2基于潛在流匹配架構,將圖像生成和編輯集成在單一架構中。該模型將歐洲本土AI創企Mistral自研的Mistral-3 24B視覺語言模型(VLM)與整流流式(Rectified Flow)Transformer結合。VLM帶來了現實世界的知識和上下文理解,而Transformer則捕捉了早期架構無法實現的空間關系、材料屬性和組合邏輯。
![]()
新一代可學習潛空間編碼器FLUX.2 – VAE,也就是所有FLUX.2模型的流式主干網絡,已經依照Apache 2.0協議開源,可獨立使用。
體驗鏈接:
http://bfl.ai/play
開源地址:
https://huggingface.co/black-forest-labs/FLUX.2-dev
與日前發布的Nano Banana Pro相比,FLUX.2的表現究竟如何?智東西進行了對比體驗。我們首先嘗試讓兩款模型根據以下提示詞生成圖片:
原文:Office building stairwell cam, chairs stacked impossibly high reaching multiple floors, person climbing past them on stairs, emergency lighting, fisheye distortion, architectural wrongness. 翻譯:辦公樓樓梯間的監控畫面:成堆的椅子被不可能地壘到數層樓高,有個人正從樓梯上經過這些椅子旁,場景中帶有應急照明、魚眼鏡頭畸變,以及明顯違背建筑結構邏輯的異常感。
模型需要生成看似真實但邏輯上錯誤的空間,既不能崩壞,也不能被自動糾正成正常結構,這對其世界知識和提示詞遵循能力提出了挑戰。
FLUX.2 [pro]給出的生成結果如下,可以看到其較好地還原了魚眼鏡頭畸變效果和提示詞中的異常感,不過遺漏了“應急照明”這個要素。
![]()
Nano Banana Pro的生成結果如下,可以看到,為了還原監控鏡頭的感覺,Nano Banana Pro加上了時間戳和監控編號等要素,應急照明燈的效果也比較逼真,整個畫面有更強的大片感。
![]()
我們還嘗試讓兩款模型生成了2000年代CCD相機風格的照片,畫面內容是兩只樹懶在酒館喝酒。
在這題上,FLUX.2 [pro]在風格還原上做得更好,無論是閃光燈效果還是畫質的特點,都更為接近CCD相機的拍攝效果。
![]()
Nano Banana Pro生成的結果在畫面內容上并無明顯錯誤,但是其風格還原度與FLUX.2 [pro]相比還有些差距。
![]()
為考察兩款模型的實用性,我們試著讓它們打造了一張科普用途的簡易插圖,解釋德國城市弗賴堡的陽光為何如此充足。圖中的所有文字都是提示詞提供的,但畫面內容主要由模型自行發揮。
FLUX.2 [pro]打造的插圖文字準確,圖片內容符合主題。
![]()
Nano Banana Pro也輸出了準確的畫面和文字,兩款模型在這道題上打了平手。
![]()
由于Nano Banana Pro每天僅允許三次免費使用,我們并未進行更多對比實測。不過,此前我們已在測試中發現Nano Banana Pro的中文渲染能力還是不錯的。
但當我們用中文向FLUX.2 [pro]發送指令,要求其解釋伯努利現象時,其輸出的畫面中全是亂碼,應該暫時還不支持中文的渲染。
![]()
結語:圖像模型產業化轉向加速
近期,各大圖像模型的頭部玩家,都不約而同地選擇將升級方向定為實用性、可靠性,這也顯示出AI圖像生成技術正從演示和娛樂工具,向產業化應用加速邁進。
在追求畫質之外,模型的輸出穩定性以及專業場景的適用性,也成為衡量技術價值的新標準。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.