![]()
新智元報(bào)道
編輯:元宇
【新智元導(dǎo)讀】Black Forest Labs的開源視覺模型FLUX.2上新,這是一款專為現(xiàn)實(shí)創(chuàng)意工作流程打造,絕非演示噱頭的生產(chǎn)力工具,與前代FLUX.1相比,實(shí)現(xiàn)了從「會(huì)畫」到「懂你要畫什么」的躍升。
設(shè)計(jì)師要解放了!
剛剛,專為真實(shí)設(shè)計(jì)流程打造的視覺AI模式重磅發(fā)布。
假設(shè)你是一名設(shè)計(jì)師,正準(zhǔn)備做一份產(chǎn)品海報(bào)。
按以往流程,你要先找圖、修圖、調(diào)光、排版、對(duì)齊Logo、試十幾版字體……
等這些都做完了,也許客戶或老板早已等得不耐煩了,也許后面還有無(wú)窮的改稿等著你。
「不是我沒創(chuàng)意,而是時(shí)間不夠!」
靈光乍現(xiàn)很簡(jiǎn)單,乍現(xiàn)的靈光落實(shí)到執(zhí)行層大都是耗時(shí)費(fèi)力的苦活累活。
如果有一天你只需要告訴電腦,你想出一份什么樣的產(chǎn)品海報(bào),這些苦活累活都有人幫你干了,這是一種什么感覺?
近日,Black Forest Labs推出的一款FLUX.2的視覺模型,讓這這件事成為可能。
![]()
FLUX.2是一款專為現(xiàn)實(shí)創(chuàng)意工作流程打造,絕非演示噱頭的生產(chǎn)力工具。
更重要的一點(diǎn),它是開源的。
![]()
更低的價(jià)格,納米香蕉版的品質(zhì),妥妥的設(shè)計(jì)師福利。
不炫技,讓前沿視覺AI人人可用
FLUX.2 專為真實(shí)世界的創(chuàng)意工作流程打造,而不是只做演示或炫技。
它能夠生成高質(zhì)量圖像,并在多個(gè)參考圖像之間保持角色和風(fēng)格的一致性;能理解結(jié)構(gòu)化提示詞;能閱讀與生成復(fù)雜文本;能穩(wěn)定處理光照、布局與Logo……
此外,它還能在最高4兆像素下進(jìn)行圖像編輯,同時(shí)保持細(xì)節(jié)與整體一致性。
這些媲美頂級(jí)視覺模型的能力,如今已經(jīng)全部開源,這與Black Forest Labs的開放核心理念有關(guān):
「我們相信,視覺智能應(yīng)該由全球的研究者、創(chuàng)作者和開發(fā)者共同塑造,而不是集中在少數(shù)人手中。」
因此,自2024年創(chuàng)立之日起,他們一直致力于將前沿能力與開放研究結(jié)合,發(fā)布強(qiáng)大、透明且易組合的開放權(quán)重模型,同時(shí)為需要規(guī)模化、可靠性與自定義的團(tuán)隊(duì)提供穩(wěn)健、可直接投入生產(chǎn)的服務(wù)接口。
它們將 FLUX.1 [dev](全球最受歡迎的開放圖像模型)與專業(yè)級(jí)模型 FLUX.1 Kontext [pro] 結(jié)合,后者已被Adobe、Meta等團(tuán)隊(duì)使用。
Black Forest Labs通過(guò)開放核心策略促進(jìn)實(shí)驗(yàn)、降低成本、鼓勵(lì)審查,并確保能持續(xù)地把來(lái)開放技術(shù)帶給更多的人。
FLUX.2
從能畫東西,到「懂你要畫什么」
FLUX.1作為創(chuàng)意工具已經(jīng)很強(qiáng)了,能跟隨提示詞作創(chuàng)意。
FLUX.2的升級(jí),像從「會(huì)畫畫的人」躍遷到「會(huì)觀察、會(huì)分析、會(huì)推理的視覺大腦」。
這意味著前沿視覺AI能力正在改變生產(chǎn)流程和成本結(jié)構(gòu),成為未來(lái)創(chuàng)意基礎(chǔ)設(shè)施中不可替代的組成部分。
![]()
所有FLUX.2變體均在一個(gè)模型中提供基于文本和多個(gè)參考圖像的圖像編輯功能。
為什么FLUX.2能夠懂你要畫什么,并且按照你的意思畫出來(lái),因?yàn)樗淮伟严铝心芰M合在了一起:
多參考支持:一次最多讀10張參考圖像,可以實(shí)現(xiàn)目前最佳的角色 / 產(chǎn)品 / 風(fēng)格一致性。
圖像細(xì)節(jié)與擬真度提升:更高細(xì)節(jié)、更銳利的紋理、更穩(wěn)定的光照,適用于產(chǎn)品拍攝、可視化與類攝影應(yīng)用。
更強(qiáng)文本渲染:復(fù)雜排版、信息圖、表情包、UI設(shè)計(jì)稿中的小字現(xiàn)在可以穩(wěn)定生成。
聽得懂復(fù)雜指令:更強(qiáng)的提示詞遵循能力,對(duì)復(fù)雜、結(jié)構(gòu)化、多部分提示詞與組合約束的執(zhí)行更穩(wěn)定。
理解空間與光線:更強(qiáng)世界知識(shí)理解,對(duì)真實(shí)世界、光照邏輯與空間結(jié)構(gòu)的理解更扎實(shí),使生成場(chǎng)景更自然、更符合預(yù)期。
高分辨編輯:更高分辨率與更靈活的比例,支持最高4兆像素的圖像編輯。
![]()
輸出多樣性:FLUX.2能夠生成高度精細(xì)的逼真圖像以及包含復(fù)雜排版的信息圖,分辨率最高可達(dá)400萬(wàn)像素(4MP)。
開箱即用
FLUX.2模型家族
性價(jià)比是FLUX.2模型系列的強(qiáng)項(xiàng),在各性能層級(jí)中以極具競(jìng)爭(zhēng)力的價(jià)格提供業(yè)界領(lǐng)先的圖像生成質(zhì)量。
FLUX.2模型家族從完全托管、可直接生產(chǎn)的API,一直到開發(fā)者可本地運(yùn)行的開放權(quán)重模型一應(yīng)俱全。
下面是FLUX.2 [pro]、FLUX.2 [flex]、FLUX.2 [dev] 與 FLUX.2 [klein] 的定位與適用場(chǎng)景:
FLUX.2 [pro]:圖像質(zhì)量達(dá)到頂級(jí)封閉模型水平,提示詞遵循與畫面保真度表現(xiàn)一流,同時(shí)生成更快、成本更低,實(shí)現(xiàn)速度與質(zhì)量的雙贏。可在BFL Playground、BFL API及合作伙伴平臺(tái)使用。
FLUX.2 [flex]:允許調(diào)整步數(shù)、引導(dǎo)規(guī)模等參數(shù),讓開發(fā)者在質(zhì)量、提示詞執(zhí)行力與速度之間自定義平衡。尤其擅長(zhǎng)渲染文本與精細(xì)細(xì)節(jié)。可在bfl.ai/play、 BFL API及合作伙伴平臺(tái)使用。
FLUX.2 [dev]:32B 開放權(quán)重模型,由 FLUX.2 基礎(chǔ)模型衍生,是目前最強(qiáng)的開放權(quán)重圖像生成與編輯模型。它將文本生成圖像與多圖像編輯集成在一個(gè) checkpoint 中。權(quán)重已在Hugging Face發(fā)布,可使用官方推理代碼本地運(yùn)行。在消費(fèi)級(jí) GPU(如 GeForce RTX)上,可使用 NVIDIA 與 ComfyUI 合作優(yōu)化的 fp8 推理版本。你也可以通過(guò) FAL, Replicate, Runware, Verda, TogetherAI, Cloudflare, DeepInfra的API使用 FLUX.2 [dev]。
FLUX.2 [klein](即將上線):開源、Apache 2.0模型,由FLUX.2基礎(chǔ)模型尺寸蒸餾而來(lái),比同類從零訓(xùn)練的模型更強(qiáng)、更適合開發(fā)者,并保留大量教師模型的能力。可以加入測(cè)試計(jì)劃。
FLUX.2 - VAE:全新的變分自編碼器,在可學(xué)習(xí)性、質(zhì)量與壓縮率之間實(shí)現(xiàn)最佳平衡,是所有FLUX.2 flow主干的基礎(chǔ)。技術(shù)報(bào)告已發(fā)布,模型在HF上以Apache 2.0許可提供。
![]()
使用可變步數(shù)生成設(shè)計(jì):FLUX.2 [flex] 的「步數(shù)」參數(shù)允許在排版精度與延遲之間自由權(quán)衡。從左到右:6步、20步、50步。
![]()
通過(guò)可變步數(shù)控制圖像細(xì)節(jié):FLUX.2 [flex] 提供了一個(gè)「步數(shù)」參數(shù),用于在圖像細(xì)節(jié)和延遲之間進(jìn)行權(quán)衡。從左至右分別為:6 步、20 步、50 步。
![]()
FLUX.2 系列以極具競(jìng)爭(zhēng)力的價(jià)格提供頂級(jí)圖像生成質(zhì)量,跨不同性能層級(jí)都具備最強(qiáng)性價(jià)比。
![]()
![]()
對(duì)于開放權(quán)重模型,F(xiàn)LUX.2 [dev] 設(shè)立了新的業(yè)界標(biāo)準(zhǔn),在文本生成圖像、單參考編輯、多參考編輯等方面均達(dá)領(lǐng)先水平,并穩(wěn)定超越所有其他開放權(quán)重替代品。
工作原理
FLUX.2基于潛空間的流匹配架構(gòu)構(gòu)建,并將圖像生成與編輯整合在同一個(gè)模型中。
該模型將24B參數(shù)的Mistral-3視覺語(yǔ)言模型與rectified flow Transformer 結(jié)合。
![]()
https://docs.mistral.ai/models/mistral-small-3-2-25-06
VLM提供現(xiàn)實(shí)世界知識(shí)與語(yǔ)境理解,而Transformer捕捉空間結(jié)構(gòu)、材質(zhì)特性與構(gòu)圖邏輯,這些是早期架構(gòu)難以呈現(xiàn)的。
研究人員從零重新訓(xùn)練了模型的潛空間,使其在可學(xué)習(xí)性與圖像質(zhì)量之間取得更優(yōu)平衡。
參考資料:
https://x.com/bfl_ml/status/1993345470945804563?s=20%20
https://bfl.ai/blog/flux-2
秒追ASI
?點(diǎn)贊、轉(zhuǎn)發(fā)、在看一鍵三連?
點(diǎn)亮星標(biāo),鎖定新智元極速推送!
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.