金磊 發自 凹非寺
量子位 | 公眾號 QbitAI
智譜華為,這個組合剛剛搞了波大的:
開源新一代圖像生成模型GLM-Image,是中國首個全程在國產芯片上完成訓練的SOTA多模態模型!
GLM-Image尤其擅長文字渲染,像最近很火的AI手抄報、插畫、海報都能信手拈來:
![]()
![]()
不難看出,如此多的漢字,在GLM-Image的手上可以說是輕松拿捏、精準無誤。
并且GLM-Image一出道就拿下了CVTG-2K(復雜視覺文字生成)和LongText-Bench(長文本渲染)雙榜單的第一
![]()
再細分來看,在CVTG-2K中,GLM-Image憑借0.9116的Word Accuracy(文字準確率)和0.9557的NED(歸一化編輯距離)拿下雙料第一,表明生成的文字在準確性上做到了高度一致。
以及LongText-Bench中的中文、英文或平均分數,都位列開源模型中的第一。
除此之外,再劃個重點:
用GLM-Image的API生成圖片,現在一張圖只要一毛錢(0.1元)!
咱就是說,國產芯+國產模型,這次真的贏麻了。
圖片里的漢字,穩穩拿捏住了
天下苦AI生圖不識字已經久矣。
以前讓AI畫個海報,畫面雖然美如畫,但文字卻是亂如麻:不是缺筆少劃,就是自創火星文。
這次GLM-Image最大的賣點,可以說就是能讀懂且寫對
那么接下來,我們就來給GLM-Image一些刁鉆的難題,考驗考驗它的能力。
做小紅書封面可以用“說”的
首先是咱們熟悉的“小紅書風”。
這種圖片不僅要求審美在線,最關鍵的是標題要大、要醒目,還得和畫面完美融合。
我們扔給GLM-Image一段描述比較籠統的描述,讓它先來自我發揮一下:
Prompt:生成一張小紅書封面,圖文并茂,表達泰國旅游最全攻略,要有人物和風景,有趣的設計。
![]()
講真,是有一點驚艷在身上的。
感覺GLM-Image已然get到了小紅書封面的奧義,鮮艷的配色、醒目的文字,還有逼真的人物,一下子就讓人想點進去了解一番。
還有小紅書上比較流行的科普詳解圖,GLM-Image可以根據智譜官方推文直接生成亮點內容圖解:
![]()
以后啊,要想做一個小紅書或者其它社交媒體的封面,只要0.1元,讓GLM-Image來處理就好了。
而且GLM-Image原生支持1024x1024至2048x2048的任意比例輸出。智譜開放平臺體驗中心提供了10個尺寸的選項,可以適配各種類型的社交媒體平臺。
![]()
商業海報,1毛錢直出
假如你現在想要做一張有藝術感的商業廣告大片,那么只要把你的想法轉成Prompt即可,例如:
Prompt:大師級攝影,獲獎作品,東方禪意,神秘氛圍。中心構圖,極致負空間留白,一位沉靜內省的男性背影,戴淺色寬檐帽,處于絕對靜止剪影狀態。中景:濃霧彌漫充滿全部畫面。雙重曝光,人物透明疊加于中景,透明暈染重疊,重疊處露出黃昏都市,暖金色暮光逆側光,建筑輪廓與霓虹因慢門化作動態模糊、拖曳的暖黃色光軌。光影:黑柔濾鏡,輪廓光勾勒帽檐肩線,面部陰影中有微妙的深灰至灰漸變,強烈明暗對比。色調:低飽和度暖調(淺棕、暖黃、灰綠,陰影泛青灰),富士懷舊負片膠片質感。后期:空氣透視,朦朧詩意,印象派氛圍。視覺張力,虛實結合,情緒氛圍攝影,電影幀敘事。標語:“流光過隙,我自靜觀。” 半透明標題“SILENCE”嵌入霧中。
![]()
再如我們現在做一個關于白酒的廣告片,Prompt如下:
Prompt:以中式酒飲為主題,搭配古樸松枝。場景為白色背景的展示臺,營造典雅氛圍。構圖上,將酒瓶擺放于黑色怪石,白色花藝自然穿插點綴,突出層次。色彩以畫面風格追求國風雅韻,借中式元素(傳統繪畫、松枝 )傳遞東方美學,背景簡潔漸變,聚焦產品與國風意境融合,打造具有文化底蘊的茶飲展示效果 。酒瓶身自然地嵌入中文“松酒”。
![]()
嗯,是有點設計感在身上的。
人物、場景,逼真得分不清是AI
真實性,也是考驗圖片生成能力的重要因素。
接下來,我們就讓GLM-Image生成幾張真實人物的照片:
Prompt:一位男模特,行走于都市天臺,風衣下擺被大風揚起,動態模糊,大場景,強透視,低角度仰拍,膠片粗顆粒質感,黑金色調,前衛藝術美學,力量感,高級感,時尚大片視角,8K,大師杰作。
![]()
像極了在現實生活中拍出來的男模特。
我們再來試試一張有點影視劇照的風格:
Prompt:營造出優雅浪漫的古典閑適氛圍。中國宋代古典裝束、精致器物,搭配窗外的自然景致,傳遞出遠離塵囂的詩意與雅致,讓觀者感受到那份古典浪漫中的松弛感。超寫實風格暗黑。
![]()
如何?是不是有夠逼真的?
哦對了,在GLM-Image這里,多圖拼接也是可以的哦~
![]()
怎么在華為芯片上訓出的SOTA?
看完效果,相信很多小伙伴要不禁問了:這到底是怎么做到的?
尤其是在目前高性能顯卡受限的大背景下,GLM-Image不僅做出來了,還號稱是首個全程在國產芯片上完成訓練的SOTA模型
這背后的技術含金量,值得咱們好好聊一聊。
混血架構:自回歸 + 擴散解碼器
目前從大方向來看生圖領域技術的發展,主要有兩大流派:
- 擴散模型(Diffusion):比如Stable Diffusion、Flux。擅長畫細節,光影質感好,但理解復雜的全局指令(比如空間關系、多物體布局)比較吃力。
- 自回歸模型(Autoregressive, AR):比如DALL·E 3的部分邏輯。擅長理解語言、規劃布局,但在生成高分辨率圖像的細節上,推理速度慢,且容易崩。
但GLM-Image的玩法是這樣的:小孩子才做選擇,成年人我全都要。
于是,它搞出了一個“自回歸 + 擴散解碼器”的混合架構,可以理解為一個大腦和筆畫的組合:
- 大腦(9B 自回歸模型):負責理解和規劃。它先讀懂你那幾百字的復雜Prompt,規劃好哪里畫人、哪里寫字、排版怎么排。
- 畫筆(7B DiT 擴散解碼器):負責上色和精修。它接過“大腦”的草圖,把細節填充得滿滿當當,保證畫質細膩。
這就是為什么它在處理CVTG-2K這種榜單時能拿第一的原因。因為它不僅僅是在生成像素,而是在先理解布局,再填充內容。
華為A2芯片+Mindspeed-LLM
這或許是這次發布內容中最為硬核的地方。
我們都知道,訓練一個幾十億參數的SOTA模型,對算力的穩定性、通信帶寬要求極高。以往大家默認只有英偉達的卡能干這事兒。
但GLM-Image卻選擇了國產:它全程基于華為Ascend A2芯片進行訓練。
為了讓這套國產硬件發揮出最大效能,智譜和華為配合,深度優化了Mindspeed-LLM框架。
- 全流程跑通:從海量數據的預處理,到大規模的預訓練,再到最后的微調,全部在國產全棧算力底座上完成。
- 算子級優化:針對國產芯片的特性,重新寫了底層算子,讓訓練效率直接起飛。
![]()
尤其是最為關鍵的 RL(強化學習)后訓練階段,在華為Ascend A2算力集群上,智譜團隊針對RL訓練流程進行了專項優化:
- 大規模集群的穩定性控制:RL訓練容易出現梯度爆炸或不穩定的情況。依托華為全棧算力底座,智譜實現了超大規模集群下的長時間穩定訓練,確保了模型收斂的魯棒性。
- 算子級深度重構:為了適配RL過程中特有的動態計算圖,智譜與華為合作,重新編寫了底層核心算子。這不僅提升了單卡效率,更讓萬卡級別的通信帶寬利用率顯著優化,解決了國產芯片在復雜后訓練邏輯中的“水土不服”。
- 異構計算的協同:利用昇思MindSpore框架,GLM-Image在訓練時實現了計算與通信的完美并行(Overlap),讓模型在處理2048×2048這種超高分辨率圖像的RL訓練時,依然能保持高效的吞吐量。
這種深度適配帶來的結果是顯而易見的。GLM-Image 不僅是國產芯片訓出來的,更是在國產算力極限壓力測試下卷出來的SOTA 模型。
值得一提的是,GLM-Image并非僅在微調階段使用國產芯片,而是從海量數據預處理、大規模預訓練到最后的RLHF過程,全部在華為Ascend A2算力集群上完成。
它證明了國產算力底座+自研架構創新,完全可以支撐起RL這種最前沿、最復雜的模型優化路徑。
分辨率的原生支持
還有一個技術細節也值得一提。
傳統的模型,如果你想生成個長條圖(比如16:9)或者豎圖(9:16),往往需要裁剪或者后期重繪,容易變形。
GLM-Image改進了Tokenizer策略,原生支持從1024x1024到2048×2048的任意比例和分辨率。
![]()
![]()
這意味著你可以直接讓它生成一張超長的招牌,或者一張超寬的橫幅廣告,它都不需要重新訓練,直接就能算出來。
國產自信的一次開源
在圖像生成這個領域,大家似乎都習慣了盯著國外的Flux、Midjourney、Ideogram看。每當國外發布一個新模型,大家就感嘆一句“差距又拉大了”。
但GLM-Image的出現,是一次有力的回應,主要可以從三個方面來看:
- 打破壟斷:它證明了SOTA級的模型效果,完全可以在國產芯片上實現。這給國內其他的AI開發者打了一針強心劑。
- 開源普惠:不僅僅是模型開源,它還把這種“自回歸+擴散”的新架構思路分享了出來。對于想要研究下一代生圖技術的人來說,這就是最好的教科書。
- 極致性價比:API調用價格極其親民,生成一張圖的成本甚至不到一毛錢。這對于想要接入AI生圖能力的中小企業、開發者來說,簡直是降維打擊。
Nano Banana固然很好,但那畢竟是別人家的,還是閉源的那種。
但現在,我們有了自己的Open Banana——GLM-Image:開源的、國產算力訓練的、懂中文、會寫漢字的。
無論你是想做個不重樣的小紅書博主,還是想搞個自動生成海報的創業項目,或者單純就是想體驗一下國產之光的生圖能力,GLM-Image都值得你上手一試。
話不多說,趕緊去試試這個“國產大香蕉”到底香不香!
API接入地址:
https://docs.bigmodel.cn/cn/guide/models/image-generation/glm-image
GitHub:
https://github.com/zai-org/GLM-Image
Hugging Face:
https://huggingface.co/zai-org/GLM-Image
魔搭社區:
https://modelscope.cn/models/ZhipuAI/GLM-Image
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.