★ 設(shè)為星標(biāo) | 只講人話,帶你玩轉(zhuǎn)AIGC。
說到文生圖,大家心里可能都有個(gè)“白月光”,那就是谷歌的 Nano Banana Pro(下文簡(jiǎn)稱 NBP)。
有一說一,NBP 確實(shí)是現(xiàn)階段實(shí)打?qū)嵉耐跽撸绕涫钳B加了 Gemini 大模型后,那魔法簡(jiǎn)直了。
最讓我佩服的是,它基本解決了 AI 繪圖界的一大頑疾——文字生成,特別是漢字。
但這兩天,我突然發(fā)現(xiàn)一款國(guó)產(chǎn)工具沖上了熱榜。
我一看,好家伙,它居然在“寫漢字”這個(gè)領(lǐng)域,把 NBP 給超了?
![]()
圖:GLM-Image在文字渲染的權(quán)威榜單中達(dá)到開源 SOTA水平
不僅如此,它還是個(gè)開源的。
它就是剛剛上市的 AI 第一股智譜出品的 GLM Image。
廢話不多說,咱們不看參數(shù),直接上“地獄級(jí)”實(shí)測(cè)。
它到底能不能打?
01 終于能聽懂“人話”了,尤其是中文
既然,在寫漢字這個(gè)事情上屠榜,那我們就先來試試它。
![]()
提示詞:中國(guó)傳統(tǒng)水墨畫風(fēng)格。畫面是一座雄偉的古樓(鸛雀樓),背景是夕陽(yáng)依山而落,黃河奔騰入海的壯觀景象。在畫面的留白處,用毛筆行書字體寫下整首唐詩(shī):“白日依山盡,黃河入海流。欲窮千里目,更上一層樓。”畫風(fēng)古樸典雅,宣紙紋理。
看到這張圖我松了一口氣,字寫得相當(dāng)準(zhǔn)確,沒有出現(xiàn)那種常見的“鬼畫符”的情況。
雖然這個(gè)例子對(duì)現(xiàn)在的模型來說不算太難,但能把整首詩(shī)完整寫對(duì),起碼及格線是穩(wěn)了。
好,既然簡(jiǎn)單的過了,咱們上強(qiáng)度。
![]()
提示詞:一張極具史詩(shī)感和科技感的商業(yè)電影海報(bào)。畫面采用極具視覺沖擊力的人物面部超大特寫,主體是一位中年科技商業(yè)領(lǐng)袖男主角,面容滄桑堅(jiān)毅,目光深邃地直視鏡頭。整個(gè)畫面(包括人物面部皮膚、頭發(fā)和背景)都疊加著密集的、發(fā)光的金色數(shù)據(jù)流代碼、抽象電路板線條和數(shù)字噪點(diǎn)紋理,營(yíng)造出一種被數(shù)字化信息包裹的力量感。整體色調(diào)為輝煌、厚重的暖金色調(diào),光影對(duì)比強(qiáng)烈。海報(bào)下方三分之一處,巨大的粗體金屬質(zhì)感中文標(biāo)題“破局者”橫跨畫面,帶有厚重的立體光效。標(biāo)題上方是較小的副標(biāo)題“決勝全球芯片戰(zhàn)爭(zhēng)始末”。最底部是小字上映信息:“2025年春節(jié)檔震撼上映 | IMAX 3D”。文字排版層級(jí)分明,與人物肖像在空間上形成緊密的疊加關(guān)系。
坦率說,這張海報(bào)的文字處理真的驚艷到我了。
“破局者”三個(gè)大字非常有張力,其他小字也都能清晰識(shí)別。
看起來,在這個(gè)特定領(lǐng)域,GLM Image 真的趕得上 NBP 這種商業(yè)閉源神器了。
不過,我感覺它在處理很多文字都時(shí)候,不是很穩(wěn)定,有時(shí)候需要多抽幾次卡才能出完美效果。
看下跟 NBP 的對(duì)比。
![]()
圖:GLM Image 對(duì)比 NBP 的多文字處理
但考慮到它是免費(fèi)開源的,這點(diǎn)“小脾氣”我覺得完全可以接受。
測(cè)到這里,我感覺它還是有點(diǎn)東西。這可能是目前開源模型里,對(duì)中文處理最強(qiáng)的。
以前這種圖,Nano Banana 根本沒法處理(Pro 才可以),Midjourney 更是完全不支持中文。
連這些國(guó)外商業(yè)巨頭都頭疼的問題,讓一個(gè)國(guó)產(chǎn)開源模型解決了,這不得不佩服。
02 審美在線:從宋詞意境到王家衛(wèi)美學(xué)
光能寫字還不夠,圖畫得丑也不行。
很多國(guó)產(chǎn)模型最大的問題是“土”,或者有一股濃濃的塑料“AI 味”,甚至有些默認(rèn)生成的是外國(guó)人。
GLM 的審美在線嗎?畫質(zhì)和光影呢?
我們細(xì)看之前那張圖,非常有電影感,也符合那首宋詞的意境。
![]()
提示詞:一張極具電影感的紀(jì)實(shí)攝影作品。場(chǎng)景是雨后的清晨,一座古樸典雅的中式庭院。一位身著宋代服飾的女子站在木制窗欞后,輕輕卷起珠簾向外張望。窗外的庭院里,濕潤(rùn)的地面上散落著被打落的紅色海棠花瓣(紅瘦),而枝頭經(jīng)過雨水滋潤(rùn)的綠葉顯得格外翠綠茂盛,掛著水珠(綠肥)。空氣中充滿濕潤(rùn)感,柔和的自然光。
人的眼睛對(duì)人像最敏感,咱們?cè)賮韨€(gè)高難度的“王家衛(wèi)風(fēng)格”。
![]()
提示詞:一位冷艷的亞洲時(shí)尚女性,留著利落的濕發(fā)造型(Wet Look),身穿深祖母綠的亮片晚禮服,佩戴夸張的銀色流蘇耳環(huán),材質(zhì)上形成反光亮片與金屬冷感的碰撞。她側(cè)臥在平靜的深藍(lán)色水面上,背景是大面積高飽和度的克萊因藍(lán),營(yíng)造出深邃靜謐的包裹感。光影采用棱鏡折射效果(Prism Effect),在人物面部投下彩虹般的破碎光斑,并帶有微弱的慢門拖影(Motion Blur),賦予畫面一種流動(dòng)的迷幻感。構(gòu)圖采用上帝視角(Top-down shot),王家衛(wèi)電影美學(xué),高噪點(diǎn)膠片質(zhì)感,藝術(shù)攝影風(fēng)格。
這張圖的完成度非常高。
不僅逼真,關(guān)鍵是水面的倒影、棱鏡的折射光斑,處理得非常有質(zhì)感。
為了防止它是“運(yùn)氣好”,我又測(cè)了個(gè)極端的——當(dāng)復(fù)雜的毛發(fā)遇上暴風(fēng)雪。
這通常是 AI 的“死穴”,很容易糊成一團(tuán)。
![]()
提示詞:一只雪豹的正面特寫,漫天風(fēng)雪,眼神犀利直視鏡頭,毛發(fā)上掛著冰渣和雪花,背景是模糊的雪山,國(guó)家地理風(fēng)格,超高清
大家放大看細(xì)節(jié)。
風(fēng)雪和毛發(fā)的交互很真實(shí),雪花是“陷”在毛發(fā)里的,而不是浮在表面,眼神的那種野性也抓住了。
不得不說,這張圖堪稱完美。
小遺憾: 目前還不支持原生 4K 輸出(盲猜是算力成本問題),放大看極微小的細(xì)節(jié)還是會(huì)有一點(diǎn)點(diǎn)涂抹感,但發(fā)朋友圈或做配圖綽綽有余。
![]()
圖:GLM Image 支持多種分辨率
03 搞錢神器:海報(bào)和封面,它真能干活
測(cè)到這,我覺得它已經(jīng)不僅僅是個(gè)玩具了。
解鎖了“文字”+“畫質(zhì)”這兩個(gè)技能包,意味著什么?意味著它能幫我們干活了!
我是做內(nèi)容的,以前做小紅書封面,要么去素材網(wǎng)找圖改,要么買 Canva 會(huì)員。
但我發(fā)現(xiàn),GLM Image 處理這種圖文結(jié)合的封面,似乎非常在行。
![]()
提示詞:一張極具吸引力的小紅書/YouTube 視頻封面圖,波普藝術(shù)拼貼風(fēng)格。畫面主體是一位年輕可愛的亞洲職場(chǎng)女性,留著短發(fā),戴著黑框眼鏡,身穿白襯衫和黃色背帶褲。她雙手托腮,對(duì)著鏡頭做出夸張?bào)@訝的表情(O型嘴),人物周圍有一圈明顯的白色描邊(貼紙效果),將她與背景的模糊辦公室環(huán)境隔離開來。視覺設(shè)計(jì)包含上下邊緣的黃色撕紙紋理效果。畫面頂部有巨大的、黑色的粗體中文字體,印在黃色的矩形色塊背景上,第一行寫‘職場(chǎng)菜鳥’,第二行寫‘生存法則’。人物右側(cè)懸浮著手寫體的中文標(biāo)簽‘干貨滿滿’和‘建議收藏’,以及一個(gè)波普風(fēng)格的英文單詞‘WOW’。畫面點(diǎn)綴著卡通燈泡圖標(biāo)、卡通眼睛貼紙和閃爍的星星符號(hào)。整體色調(diào)以明亮的黃色和黑白色為主,高飽和度,視覺沖擊力強(qiáng)。”
![]()
圖:GLM Image 生成的圖片
是不是有點(diǎn)意思?
甚至 NBP 很拿手的“信息圖表”,GLM 也能模仿個(gè)七七八八:
![]()
圖:生成一張咖啡制作的信息圖
![]()
提示詞:創(chuàng)建一個(gè)展示如何制作面包的信息圖表
這里我要客觀說一句:如果是特別復(fù)雜、步驟特別多的信息圖,NBP 依然更勝一籌,畢竟人家底層模型的參數(shù)量擺在那。
但在 GLM 里, 如果把提示詞寫得很詳細(xì)具體,其實(shí)也能得到那樣的圖。
![]()
圖:通過詳細(xì)的提示詞生成的信息圖
極簡(jiǎn)風(fēng)的產(chǎn)品海報(bào),GLM Image 也是信手拈來:
![]()
提示詞:一張極具奢華感的高端護(hù)膚品廣告海報(bào)。畫面中央是一瓶半透明的琥珀色精華液瓶身,瓶身表面有精致的金色燙金文字。瓶子置于平靜的水面上,周圍有金色的漣漪和飛濺的水珠,光影呈現(xiàn)出剔透的琉璃質(zhì)感。 背景是深邃的漸變黑金色。畫面上方留白處,使用優(yōu)雅纖細(xì)的中文襯線字體(宋體風(fēng)格)排版:‘凝時(shí)?新生’。下方是一行較小的英文:‘TIMELESS BEAUTY’。整體風(fēng)格追求極致的純凈與奢華,微距攝影視角。
還有這種速度感的汽車海報(bào):
![]()
提示詞:一張充滿速度感的電動(dòng)超跑商業(yè)海報(bào)。一輛銀灰色的流線型概念跑車正在深邃的未來隧道中極速飛馳。背景的燈光因?yàn)楦咚僖苿?dòng)拉成了長(zhǎng)長(zhǎng)的霓虹光流(Motion blur),而車身主體清晰銳利,車漆反射著周圍流動(dòng)的光影,金屬質(zhì)感極強(qiáng)。 畫面采用傾斜構(gòu)圖,極具視覺沖擊力。左上角排版巨大的、粗體傾斜的無襯線中文字體:‘極速?由此定義’。右下角是汽車品牌Logo和一行小字‘未來已來’。冷色調(diào),賽博朋克與工業(yè)設(shè)計(jì)的完美結(jié)合。
作為一款文生圖的模型,GLM Image 目前還不支持修圖,所以相對(duì)來講比較簡(jiǎn)單,不知道后期會(huì)不會(huì)有這些功能,包括參考圖等。
網(wǎng)上很多人把 GLM Image 稱為 Nano Banana 的“國(guó)產(chǎn)平替”或“開源平替”。
但我扒了一下它的底,發(fā)現(xiàn)事情沒那么簡(jiǎn)單。
它底層用的是一種很新的“自回歸 + 擴(kuò)散”架構(gòu) 。
簡(jiǎn)單說,就是用大模型的腦子去“聽懂話”,再用繪畫模型的筆去“摳細(xì)節(jié)” 。這也是為什么它能把復(fù)雜的漢字寫對(duì)的核心原因 。
更硬核的是,它是智譜聯(lián)合華為昇騰和昇思 MindSpore 硬磕出來的,從里到外都是純國(guó)產(chǎn)算力 。
當(dāng)然,最吸引我的還是開源。
如果你在意數(shù)據(jù)隱私,或者公司想省成本,完全可以把它下載下來本地部署。
不用聯(lián)網(wǎng)也能跑,相當(dāng)于擁有了一個(gè)私有的繪圖工作臺(tái),這點(diǎn)對(duì)企業(yè)太香了。
別光聽我說,建議直接上手試,小白用戶直接去 bigmodel.cn 免費(fèi)體驗(yàn):
![]()
圖:GLM Image 的圖像生成界面
技術(shù)大神去 GitHub 搜 GLM-Image 就能扒代碼:
GitHub:https://github.com/zai-org/GLM-Image
Hugging Face:https://huggingface.co/zai-org/GLM-Image
魔搭社區(qū):https://modelscope.cn/models/ZhipuAI/GLM-Image
試完覺得好用的,記得回來給國(guó)產(chǎn) AI 點(diǎn)個(gè)贊!
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.