作者|子川
來源|AI先鋒官
昨天,美團 LongCat 團隊正式發(fā)布并開源 LongCat-Image 模型。
![]()
據(jù)介紹,LongCat-Image此次參數(shù)只有6B,但在文生圖和圖像編輯能力在多個行業(yè)基準測試中表現(xiàn)優(yōu)異!
LongCat-Image采用了文生圖與圖像編輯同源的統(tǒng)一架構(gòu)。
這種設(shè)計最大的好處就是,你可以對同一張圖進行多輪編輯,而不會出現(xiàn)風格漂移和結(jié)構(gòu)失真的問題。
先看一下跑分成績——
![]()
在圖像編輯任務(wù)中,ImgEdit-Bench得分4.50分,GEdit-Bench中英文得分分別為7.60/7.64分,都達到開源SOTA水平,甚至逼近頭部閉源模型!
同時在中文文字生成任務(wù)中,ChineseWord評測以90.7分的成績大幅領(lǐng)先所有參評模型
文生圖任務(wù)中,GenEval 0.87分,與Qwen-Image持平,DPG-Bench 86.8分,基礎(chǔ)生圖能力同樣在線。
那LongCat-Image的實際效果到底如何,老規(guī)矩,我們實測一下。
此次給它挑選的對手是最近非常火爆且參數(shù)同為6B的Z-Image圖像生成模型。
不過由于Z-Image可以圖像編輯模型還未發(fā)布,所以我們先對比文生圖功能,然后再單獨實測LongCat-Image的圖像編輯功能。
為了讓測試成績更準確,每款模型生成4次取最好的那一次。
提示詞:時尚半身人像,藝術(shù),短發(fā)女性佩戴黑色粗框眼鏡,黑色無袖高領(lǐng)衫與銀色耳釘形成冷調(diào)組合,明黃色背景強烈撞色,細膩筆觸刻畫油潤肌膚質(zhì)感,面部特寫突出自信眼神,手指纖細,幾何線條勾勒前衛(wèi)造型,融合街頭文化元素,動態(tài)抓拍
LongCat-Image:
![]()
Z-Image-Turbo:
![]()
對比結(jié)果一目了然。Z-Image-Turbo在寫實人像的表現(xiàn)上展現(xiàn)了壓倒性的優(yōu)勢,光影自然,人物神態(tài)極具真實感。
相比之下,LongCat-Image生成的人物AI感較強。
提示詞:手帳風格,標題“白菜炒粉絲”,出一個白菜炒粉絲制作步驟過程教程圖,步驟說明要清晰,中文字幕,最后展示成品圖
LongCat-Image:
![]()
Z-Image-Turbo:
![]()
這兩張圖,可謂是槽點滿滿,先看LongCat-Image,它的最大槽點就是文字很少,同時在炒白菜的過程中,它放入了很多白菜,但是最后的成品,白菜很少,不符合現(xiàn)實的邏輯。
Z-Image-Turbo也有不少槽點,首先是在粉絲炒白菜這道菜中加入了雞蛋,憑空增加了提示詞中未提及的雞蛋。
此外,其文字生成能力尚不穩(wěn)定,字形模糊且語句邏輯不通,沒有達到教程圖的實用標準。
提示詞:瘋狂動物城角色,尼克狐與朱迪兔。尼克有著橙紅色的毛發(fā),身穿經(jīng)典的綠色棕櫚葉印花短袖襯衫,系著藍紅相間的條紋領(lǐng)帶,下身穿著卡其色長褲,表情帥氣壞笑。朱迪有著灰色的毛發(fā)和紫色的眼睛,長耳朵高高豎立,身穿深藍色的ZPD警官制服背心,佩戴銀色警徽,腰帶裝備齊全,神態(tài)甜美可愛。 兩人并肩坐在一個巨大的、懸浮的“小紅書”APP界面相框底部邊緣。突破次元壁構(gòu)圖,角色的雙腿懸空并伸出相框平面之外,尼克的一只手親密地摟住朱迪的肩膀,另一只手握著智能手機大幅度伸出畫面最前方,以45度角高舉進行自拍(魚眼透視感)。朱迪身體緊緊依偎著尼克,抬頭看向鏡頭甜笑,展示甜蜜秀恩愛的瞬間。 畫面核心是一個巨大的小紅書風格社交媒體相框。UI界面還原小紅書經(jīng)典布局:左下角有滾動的文案標題,右側(cè)豎排懸浮著“?”、“?”、“評論氣泡”和“轉(zhuǎn)發(fā)箭頭”圖標。頂部顯示用戶名“尼克&朱迪”,帶有熱門標簽話題(如 )。 3D皮克斯動畫電影風格,Unreal Engine 5渲染,8K超高清畫質(zhì)。毛發(fā)呈現(xiàn)纖維級細節(jié),光線追蹤技術(shù),柔和的自拍補光燈效果打在兩人臉上,背景是虛化的瘋狂動物城多彩街景與夢幻光斑。色彩明亮鮮艷,高飽和度,強調(diào)社交媒體的網(wǎng)感與糖果色調(diào),極具視覺沖擊力。
LongCat-Image:
![]()
Z-Image-Turbo:
![]()
同樣很直觀,Z-Image-Turbo依舊勝出,LongCat-Image輸出的一點像是盜版尼克和朱迪。
提示詞:最佳畫質(zhì),新中式美食宣傳海報,暖色調(diào)柔和光影烘托氛圍,中心呈現(xiàn)粗陶碗盛裝的番茄牛肉面(紅潤湯汁通透有光澤,勁道面條呈飛濺動態(tài),大塊牛腩紋理清晰、番茄片鮮活懸浮);背景搭配蒼勁黑色書法字體“自然番茄 酸鮮帶勁”,輔以“中華原湯牛肉面系列”印章元素增添傳統(tǒng)感;整體營造鮮香誘人、傳統(tǒng)與現(xiàn)代融合的美食氛圍,細節(jié)豐富(湯汁的水潤質(zhì)感、牛肉的肌理層次、食材動態(tài)的生動性)。
LongCat-Image:
![]()
Z-Image-Turbo:
![]()
這組測試主要考察模型的商業(yè)排版與材質(zhì)渲染能力。兩者在構(gòu)圖上是一樣的,但Z-Image-Turbo在細節(jié)打磨上更為好。
字體的融入感更強,沒有突兀的貼圖感;牛肉與湯汁的質(zhì)感處理得更加誘人,光澤度與紋理細節(jié)還原到位,更符合商業(yè)美食海報的審美標準。
提示詞:以復古票據(jù)為原型的國潮設(shè)計畫面,白色底色有民國懷舊氛圍,外圍是繁復金色元寶錢幣花紋邊框,財神爺圖案,頂部和底部有英文‘WEALTH ARRIVES UNEXPECTEDLY’,中間拱起‘MAY YOU PROSPER’,兩側(cè)豎排英文‘UNLIMITED MONEY’,畫面核心是粗獷黑筆少許金粉寫的‘暴富符’,周圍有豎排小字“急急如律令”和道家符咒點綴,底部有英文‘PROSPERITY IN FINANCIAL RESOURCES’和灑金色篆刻印章。造夢師的詩意視覺風格,國潮,全景鏡頭,復古、潮趣氛圍,中西融合、細節(jié)豐富修飾。
LongCat-Image:
![]()
Z-Image-Turbo:
![]()
這兩張圖,可以看得出Z-Image-Turbo在排版方面非常精致,但文字方面又有錯誤。
不過LongCat-Image 也不輸,雖然從視覺上看,沒有Z-Image-Turbo那么精美,但其整體風格統(tǒng)一,有一種獨特的復古粗糲感。
下面我們再來測試一下LongCat-Image的圖像編輯能力,畢竟編輯能力才是主打。
圖片上色
給下面的圖片進行上色處理
![]()
從最終呈現(xiàn)的效果來看,十分不錯,顏色的搭配都十分符合漫畫的風格。
文字修改
將圖片中的文字“就做一陣風吧 有溫柔也有英勇”改成“世界這么大,我想去看看”。
![]()
改字功能很方便,一鍵就能把文案換成“世界這么大,我想去看看”。
不過稍微有點小遺憾的是,新文字的字體和顏色沒有完全還原原來的設(shè)計。
去除水印
去除下面圖片的水印
![]()
水印去得干干凈凈,而且背景補全得特別自然,完全看不出原本這里有水印。重點是,畫質(zhì)一點都沒被壓縮。
更換物品
將小狗的帽子改成貝雷帽
![]()
還有替換物體,除了帽子變了之外,其他的東西都沒有變化,連小狗的毛發(fā)細節(jié)完全沒變,這要說明 LongCat-Image一致性非常強悍。
總體體驗下來,LongCat-Image的文生圖不如最近爆火的Z-Image-Turbo,但其圖片編輯能力表現(xiàn)十分不俗,特別是是一致性方面。
目前LongCat-Image已正式發(fā)布并開源,同時已經(jīng)在APP和網(wǎng)頁上新,感興趣的可以去試玩一番!
掃碼邀請進群,我們帶你一起來玩轉(zhuǎn)ChatGPT、GPT-4、文心一言、通義千問、訊飛星火等AI大模型,順便學一些AI搞錢技能。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.