技術只有變得足夠“便宜”,才能實現真正“普及”,從而深度融入到工作與生活的方方面面。
所以,當GLM-Image在API調用模式下生成一張圖片只需0.1元時,價格僅為海外同類產品的1/10至1/3,全球AI市場都為之震撼。
GLM-Image是智譜聯合華為開源新一代圖像生成模型,也是首個在國產芯片上完成全程訓練的SOTA多模態模型,其基于昇騰Atlas 800T A2設備和昇思MindSpore AI框架完成了從數據到訓練的全流程。
GLM-Image模型強大的性能表現,及背后的全棧國產化訓練歷程,給出了一個極具參考價值的答案 :在AI高端領域,中國公司已走出無人區,實現全棧技術突圍,對于后續整個AI產業具有里程碑的意義。
GLM-Image,新架構帶來變革
在AI生圖領域,主要存在擴散模型(Diffusion)和自回歸模型(Autoregressive,AR)兩種模型,兩者各有優勢卻也存在短板。擴散模型難以理解復雜指令,在海報、PPT、科普插圖等知識密集型場景中,往往會“語義脫節”的短板,會出現物理邏輯錯誤等問題;自回歸模型則在生成圖像質量難以令人滿意。
為此,智譜GLM-Image創新性采用了自回歸 + 擴散編碼器混合架構。自回歸模型猶如“大腦”,擅長處理序列邏輯和宏觀語義,負責邏輯推理與框架構建;擴散解碼器則專注于圖像的高頻細節還原,確保最終生成的圖像在視覺上達到工業級的美學標準。GLM-Image的混合架構恰似“理解”意圖之后再進行生圖創作,這是向探索以 Nano Banana Pro為代表的新一代“知識+推理”的認知型生成模型邁出重要一步。
混合架構的優勢,使得智譜GLM-Image尤其擅長文字渲染,在海報、插畫等場景展現出強大的能力。來看看智譜GLM-Image的真實效果:
![]()
![]()
據悉,GLM-Image在CVTG-2K(復雜視覺文本生成)和LongText-Bench(長文本渲染)榜單獲得開源第一。
![]()
此外,GLM-Image在開源不到24小時就登頂全球知名AI開源社區Hugging Face Trending榜第一。Hugging Face是全球知名的開源AI模型與工具生態平臺,堪稱全球AI界的頂流。GLM-Image此次登頂,其模型SOTA性能、混合架構創新和訓練過程引發了全球AI圈的廣泛熱議。
![]()
昇騰·昇思助力全棧突圍
再好的架構與算法,如果沒有強大算力底座的支撐,也無法訓練出強大的模型。
眾所周知,像SOTA模型這種級別的前沿模型,對于AI算力集群的性能、穩定性與通信帶寬有著極高要求,并且普遍需要國外AI芯片支撐此類訓練任務。不過,智譜GLM-Image模型進行了開創性嘗試,從海量數據預處理到大規模預訓練,再到最后微調全流程使用國產算力,使得其成為首個基于自主創新算力底座全程訓練的SOTA模型,也實現國產模型+國產算力+國產AI框架的全棧突圍。
具體來看,GLM-Image屬于多模態模型,需要處理大量文字和圖片數據,在模型訓練階段的內存開銷和性能要求極高。為此,昇騰·昇思引入動態圖多級流水下發、多流并行執行、高性能融合算子等特性,全面提升從數據處理、預訓練、SFT到RL的端到端性能。
例如,動態圖多級流水下發,徹底解決了Host側算子下發瓶頸問題。在NPU+CPU的集群中,大規模多核CPU會涉及到單線程算子下發跟不上NPU計算速度,導致設備側空轉與整體資源利用率偏低。依托昇騰+昇思MindSpore的軟硬件協同,通過動態圖多級流水下發,將Python執行、算子shape推導與算子下發等關鍵階段進行流水化并高度重疊,有效提升Host側算子下效率。
![]()
又如,GLM-Image的多模態訓練場景中,文本梯度同步、圖像特征廣播、混合并行等操作都有復雜的通信需求。單流串行執行時,計算和通信兩類操作互相等待,整體資源利用率低。為此,通過多流并行執行機制,讓計算與通信兩類操作同時并行,打破通信墻和大幅提升資源利用率,整體提升訓練性能10%。
再如,昇騰CANN高性能算子庫提供包括AdamW EMA融合算子、COC通算融合算子等,針對性解決訓練后期loss震蕩、通信開銷大等問題,為GLM-Image模型的訓練帶來高性能和穩定性。
無疑,基于昇騰·昇思構建的國產算力底座在此次GLM-Image模型訓練中經受住充分考驗,充分證明了從國產芯片、AI框架到多模態模型的全棧突圍并非遙不可及。
走出“無人區”具有里程碑意義
智譜與華為的此次深度合作,其意義遠超一個模型的簡單發布。
長期以來,中國AI開發者高度依賴國外AI硬件、AI框架等。事實證明,這種方式受制于人且充滿高度不確定性,嚴重束縛中國AI的創新與發展。而智譜GLM-Image模型的問世,驗證了在國產全棧算力底座上訓練高性能復雜多模態模型的可行性,這標志著國產AI正式走出“無人區”、實現全棧突圍,對于未來市場有著不可低估的影響:
其一、打破依賴慣性,給予國內AI開發者們重要信心。智譜GLM-Image模型的出色表現具有里程碑的意義,證明國產大模型+國產AI芯片+國產AI框架的組合SOTA級模型領域同樣能打,后續其示范價值有望在AI開發者中得到持續影響。
其二、智譜GLM-Image模型開源,有望進一步激發AI生圖領域的創新。眾所周知,開源模式是降低創新門檻的和激發技術創新活力最為有效方式,而智譜GLM-Image開源,已經受到Hugging Face等知名平臺的密切關注,未來有望吸納更多開發者了解和加入到智譜GLM-Image項目之中,從而激發AI生圖領域的迭代與創新。
其三、加速商業化落地和AI新生態形成。近年來,海外頻繁傳出中國大模型獲得全球用戶青睞的消息,根本原因在于中國大模型產品技術具備相當競爭力的同時,帶來極具性價比的使用體驗。像智譜GLM-Image在API調用模式將生成一張圖片做到只需0.1元,這無疑對整個AI生圖市場帶來巨大沖擊力,有望進一步推動AI生圖相關技術與產品的普惠和AI生態的形成。
綜合觀察
勇氣是不確定性時代唯一的通行證。
當市場充滿不確定性時,在人工智能的“無人區”里,本就沒有現成的路。智譜與華為的緊密合作,無疑走出一條獨立、安全且具有國際競爭力之路,不僅誕生出GLM-Image這樣出身的SOTA模型,更證明了國產AI全棧突圍并非遙不可及。
展望未來,隨著智譜在人工智能智能領域的持續探索,以及昇騰、昇思產品競爭力穩步提升,國產 AI 穿越“無人區”之后,迎接他們的將是AGI的星辰大海。
大數據在線是聚焦人工智能、大數據、云計算等前沿科技領域深度觀察的深度媒體。目前,大數據在線在微信公眾號、今日頭條號、新浪財經、36氪、雪球號、觀察號等主流自媒體平臺均有入駐,積累粉絲超過20W;并榮獲今日頭條十大科技新銳媒體、商業新知十大人工智能媒體等多項殊榮。商務聯系請添加微信:Owen_Inter,添加請備注具體信息。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.