網易首頁 > 網易號 > 正文申請入駐

全棧突圍：智譜GLM-Image × 昇騰·昇思攜手走出“無人區”

2026-01-20 11:25:18　來源: dobigdata

北京舉報

分享至

技術只有變得足夠“便宜”，才能實現真正“普及”，從而深度融入到工作與生活的方方面面。

所以，當GLM-Image在API調用模式下生成一張圖片只需0.1元時，價格僅為海外同類產品的1/10至1/3，全球AI市場都為之震撼。

GLM-Image是智譜聯合華為開源新一代圖像生成模型，也是首個在國產芯片上完成全程訓練的SOTA多模態模型，其基于昇騰Atlas 800T A2設備和昇思MindSpore AI框架完成了從數據到訓練的全流程。

GLM-Image模型強大的性能表現，及背后的全棧國產化訓練歷程，給出了一個極具參考價值的答案：在AI高端領域，中國公司已走出無人區，實現全棧技術突圍，對于后續整個AI產業具有里程碑的意義。

GLM-Image，新架構帶來變革

在AI生圖領域，主要存在擴散模型（Diffusion）和自回歸模型（Autoregressive，AR）兩種模型，兩者各有優勢卻也存在短板。擴散模型難以理解復雜指令，在海報、PPT、科普插圖等知識密集型場景中，往往會“語義脫節”的短板，會出現物理邏輯錯誤等問題；自回歸模型則在生成圖像質量難以令人滿意。

為此，智譜GLM-Image創新性采用了自回歸 + 擴散編碼器混合架構。自回歸模型猶如“大腦”，擅長處理序列邏輯和宏觀語義，負責邏輯推理與框架構建；擴散解碼器則專注于圖像的高頻細節還原，確保最終生成的圖像在視覺上達到工業級的美學標準。GLM-Image的混合架構恰似“理解”意圖之后再進行生圖創作，這是向探索以 Nano Banana Pro為代表的新一代“知識+推理”的認知型生成模型邁出重要一步。

混合架構的優勢，使得智譜GLM-Image尤其擅長文字渲染，在海報、插畫等場景展現出強大的能力。來看看智譜GLM-Image的真實效果：

據悉，GLM-Image在CVTG-2K（復雜視覺文本生成）和LongText-Bench（長文本渲染）榜單獲得開源第一。

此外，GLM-Image在開源不到24小時就登頂全球知名AI開源社區Hugging Face Trending榜第一。Hugging Face是全球知名的開源AI模型與工具生態平臺，堪稱全球AI界的頂流。GLM-Image此次登頂，其模型SOTA性能、混合架構創新和訓練過程引發了全球AI圈的廣泛熱議。

昇騰·昇思助力全棧突圍

再好的架構與算法，如果沒有強大算力底座的支撐，也無法訓練出強大的模型。

眾所周知，像SOTA模型這種級別的前沿模型，對于AI算力集群的性能、穩定性與通信帶寬有著極高要求，并且普遍需要國外AI芯片支撐此類訓練任務。不過，智譜GLM-Image模型進行了開創性嘗試，從海量數據預處理到大規模預訓練，再到最后微調全流程使用國產算力，使得其成為首個基于自主創新算力底座全程訓練的SOTA模型，也實現國產模型+國產算力+國產AI框架的全棧突圍。

具體來看，GLM-Image屬于多模態模型，需要處理大量文字和圖片數據，在模型訓練階段的內存開銷和性能要求極高。為此，昇騰·昇思引入動態圖多級流水下發、多流并行執行、高性能融合算子等特性，全面提升從數據處理、預訓練、SFT到RL的端到端性能。

例如，動態圖多級流水下發，徹底解決了Host側算子下發瓶頸問題。在NPU+CPU的集群中，大規模多核CPU會涉及到單線程算子下發跟不上NPU計算速度，導致設備側空轉與整體資源利用率偏低。依托昇騰+昇思MindSpore的軟硬件協同，通過動態圖多級流水下發，將Python執行、算子shape推導與算子下發等關鍵階段進行流水化并高度重疊，有效提升Host側算子下效率。

又如，GLM-Image的多模態訓練場景中，文本梯度同步、圖像特征廣播、混合并行等操作都有復雜的通信需求。單流串行執行時，計算和通信兩類操作互相等待，整體資源利用率低。為此，通過多流并行執行機制，讓計算與通信兩類操作同時并行，打破通信墻和大幅提升資源利用率，整體提升訓練性能10%。

再如，昇騰CANN高性能算子庫提供包括AdamW EMA融合算子、COC通算融合算子等，針對性解決訓練后期loss震蕩、通信開銷大等問題，為GLM-Image模型的訓練帶來高性能和穩定性。

無疑，基于昇騰·昇思構建的國產算力底座在此次GLM-Image模型訓練中經受住充分考驗，充分證明了從國產芯片、AI框架到多模態模型的全棧突圍并非遙不可及。

走出“無人區”具有里程碑意義

智譜與華為的此次深度合作，其意義遠超一個模型的簡單發布。

長期以來，中國AI開發者高度依賴國外AI硬件、AI框架等。事實證明，這種方式受制于人且充滿高度不確定性，嚴重束縛中國AI的創新與發展。而智譜GLM-Image模型的問世，驗證了在國產全棧算力底座上訓練高性能復雜多模態模型的可行性，這標志著國產AI正式走出“無人區”、實現全棧突圍，對于未來市場有著不可低估的影響：

其一、打破依賴慣性，給予國內AI開發者們重要信心。智譜GLM-Image模型的出色表現具有里程碑的意義，證明國產大模型+國產AI芯片+國產AI框架的組合SOTA級模型領域同樣能打，后續其示范價值有望在AI開發者中得到持續影響。

其二、智譜GLM-Image模型開源，有望進一步激發AI生圖領域的創新。眾所周知，開源模式是降低創新門檻的和激發技術創新活力最為有效方式，而智譜GLM-Image開源，已經受到Hugging Face等知名平臺的密切關注，未來有望吸納更多開發者了解和加入到智譜GLM-Image項目之中，從而激發AI生圖領域的迭代與創新。

其三、加速商業化落地和AI新生態形成。近年來，海外頻繁傳出中國大模型獲得全球用戶青睞的消息，根本原因在于中國大模型產品技術具備相當競爭力的同時，帶來極具性價比的使用體驗。像智譜GLM-Image在API調用模式將生成一張圖片做到只需0.1元，這無疑對整個AI生圖市場帶來巨大沖擊力，有望進一步推動AI生圖相關技術與產品的普惠和AI生態的形成。

綜合觀察

勇氣是不確定性時代唯一的通行證。

當市場充滿不確定性時，在人工智能的“無人區”里，本就沒有現成的路。智譜與華為的緊密合作，無疑走出一條獨立、安全且具有國際競爭力之路，不僅誕生出GLM-Image這樣出身的SOTA模型，更證明了國產AI全棧突圍并非遙不可及。

展望未來，隨著智譜在人工智能智能領域的持續探索，以及昇騰、昇思產品競爭力穩步提升，國產 AI 穿越“無人區”之后，迎接他們的將是AGI的星辰大海。

大數據在線是聚焦人工智能、大數據、云計算等前沿科技領域深度觀察的深度媒體。目前，大數據在線在微信公眾號、今日頭條號、新浪財經、36氪、雪球號、觀察號等主流自媒體平臺均有入駐，積累粉絲超過20W；并榮獲今日頭條十大科技新銳媒體、商業新知十大人工智能媒體等多項殊榮。商務聯系請添加微信：Owen_Inter，添加請備注具體信息。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.