網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

首個(gè)智能體模型實(shí)測(cè)：產(chǎn)品、開發(fā)、運(yùn)維“全包了”

2025-07-31 20:58:05　來(lái)源: Alter聊科技

青海舉報(bào)

分享至

假如你已經(jīng)習(xí)慣了AI“動(dòng)嘴”，接下來(lái)將進(jìn)入AI“動(dòng)手”的時(shí)代。

2025年下半年剛開局，幾家大模型企業(yè)就開始卡位Agent，要么上線了“Agent模式”，要么發(fā)布了新的Agent產(chǎn)品，但思路大多是“大模型+外掛工具”，就像是“大腦”指揮一堆外部的“手”協(xié)同完成任務(wù)。

7月28日，智譜正式發(fā)布了新一代旗艦?zāi)Ｐ虶LM-4.5，在MMLU Pro、AIME24、MATH 500、SciCode等12項(xiàng)基準(zhǔn)評(píng)測(cè)中，綜合平均分位居全球模型第三、國(guó)產(chǎn)模型第一，開源模型第一。

比起榜單排名，讓我們更感興趣的是——GLM-4.5是專為智能體應(yīng)用打造的基礎(chǔ)模型，首次在單個(gè)模型中實(shí)現(xiàn)將推理、編碼和智能體能力原生融合，不再滿足于扮演一個(gè)被動(dòng)回答問(wèn)題的“聊天機(jī)器人”，而是要成為能夠理解復(fù)雜目標(biāo)、自主規(guī)劃并執(zhí)行多步驟任務(wù)的“全優(yōu)生”。

相當(dāng)于模型自己就是“帶手的腦”，實(shí)現(xiàn)了自主拆解任務(wù)、調(diào)用工具、完成工作，直接將大模型的原生能力卷到了下一個(gè)Level。

為什么技術(shù)博客認(rèn)為大模型的下一個(gè)范式，一定是把各種能力整合到一起？智譜的路線能否跑通呢？

我們花了半天的時(shí)間，在z.ai上通過(guò)GLM-4.5測(cè)試了8組Demo，一起來(lái)看下GLM-4.5這個(gè)“優(yōu)等生”的表現(xiàn)。（注：所有Demo均來(lái)自一句簡(jiǎn)單的提示詞，大家可復(fù)制提示詞進(jìn)行驗(yàn)證）

Demo1：三只萌犬的網(wǎng)頁(yè)名片

提示詞：用HTML+CSS寫一個(gè)寵物展示網(wǎng)頁(yè)，有三只小狗，展示它們的名字、簡(jiǎn)介和圖片。

在測(cè)試其他Agent產(chǎn)品時(shí)，我們需要把提示詞寫的盡可能詳細(xì)，包含頁(yè)面主題、頁(yè)面結(jié)構(gòu)、CSS樣式要求、圖片說(shuō)明等等，只有足夠詳細(xì)的提示詞，才能保證模型能理解我們的需求，生成想要的網(wǎng)頁(yè)效果。

第一次測(cè)試GLM-4.5的Agent能力，我們選擇大膽的“賭”一把，相對(duì)簡(jiǎn)單甚至模糊的提示詞，最終會(huì)生成什么樣的效果？

直接說(shuō)結(jié)果：GLM-4.5根據(jù)我們的需求生成了一個(gè)靜態(tài)網(wǎng)頁(yè)，自動(dòng)生成了網(wǎng)頁(yè)主題、生成了3張小狗照片，并詳細(xì)介紹了它們的名字、品種、年齡、性格和簡(jiǎn)介；頁(yè)面使用了漸變背景、毛玻璃效果和懸停動(dòng)畫效果，而且是完全響應(yīng)式設(shè)計(jì)，在手機(jī)、平板、電腦上都能完美顯示。

Demo 2：AI入門課件

提示詞：寫一份15分鐘的“AI入門課件”，適合初中生，要求通俗易懂、有例子。

制作PPT幾乎是所有Agent產(chǎn)品的主打功能，同時(shí)也是比較考驗(yàn)?zāi)Ｐ湍芰Φ膱?chǎng)景：需要先理解用戶的指令，識(shí)別出關(guān)鍵的信息和目標(biāo)；根據(jù)主題或關(guān)鍵詞檢索信息，確保內(nèi)容的準(zhǔn)確性和關(guān)聯(lián)性，并按合適的順序和結(jié)構(gòu)展示；結(jié)合內(nèi)容自動(dòng)搜索并插入合適的圖片，以增強(qiáng)視覺(jué)效果和理解力。

GLM-4.5的表現(xiàn)，在很大程度上超出了我們的預(yù)期：通俗易懂地解釋了什么AI，列舉了AI發(fā)展史的關(guān)鍵節(jié)點(diǎn)，梳理了AI的運(yùn)作邏輯、日常生活中的落地場(chǎng)景、未來(lái)的發(fā)展趨勢(shì)，并且通過(guò)“小測(cè)驗(yàn)和思考題”增加了互動(dòng)性。

不同于使用模板填充信息的PPT生成方式，GLM-4.5直接根據(jù)搜索到的資料和圖片接以HTML形式編寫圖文，讓信息更準(zhǔn)確、排版更靈活，而且允許用戶直接編輯修改。以我們生成的這份PPT為例，從標(biāo)題、排版到配圖、ICON，整份PPT的質(zhì)量非常高，連小細(xì)節(jié)都挑不出什么毛病。

Demo 3：旅游打卡小紅書卡片生成器

提示詞：設(shè)計(jì)一個(gè)小紅書卡片生成器，目標(biāo)是幫助用戶快速生成適合旅游打卡分享的卡片。

比起靜態(tài)的網(wǎng)頁(yè)，直接生成應(yīng)用的任務(wù)，需要對(duì)圖片進(jìn)行美化、裁剪、加濾鏡、添加裝飾元素等操作，而且用戶需要在生成過(guò)程中能夠有一定的交互，例如選擇模板、調(diào)整圖片、修改文案等等。

結(jié)果依然可圈可點(diǎn)，用戶可以上傳照片、輸入文案、選擇模板風(fēng)格，還提供了三組文案和描述供用戶參考。

一個(gè)小插曲在于，最初生成的應(yīng)用無(wú)法下載圖片，我們將問(wèn)題反饋給GLM-4.5后，迅速檢查了代碼，發(fā)現(xiàn)是“Tailwind CSS v4使用了新的oklch顏色格式，但html2canvas不支持解析這種顏色格式”，然后GLM-4.5拋棄了html2canvas，改用原生的Canvas API實(shí)現(xiàn)卡片生成，迅速修復(fù)了錯(cuò)誤。

接下來(lái)繼續(xù)上難度，要求GLM-4.5增加一個(gè)新功能：根據(jù)用戶的描述，自動(dòng)生成標(biāo)題和文案，同時(shí)一鍵獲取當(dāng)前地理位置。

想要滿足這個(gè)需求，大模型必須要正確理解用戶的需求并生成相關(guān)文案、熟悉小紅書的文案風(fēng)格，在應(yīng)用中一鍵獲取當(dāng)前地理位置，并將位置數(shù)據(jù)與生成的文案組合排版，渲染出精美的小紅書卡片。

整個(gè)過(guò)程中，我們沒(méi)有輸入一行代碼，甚至沒(méi)有檢查一行代碼，所有的調(diào)試都是用自然語(yǔ)言完成的。

Demo 4：反應(yīng)測(cè)試小游戲

提示詞：設(shè)計(jì)并編寫一個(gè)反應(yīng)速度測(cè)試小游戲，玩家點(diǎn)擊一個(gè)按鈕后，在隨機(jī)時(shí)間內(nèi)按鈕顏色會(huì)發(fā)生變化，玩家需盡快點(diǎn)擊按鈕，點(diǎn)擊得越快，得分越高。

先看下GLM-4.5是怎么理解這個(gè)需求的，被拆分成了4個(gè)部分：

1、游戲機(jī)制：點(diǎn)擊開始→等待變色→盡快點(diǎn)擊→查看成績(jī)，并設(shè)計(jì)了2-6秒隨機(jī)等待時(shí)間，防止玩家預(yù)判。

2、功能特性：實(shí)時(shí)統(tǒng)計(jì)當(dāng)前成績(jī)、最佳成績(jī)和游戲次數(shù)，根據(jù)反應(yīng)時(shí)間給出等級(jí)評(píng)價(jià)，等待狀態(tài)按鈕禁用。

3、用戶體驗(yàn)：藍(lán)色：開始游戲；黃色：等待中；綠色：立即點(diǎn)擊；紫色：再次挑戰(zhàn)，匹配了不同的音效。

4、評(píng)價(jià)系統(tǒng)：玩家點(diǎn)擊按鈕的反應(yīng)時(shí)間會(huì)被計(jì)算并轉(zhuǎn)換為分?jǐn)?shù)，得分= (1 - 點(diǎn)擊時(shí)間 / 最大時(shí)間) * 100。

讓人驚喜的是，GLM-4.5在推理的過(guò)程中通過(guò)反思進(jìn)一步優(yōu)化了游戲細(xì)節(jié)，比如設(shè)置了新手→進(jìn)階→專家→大師→傳奇的難度等級(jí)，并在游戲結(jié)束后加入了社交分享功能，可以將成績(jī)分享到微博或微信。

對(duì)于大模型來(lái)說(shuō)，這個(gè)任務(wù)不僅僅代碼生成，需要跨越多個(gè)技術(shù)維度，涉及到游戲機(jī)制、UI界面設(shè)計(jì)、用戶體驗(yàn)優(yōu)化等多個(gè)方面，具備理解玩家行為、生成富有挑戰(zhàn)性的游戲內(nèi)容、平衡游戲樂(lè)趣與難度的綜合能力。

Demo 5：前任行為分析大師

提示詞：生成一個(gè)“前任行為分析大師”，專門幫用戶解讀前任發(fā)朋友圈的含義，給出“是否在試探復(fù)合”的專業(yè)分析。

這個(gè)任務(wù)的難點(diǎn)在于：大模型需要具備強(qiáng)大的情感語(yǔ)境理解能力，不僅要識(shí)別顯性信息，還要能夠讀懂隱性信息；處理文本、圖片等多種格式，進(jìn)行情感和意圖解讀；基于用戶和前任的行為數(shù)據(jù)，提供個(gè)性化的分析和建議。

這個(gè)Demo可能是GLM-4.5完成的最出色的任務(wù)，在界面上清晰描述了智能體的功能，并貼心地加入了隱私提醒。

效果怎么樣呢？

我們找到了一組“渣男文案”：“想起了我們一起去過(guò)的那個(gè)咖啡館，好久沒(méi)去了，那個(gè)咖啡真的好喝，尤其是我們一起喝的那杯。”

“前任行為分析大師”的輸出結(jié)果如下：

需要說(shuō)明的是，這個(gè)Agent僅供娛樂(lè)參考，請(qǐng)勿過(guò)度依賴。

Demo 6：抖音爆款短劇生成器

提示詞：生成一個(gè)“抖音爆款短劇自動(dòng)機(jī)”，用戶輸入主線（如：窮小子逆襲），你輸出完整分鏡腳本、角色名、反轉(zhuǎn)節(jié)點(diǎn)。

整個(gè)過(guò)程和前面幾個(gè)demo一樣，GLM-4.5準(zhǔn)確理解了我們的需求。進(jìn)行了一組簡(jiǎn)單的測(cè)試，創(chuàng)意與生成能力、情感共鳴與情節(jié)推進(jìn)、劇本結(jié)構(gòu)化輸出等表現(xiàn)都讓人滿意，但頁(yè)面的風(fēng)格和前面比較相似。

于是我們?cè)俅谓oGLM-4.5上了強(qiáng)度——“把界面改成黑神話悟空的風(fēng)格”。

原以為模型只會(huì)把頁(yè)面色彩改一下，適配黑神話的“暗黑美學(xué)”，大大超出預(yù)期的是，GLM-4.5進(jìn)行了全面改造：

不單單是在視覺(jué)上采用了深色漸變的風(fēng)格，文案風(fēng)格、UI組件命名、交互效果等都在向游戲風(fēng)格靠齊。

比如標(biāo)題改成了”黑神話·短劇天機(jī)”，副標(biāo)題改成了“悟空慧眼觀世間，AI神筆寫乾坤。一念生成千萬(wàn)劇，皆是因果皆是緣”，輸入?yún)^(qū)域被定義為”天機(jī)演算法壇”，生成按鈕標(biāo)稱了”演算天機(jī)劇本”。

Demo 7：荒島求生游戲

提示詞：設(shè)計(jì)一個(gè)“荒島求生游戲”，用戶輸入想要的資源和技能，智能體生成一系列求生任務(wù)和情境，用戶通過(guò)與系統(tǒng)的互動(dòng)解決困境。

GLM-4.5的完成度非常高，設(shè)計(jì)了角色創(chuàng)建系統(tǒng)、生存系統(tǒng)、任務(wù)系統(tǒng)、隨機(jī)事件系統(tǒng)和游戲進(jìn)度系統(tǒng)。游戲會(huì)根據(jù)玩家當(dāng)前技能和資源生成合適的任務(wù)，并在資源消耗、技能成長(zhǎng)、風(fēng)險(xiǎn)回報(bào)上進(jìn)行了平衡。

同時(shí)也在考驗(yàn)?zāi)Ｐ驮谇榫成伞⑷蝿?wù)多樣性、即時(shí)反饋以及決策等方面的能力。比如我們多次選擇狩獵大型動(dòng)物的任務(wù)，導(dǎo)致生命值不斷下滑后，后續(xù)生成的任務(wù)主要是休息和安全探索，確保玩家可以“活下去”。

由于提示詞比較簡(jiǎn)單，整個(gè)游戲的可玩性不是特別強(qiáng)，但讓我們看到了一種新的可能：游戲公司在驗(yàn)證一個(gè)創(chuàng)意的可行性時(shí)，可以先簡(jiǎn)單做一個(gè)Agent，不斷模擬游戲中的場(chǎng)景，豐富游戲的劇情。

Demo 8：診療陪練系統(tǒng)

提示詞：做一個(gè)診療陪練應(yīng)用，通過(guò)AI模擬患者，輔助醫(yī)學(xué)生提升診斷技能，提供問(wèn)診評(píng)分，高效助力臨床實(shí)踐訓(xùn)練。另外再寫一個(gè)管理員頁(yè)面的功能，方便管理員查看醫(yī)學(xué)生的成績(jī)。

這個(gè)demo主要涉及兩個(gè)部分：

1、診療陪練應(yīng)用，通過(guò)AI模擬患者來(lái)輔助醫(yī)學(xué)生提升診斷技能，提供問(wèn)診評(píng)分。

2、管理員頁(yè)面功能，使管理員能夠方便地查看醫(yī)學(xué)生的成績(jī)。

不管是AI對(duì)話系統(tǒng)的復(fù)雜性、評(píng)分算法的設(shè)計(jì)、數(shù)據(jù)模型的復(fù)雜性，還是實(shí)時(shí)交互的技術(shù)挑戰(zhàn)、醫(yī)學(xué)專業(yè)知識(shí)的準(zhǔn)確性、系統(tǒng)集成和數(shù)據(jù)流的處理，幾乎都在考驗(yàn)當(dāng)前大模型的能力上限。

一個(gè)直接的例子，GLM-4.5需要理解醫(yī)學(xué)生的提問(wèn)和患者的回答，并且根據(jù)設(shè)定的醫(yī)學(xué)背景、癥狀和情境模擬合理的互動(dòng)。例如模擬患者可能表達(dá)各種癥狀，且這些癥狀需要結(jié)合醫(yī)學(xué)知識(shí)進(jìn)行適當(dāng)?shù)姆答仭?/p>

就交互體驗(yàn)和系統(tǒng)完整性而言，GLM-4.5的表現(xiàn)依舊值得稱贊，只用了十幾分鐘的時(shí)間，但已經(jīng)很接近一套完整的診療陪練系統(tǒng)，而且UI設(shè)計(jì)、題庫(kù)設(shè)計(jì)、交互體驗(yàn)、數(shù)據(jù)管理等模塊不遜于市場(chǎng)上的大多數(shù)成熟產(chǎn)品，驗(yàn)證了大模型生成復(fù)雜Agent系統(tǒng)的可能性。

一些思考

作為基座模型的GLM-4.5，同時(shí)扮演了產(chǎn)品經(jīng)理、程序員和測(cè)試運(yùn)維的角色，通過(guò)在一個(gè)模型中實(shí)現(xiàn)多種能力的融合，很大程度上簡(jiǎn)化了搭建智能體的工程難度，進(jìn)一步拉低了智能體的應(yīng)用門檻。

目前GLM-4.5只能部署8個(gè)實(shí)例，我們也只能展示8組Demo，但傳遞出的信號(hào)已經(jīng)十分明顯：

1、技術(shù)的門檻正在消失，創(chuàng)意將直接和生產(chǎn)力掛鉤。

就像上述的Demo，即便是最簡(jiǎn)單的靜態(tài)網(wǎng)頁(yè)，至少需要一個(gè)前端和一個(gè)設(shè)計(jì)師協(xié)同，花費(fèi)三四天的時(shí)間，現(xiàn)在只需要一句自然語(yǔ)言的指令，文案、配圖、代碼、上線部署等均可以交給GLM-4.5。

當(dāng)技術(shù)的門檻被抹平了，創(chuàng)意的價(jià)值將被無(wú)限放大，即使是不懂技術(shù)的普通人，也能將創(chuàng)意轉(zhuǎn)化為生產(chǎn)力。

2、智能體競(jìng)賽的邏輯即將重構(gòu)，從“系統(tǒng)拼裝”向“模型驅(qū)動(dòng)” 轉(zhuǎn)變。

過(guò)去智能體競(jìng)賽的焦點(diǎn)在于能否將不同的組件、工具和技術(shù)有效地集成到一起，更多依賴于工程實(shí)現(xiàn)，而非模型本身的創(chuàng)新。

智譜示范了另一種路線，即“模型即操作系統(tǒng)”的路線：通過(guò)大模型能力的全面提升，減少了工程集成的復(fù)雜性。一些簡(jiǎn)單的智能體能力，或?qū)⒈换竽Ｐ驼希Ｐ湍芰Φ脑鰪?qiáng)，賦予了開發(fā)者更大的想象空間。

3、從比拼榜單刷分到真實(shí)場(chǎng)景表現(xiàn)，大模型廠商越來(lái)越務(wù)實(shí)。

GLM-4.5的基準(zhǔn)評(píng)測(cè)成績(jī)不可謂不亮眼，讓我們印象最深刻卻是在真實(shí)場(chǎng)景中的表現(xiàn)，代表著大模型的產(chǎn)業(yè)落地進(jìn)程。

除了性能優(yōu)化，GLM-4.5也在成本和效率上實(shí)現(xiàn)了突破，其中API調(diào)用價(jià)格已經(jīng)低至輸入0.8元/百萬(wàn)tokens，輸出2元/百萬(wàn)tokens，高速版本實(shí)測(cè)生成速度超過(guò)100 tokens/秒，可以說(shuō)兼顧成本效益與交互體驗(yàn)。

也讓我們有理由相信，當(dāng)GLM-4.5代表的新模型不斷融合更多通用智能能力，AI“動(dòng)手”的時(shí)代已經(jīng)離我們?cè)絹?lái)越近，Agent正加速?gòu)膶?shí)驗(yàn)室走向真實(shí)場(chǎng)景，成為日常生活中不可或缺的一部分。

聲明：個(gè)人原創(chuàng)，僅供參考

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.