
今年春節(jié),這些大模型廠商屬于是一點(diǎn)寂寞也耐不住了。
輪流發(fā)射,啊不,應(yīng)該說是輪流在噴射新的模型出來。
除了萬眾矚目的 DeepSeek 還在憋氣,其他大模型公司都沒少閑著。。。
字節(jié)前幾天搞了個(gè) Seedance 2.0,靠著逼真的視頻效果先下一城。
而智譜則是在海外整了個(gè)新活:
經(jīng)常關(guān)注大模型發(fā)布的差友們這幾天應(yīng)該有刷到,前幾天,程序員非常愛用的 AI 聚合平臺(tái),Openrouter 那邊上架了一款匿名模型 —— Pony Alpha。
![]()
結(jié)果大家一上手使用后發(fā)現(xiàn)哥們是真能干事啊,定叫它好評(píng)如潮。
![]()
于是,熱情吃瓜的海外網(wǎng)友就開始了經(jīng)典的模型猜猜猜游戲,開始推測這個(gè)匿名模型是哪一家的手筆。
![]()
有說是 DeepSeek V4 的,也有說是 Grok 4.2 的,還有說是 llama 5 的。
還有人因?yàn)?Pony 這個(gè)代號(hào),直接開始猜它是騰訊的新模型的。。。
可以說是眾說紛紜。
![]()
而昨天,謎底正式揭曉了。
不裝了,我攤牌了。
這個(gè)化名為 pony 的新東西,正是來自于智譜的GLM-5,而且還是個(gè)開源的模型。
![]()
世超打開 GLM-5 的基準(zhǔn)測試成績翻了一下,在智譜最看中的代碼能力這塊,GLM-5 直接逼近了大家公認(rèn)的 AI 編碼冠軍,Claude Opus 4.5。
![]()
當(dāng)然,現(xiàn)在各種各樣的 AI 排行榜太多了,大家可能不太理解智譜這次測的這個(gè) CC-bench-V2 又是個(gè)啥排行榜,代表了啥?
我簡單看了一下,智譜這次測的這個(gè) CC-bench-V2,主要考驗(yàn)的是你模型補(bǔ)全代碼的能力有多強(qiáng)。
說人話一點(diǎn),就是把模型丟到一個(gè)沒寫完的工程里,然后看它能不能自個(gè)兒哼哧哼哧把項(xiàng)目給做完。
這塊考的分越高,說明這次 GLM-5 處理復(fù)雜任務(wù)的能力越強(qiáng)。
眾所周知,現(xiàn)在大家想讓 AI 干的活那是越來越復(fù)雜,生成幾個(gè)簡單的 Html 文件已經(jīng)難不倒這些 AI 大模型了。
而想要把大項(xiàng)目給做好,那就需要讓模型具備這種處理復(fù)雜任務(wù)的能力。
另外還有個(gè)有趣的測試結(jié)果是,GLM-5 發(fā)生幻覺概率非常低。
當(dāng)一個(gè)問題它不知道的時(shí)候,GLM-5 會(huì)有很大的概率直接說不知道,而不是原地開始胡編亂造。
![]()
給孩子教的非常實(shí)誠了屬于是。
既能干活,又不容易產(chǎn)生幻覺。。。GLM-5 的這波更新,屬于完全沖著要讓 AI 好好干活去整的。
在官網(wǎng)上世超還看到一個(gè)非常驚艷的案例,他們直接讓 GLM-5 復(fù)刻了一個(gè)我的世界。
![]()
我下過來體驗(yàn)了一下,發(fā)現(xiàn)整個(gè)游戲只需要依賴瀏覽器就能運(yùn)行。
能跑能挖能疊方塊,操作手感非常流暢。

看別人拿 GLM-5 給整的這么猛,世超決定自己也簡單試一試。
先來點(diǎn)簡單點(diǎn)的活,拿前兩天特別火的洗車問題來考考它。
我想洗車,我家距離洗車店只有 50 米,請(qǐng)問你推薦我走路去還是開車去呢?
別看這個(gè)問題簡單,前幾天整懵了一堆大模型,不管是 DeepSeek 還是 OpenAI,還是其他的大模型。。。都全軍覆沒
![]()
這些大模型都覺得 50 米的距離太近了,誰開車啊,于是轉(zhuǎn)頭建議大家走路去洗車。。。
![]()
而 GLM-5 面對(duì)這個(gè)問題,則是直接看透了問題的本質(zhì) ——人不開車怎么洗車呢?然后完成了一波干凈利索的輸出。
![]()
當(dāng)然,這種簡單的邏輯題不翻車只能算合格,接下來,世超準(zhǔn)備給它上點(diǎn)難度,看看它寫代碼的水平。
不知道差友們前段時(shí)間有沒看過一個(gè)叫《技能五子棋》的喜劇。
劇里的演員們就在傳統(tǒng)五子棋的基礎(chǔ)上,加入了各種各樣花里胡哨的技能元素。
比如,“飛沙走石” 這個(gè)技能,就是把棋盤上對(duì)方的一枚棋子給拿起來丟掉。

再比如“靜如止水”這個(gè)技能,就是給對(duì)面玩家上定身術(shù),讓他不能繼續(xù)下棋。
所以世超決定用 AI 來快速復(fù)刻一下這個(gè)整活游戲。
咱們就敲這么一段話,接下來全部交個(gè) GLM 自由發(fā)揮。
![]()
結(jié)果不到三分鐘,它就給我搓完了。
![]()
打開一看,整的還挺有模有樣的。。。

不但我要求它安排的四個(gè)技能都整上去了,還給自動(dòng)生成了另外四個(gè)技能。
但是仔細(xì)一玩就露餡了。
點(diǎn)擊了飛沙走石(移除對(duì)面一個(gè)棋子)的技能,把對(duì)面的棋子給扔掉了之后,
按理來說要么是我繼續(xù)下棋,要么是對(duì)面下棋對(duì)吧。
這兩種情況還在我的理解范圍中,AI 給我寫成哪種邏輯我都能理解。
但是 GLM 在這個(gè) A or B 的選擇題中,選了 or。
它讓我選擇給對(duì)面的棋子下到哪里,明顯是神志不清邏輯錯(cuò)亂了。

不過好在它也很聽勸,把我們的需求再和它復(fù)述一下,那它很快就能 Get 到我們想要什么效果。
![]()
這樣一來,我們就得到了一個(gè)可以和 AI 原地對(duì)戰(zhàn)的技能五子棋游戲。

坦白說,現(xiàn)在 AI 寫代碼早就不是什么稀奇事了,能寫出這種量級(jí)的 Demo 只能說是 GLM-5 的基本操作,還比較在世超的意料之中。
但比較遺憾的是,因?yàn)檫@次上手的時(shí)間實(shí)在太短,世超沒法拿那些真正復(fù)雜的業(yè)務(wù)代碼去狠狠“拷打”一下它,看看它在那種成百上千個(gè)文件的大項(xiàng)目里,是不是還能保持這種清醒。
不過大家別急,今年世超手頭正好攢了一堆復(fù)雜的爛攤子需求,準(zhǔn)備年后面慢慢丟給它去跑一跑。
等后面深度體驗(yàn)了一段時(shí)間,真的摸清了它的上限和脾氣,再來和大伙做個(gè)更詳細(xì)的匯報(bào)。
撰文:早起
編輯:江江 & 面線
美編:素描
圖片、資料來源:智譜官網(wǎng)、X、網(wǎng)絡(luò)
![]()
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.