<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

      正面硬剛Claude Opus 4.6:我們給GLM-5.1使了三個(gè)“絆子”,它居然…

      0
      分享至


      智東西
      作者 陳駿達(dá)
      編輯 漠影

      智東西4月8日?qǐng)?bào)道,今天,智譜正式開源其最強(qiáng)模型GLM-5.1,這一模型在專業(yè)軟件開發(fā)基準(zhǔn)測(cè)試SWE-Bench Pro中,GLM-5.1刷新全球最佳成績(jī),得分達(dá)到58.4,超過(guò)了GPT-5.4、Claude Opus 4.6等已經(jīng)正式發(fā)布的閉源模型,和MiniMax M2.7、Kimi K2.5等開源模型。


      GLM-5.1并非只能跑跑簡(jiǎn)單的Vibe Coding小案例,它專門面向長(zhǎng)程任務(wù)設(shè)計(jì),能持續(xù)地自主規(guī)劃、執(zhí)行并迭代,最終交付完整的工程結(jié)果。

      兩個(gè)官方演示,直接把“長(zhǎng)程任務(wù)”的能力具象化了:

      在向量數(shù)據(jù)庫(kù)的調(diào)優(yōu)任務(wù)中,GLM-5.1沒有人類手把手教,自己跑了655輪迭代——測(cè)試、分析、改代碼、再測(cè)試……最終把性能硬生生提升至3.6倍。

      它還靠著一張架構(gòu)草圖,連續(xù)自主工作了超過(guò)8小時(shí),執(zhí)行了1200多個(gè)步驟,最終輸出了一套功能完備的Linux桌面系統(tǒng)。官方測(cè)算,這相當(dāng)于一個(gè)4人小團(tuán)隊(duì)連軸轉(zhuǎn)一周的工作量。

      這個(gè)“8小時(shí)不間斷工作”的紀(jì)錄,讓它成為了全球首個(gè)在真實(shí)工程任務(wù)中驗(yàn)證這一能力的開源模型。

      這意味著,那些過(guò)去只屬于人類團(tuán)隊(duì)的復(fù)雜、長(zhǎng)周期工程級(jí)任務(wù),現(xiàn)在對(duì)逐漸AI也敞開了大門。

      一、海外網(wǎng)友火速體驗(yàn):體感接近Opus 4.6,成本暴砍至1/30

      GLM-5.1一經(jīng)發(fā)布,就吸引了海量關(guān)注,其推文的閱讀量在12小時(shí)內(nèi)就沖破了200萬(wàn)次,目前已經(jīng)飆到227萬(wàn)次了。


      不少體驗(yàn)過(guò)GLM-5.1的網(wǎng)友紛紛發(fā)帖評(píng)價(jià),在這些帖子中,有一個(gè)關(guān)鍵信息被反復(fù)提及:GLM-5.1的使用體感,已經(jīng)接近Claude Opus 4.6。

      AI開發(fā)者toli拿GLM-5.1和Opus 4.6跑了113個(gè)編程任務(wù),發(fā)現(xiàn)GLM-5.1的體感就和Opus一樣。同時(shí),智譜的Coding Plan提供了Claude Code訂閱三倍的用量,價(jià)格只有后者的1/3。Toli認(rèn)為,GLM-5.1是絕對(duì)的殺手級(jí)產(chǎn)品。


      另一位開發(fā)者Beau Johnson分享,他已經(jīng)將自己部署的OpenClaw背后的模型,從Opus 4.6替換為GLM-5.1,作為協(xié)調(diào)和執(zhí)行Agent。這一切換沒有帶來(lái)任何體驗(yàn)上的差別,而成本卻從1000美元暴砍至30美元左右。


      軟件定制公司Zenoware的創(chuàng)始人JP分享了他用GLM-5.1 one-shot做出來(lái)的10個(gè)案例,JP認(rèn)為這是最接近Claude Opus 4.6的中國(guó)模型,給Opus 4.6帶來(lái)了嚴(yán)重威脅。以下是JP部分案例的集錦:


      口碑之外,GLM-5.1在多項(xiàng)基準(zhǔn)測(cè)試中的表現(xiàn),同樣值得仔細(xì)拆解。

      在編程能力這一維度,有三個(gè)基準(zhǔn)測(cè)試的成績(jī)較有參考性,包括衡量模型專業(yè)軟件開發(fā)工作的SWE-Bench Pro、操作命令行解決問(wèn)題的Terminal-Bench 2.0、從零構(gòu)建完整代碼倉(cāng)庫(kù)的NL2Repo。在這三個(gè)基準(zhǔn)測(cè)試中,GLM-5.1的得分已經(jīng)拍到全球第三、國(guó)產(chǎn)第一、開源第一。


      而在考察模型設(shè)計(jì)能力的Design Arena上,GLM 5.1排名第四,同時(shí)多款GLM模型也包攬了這一榜單上的前四名,這個(gè)表現(xiàn),基本可以和Opus 4.6還有Sonnet 4.6一塊兒坐主桌了。


      而在文本能力維度,Text Arena上GLM-5.1被評(píng)為排名第一的開源模型。


      二、真刀真槍一手實(shí)測(cè):連續(xù)接受十幾條需求變更,還扛住了拔網(wǎng)線和復(fù)雜遺留代碼

      榜單好看,用戶也叫好,但真正的考驗(yàn)還是在實(shí)際使用里。這次,智譜格外強(qiáng)調(diào)“長(zhǎng)程任務(wù)(Long-Horizon Tasks)”,確實(shí)精準(zhǔn)判斷了當(dāng)前大模型在工業(yè)界落地的痛點(diǎn)。

      在真實(shí)的軟件工程或復(fù)雜業(yè)務(wù)場(chǎng)景中,幾乎沒有任何有價(jià)值的問(wèn)題是可以通過(guò)“一問(wèn)一答”或“單次生成”解決的。只有真正具備了自主試錯(cuò)和策略演進(jìn)的能力,模型才能像中高級(jí)工程師一樣去“啃”硬骨頭,而不是只寫個(gè)初版就罷工。

      這已經(jīng)幾乎成為了行業(yè)共識(shí)。無(wú)論是GLM-5.1、Claude Opus 4.6還是GPT-5.4,各家都在將長(zhǎng)程能力作為核心賣點(diǎn)。

      原因是,對(duì)于真正要拿AI干活、提效的企業(yè)而言,分?jǐn)?shù)、正確率、排行榜都只是參考,他們關(guān)心的是模型能否在拿到一個(gè)任務(wù)后無(wú)需人工干預(yù),自動(dòng)診斷并修復(fù)問(wèn)題,能否用8小時(shí)替代一個(gè)初級(jí)工程師一周的重復(fù)勞動(dòng),這些,才是可見的真實(shí)生產(chǎn)力。

      那么,GLM-5.1到底能不能打?它真的能成為Opus 4.6的國(guó)產(chǎn)平替嗎?我們拿GLM-5.1和Opus 4.6跑了兩個(gè)完整工程任務(wù),燒掉幾百萬(wàn)token,看看它們的真實(shí)表現(xiàn)到底如何。

      1、從零搭建待辦看板,前后端+數(shù)據(jù)庫(kù)全閉環(huán)

      Prompt: 在一個(gè)空目錄下,從零搭建一個(gè)完整的“待辦事項(xiàng)看板”前端+后端,使用FastAPI+React,連接PostgresSQL數(shù)據(jù)庫(kù),實(shí)現(xiàn)增刪改查。

      拿到這一任務(wù)后,GLM-5.1和Opus 4.6都進(jìn)行了初步的項(xiàng)目規(guī)劃,拆解提示詞中的要求,然后再開始開發(fā)。值得一提的是,我們用于測(cè)試的電腦環(huán)境相對(duì)老舊,還缺失部分依賴。率先進(jìn)行開發(fā)的GLM-5.1馬上定位了這些問(wèn)題,直接“動(dòng)手”幫我們裝好了。


      其實(shí),GLM-5.1和Opus 4.6一開始給出的結(jié)果都有點(diǎn)簡(jiǎn)陋。于是我們向兩個(gè)模型發(fā)送了十幾條修改意見,包括要打造完整的導(dǎo)航菜單、配備全局搜索框+通知系統(tǒng)+用戶頭像、三級(jí)分組菜單等等。

      GLM-5.1并沒有被這一連串的“干擾”打斷自己的開發(fā)節(jié)奏,在多輪需求變更后仍然可以成功交付。最終它打造的任務(wù)看板功能完整度較高,交互體驗(yàn)流暢,前后端數(shù)據(jù)也是聯(lián)動(dòng)的——新增的項(xiàng)目的確能在數(shù)據(jù)庫(kù)中找到。


      此外,網(wǎng)頁(yè)的UI細(xì)節(jié)也很到位,字體大小層級(jí)分明,光標(biāo)懸停在卡片上時(shí)有微動(dòng)效,還通過(guò)顏色區(qū)分了任務(wù)的優(yōu)先級(jí)。

      再來(lái)看看Opus 4.6的表現(xiàn)。在基礎(chǔ)功能上,Opus 4.6同樣實(shí)現(xiàn)了基于數(shù)據(jù)庫(kù)的增刪改查核心功能,不過(guò)網(wǎng)頁(yè)的色彩選擇和UI設(shè)計(jì)有些單調(diào)。


      這一表現(xiàn)源于智譜在訓(xùn)練策略上的創(chuàng)新:通過(guò)顯著擴(kuò)展任務(wù)過(guò)程的訓(xùn)練窗口,采用多輪監(jiān)督微調(diào)(multi-turn SFT)與強(qiáng)化學(xué)習(xí)(RL)結(jié)合的訓(xùn)練范式,GLM-5.1得以在完整的任務(wù)流程中學(xué)習(xí),從“接受任務(wù)→規(guī)劃→執(zhí)行→調(diào)整→交付”的全過(guò)程都被納入學(xué)習(xí)信號(hào)。因此,它不會(huì)因新指令的影響,丟掉原本的目標(biāo)與方向。

      2、網(wǎng)絡(luò)中斷+遺留代碼+中文亂碼:GLM-5.1如何自救?

      Prompt: 搭建一個(gè)簡(jiǎn)易的電商后臺(tái),需要實(shí)現(xiàn)商品管理、訂單流程和支付對(duì)接。

      當(dāng)AI模型進(jìn)入企業(yè),面臨的往往是更多復(fù)雜的不確定性,比如模糊的目標(biāo),混亂的項(xiàng)目結(jié)構(gòu)等等。在這些因素的干擾下,GLM-5.1還能穩(wěn)定交付嗎?

      GLM-5.1的新任務(wù),是搭建一個(gè)簡(jiǎn)易的電商后臺(tái),發(fā)送指令后,我們刻意使了點(diǎn)壞,在GLM-5.1快寫完項(xiàng)目的時(shí)候把網(wǎng)給掐了,并關(guān)閉了現(xiàn)有的上下文窗口。重啟Claude Code之后,再讓它根據(jù)之前的項(xiàng)目文件繼續(xù)開發(fā)。

      GLM-5.1沒有被這一小插曲影響。在告訴它原項(xiàng)目的地址后,GLM-5.1花了3分鐘梳理了這個(gè)項(xiàng)目的后端部分,然后開始補(bǔ)齊前端缺失的代碼。


      理解遺留代碼是開發(fā)的前提,理解程度直接影響著后續(xù)的開發(fā)質(zhì)量。在GLM-5.1輸出的前端設(shè)計(jì)框架中,可以看到它對(duì)原本的后端代碼分析十分到位,不僅準(zhǔn)確識(shí)別了Express 5+SQLite的技術(shù)棧,還敏銳地發(fā)現(xiàn)了后端缺少全局支付列表接口這一設(shè)計(jì)缺陷,并據(jù)此提出了“訂單列表+展開行加載支付記錄”的解決方案。


      這得益于GLM-5.1更好的狀態(tài)延續(xù)與上下文整合。面對(duì)長(zhǎng)時(shí)間跨度和大量上下文信息,GLM-5.1能穩(wěn)定地追蹤已完成的內(nèi)容、當(dāng)前所處階段和下一步關(guān)鍵動(dòng)作,持續(xù)整合新信息,保持執(zhí)行鏈路的一致性。

      在即將完成開發(fā)時(shí),GLM-5.1在我們沒有要求的情況下,主動(dòng)檢查了后端的API路徑,并發(fā)現(xiàn)并逐一修復(fù)了5個(gè)問(wèn)題。這種“實(shí)驗(yàn)→分析→優(yōu)化”的閉環(huán),正是GLM-5.1能在長(zhǎng)任務(wù)中始終保持方向不偏、質(zhì)量統(tǒng)一、無(wú)需人工頻繁糾偏的重要原因。


      最終,GLM-5.1交付了這一電商后臺(tái)項(xiàng)目,核心功能運(yùn)轉(zhuǎn)正常,還將后臺(tái)數(shù)據(jù)進(jìn)行了可視化。不過(guò),我們刻意人為動(dòng)手修改了中文字符的編碼,讓這一電商后臺(tái)的中文字符顯示為小方塊。


      為排查這一問(wèn)題,GLM-5.1進(jìn)行了29次工具調(diào)用,主要都是閱讀文件,多工具協(xié)同效果穩(wěn)定。最后,它發(fā)現(xiàn)數(shù)據(jù)庫(kù)中多處中文字段都是亂碼(GBK編碼被錯(cuò)誤當(dāng)UTF-8存入),于是很快進(jìn)行了修復(fù)。可以說(shuō),GLM-5.1在多輪工具調(diào)用和長(zhǎng)上下文場(chǎng)景中,表現(xiàn)出工程師般的自主診斷和修復(fù)能力。


      經(jīng)歷這兩個(gè)小插曲,GLM-5.1用大概45分鐘的時(shí)間完成了整個(gè)項(xiàng)目的開發(fā),修復(fù)后的結(jié)果如下。


      它交付了整整兩個(gè)文件夾的成果,算上代碼、組件庫(kù)等等,有數(shù)百個(gè)文件,大小也來(lái)到了40多兆。


      拿到同樣任務(wù)的Opus 4.6,交付的結(jié)果如下:


      從結(jié)果上來(lái)看,即便是我們?nèi)藶榻oGLM-5.1上強(qiáng)度,它交付的結(jié)果也和Opus 4.6的結(jié)果保持在相似的水平線上。在保持原有功能、優(yōu)化代碼結(jié)構(gòu)等多重任務(wù)中,GLM-5.1仍然完成了高質(zhì)量的方案設(shè)計(jì)與執(zhí)行,充分驗(yàn)證了其在復(fù)雜開發(fā)和維護(hù)任務(wù)中的工程化能力。

      結(jié)語(yǔ):開源模型長(zhǎng)程任務(wù)能力突破:從“回答問(wèn)題”到“交付項(xiàng)目”

      頂尖開源模型,正極大地拉近與閉源模型的差距。長(zhǎng)程任務(wù)是Claude引以為傲的能力之一,模型不僅要會(huì)寫代碼,還要像人一樣在數(shù)小時(shí)內(nèi)保持目標(biāo)感、處理意外、自我糾偏、并堅(jiān)持到最后一刻。

      過(guò)去,這一直是閉源模型的護(hù)城河,也是開源模型難以逾越的分水嶺。

      智譜稱,GLM-5.1是全球第一個(gè)在真實(shí)工程任務(wù)中驗(yàn)證了8小時(shí)持續(xù)工作能力的開源模型。同時(shí),我們的實(shí)測(cè)也顯示,GLM-5.1不是靠“更長(zhǎng)的上下文窗口”去死記硬背,而是真正學(xué)會(huì)了“規(guī)劃→執(zhí)行→檢查→修復(fù)→交付”的完整工作流。

      大模型正在從“回答問(wèn)題”走向“交付項(xiàng)目”。在這一方向上,GLM-5.1已具備了在真實(shí)、混亂、長(zhǎng)周期的工程環(huán)境中,獨(dú)立承擔(dān)任務(wù)的底氣。


      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      單場(chǎng)狂賣10億!薇婭之后,直播圈終于迎來(lái)新一姐?

      單場(chǎng)狂賣10億!薇婭之后,直播圈終于迎來(lái)新一姐?

      雷科技
      2026-04-14 11:36:15
      中國(guó)向伊朗提供緊急人道主義援助

      中國(guó)向伊朗提供緊急人道主義援助

      新華社
      2026-04-16 23:43:04
      中國(guó)11人進(jìn)世錦賽,張安達(dá)請(qǐng)客,5人小團(tuán)體聚餐,跟趙心童開玩笑

      中國(guó)11人進(jìn)世錦賽,張安達(dá)請(qǐng)客,5人小團(tuán)體聚餐,跟趙心童開玩笑

      球場(chǎng)沒跑道
      2026-04-16 13:43:29
      西雙版納潑水節(jié)一汽車車門及后備箱被人拉開,多人向車內(nèi)噴水,車主稱父母全身淋濕、內(nèi)飾冒煙,汽車如檢查出問(wèn)題會(huì)報(bào)警

      西雙版納潑水節(jié)一汽車車門及后備箱被人拉開,多人向車內(nèi)噴水,車主稱父母全身淋濕、內(nèi)飾冒煙,汽車如檢查出問(wèn)題會(huì)報(bào)警

      大象新聞
      2026-04-16 08:45:11
      解禁復(fù)出!你好,李楠!已經(jīng)等了整整3年

      解禁復(fù)出!你好,李楠!已經(jīng)等了整整3年

      籃球?qū)崙?zhàn)寶典
      2026-04-16 23:14:02
      渴望回國(guó)的加拿大華裔,陷入“回來(lái)不甘心,不回受不了”的糾結(jié)中

      渴望回國(guó)的加拿大華裔,陷入“回來(lái)不甘心,不回受不了”的糾結(jié)中

      阿訊說(shuō)天下
      2026-04-14 12:43:26
      紀(jì)委談話不用慌!內(nèi)行都懂:三句關(guān)鍵話講清楚,既合規(guī)又穩(wěn)妥

      紀(jì)委談話不用慌!內(nèi)行都懂:三句關(guān)鍵話講清楚,既合規(guī)又穩(wěn)妥

      觀星賞月
      2026-04-17 00:07:00
      反差大!吳千語(yǔ)在上海街頭全素顏吃面,生圖下鼻子癟、地包天搶鏡

      反差大!吳千語(yǔ)在上海街頭全素顏吃面,生圖下鼻子癟、地包天搶鏡

      一盅情懷
      2026-04-16 11:38:43
      浪姐7:姐姐cos經(jīng)典角色,李小冉的安琪太美,陳瑤的岳綺羅太驚艷

      浪姐7:姐姐cos經(jīng)典角色,李小冉的安琪太美,陳瑤的岳綺羅太驚艷

      星宿影視鴨
      2026-04-16 18:07:30
      “芯片又不是濃縮鈾,賣給中國(guó)怎么了?”

      “芯片又不是濃縮鈾,賣給中國(guó)怎么了?”

      觀察者網(wǎng)
      2026-04-16 12:07:05
      前中超球員自爆試訓(xùn)蘇超遭不公正對(duì)待 被教練侮辱

      前中超球員自爆試訓(xùn)蘇超遭不公正對(duì)待 被教練侮辱

      體壇周報(bào)
      2026-04-16 14:51:14
      中國(guó)足球小將鄺兆鐳讀秒進(jìn)球絕平巴薩,收到了轉(zhuǎn)會(huì)通知引發(fā)熱議

      中國(guó)足球小將鄺兆鐳讀秒進(jìn)球絕平巴薩,收到了轉(zhuǎn)會(huì)通知引發(fā)熱議

      煙潯渺渺
      2026-04-16 18:02:47
      許家印多出的兩個(gè)私生子!跟誰(shuí)生的?再扒恒大歌舞團(tuán)

      許家印多出的兩個(gè)私生子!跟誰(shuí)生的?再扒恒大歌舞團(tuán)

      大江看潮
      2026-04-16 22:20:58
      開拓者約談楊瀚森,引發(fā)震動(dòng)!老板勃然大怒,全員整頓!

      開拓者約談楊瀚森,引發(fā)震動(dòng)!老板勃然大怒,全員整頓!

      劉哥談體育
      2026-04-16 11:30:39
      蘋果首次成為全球手機(jī)市場(chǎng)第一!份額21%,三星20%,這回是真的了

      蘋果首次成為全球手機(jī)市場(chǎng)第一!份額21%,三星20%,這回是真的了

      數(shù)碼Antenna
      2026-04-16 11:52:53
      謝婷婷帶混血兒子返港,機(jī)艙內(nèi)曬出兒子正面照,眉眼神態(tài)酷似生父

      謝婷婷帶混血兒子返港,機(jī)艙內(nèi)曬出兒子正面照,眉眼神態(tài)酷似生父

      TVB的四小花
      2026-04-16 17:58:56
      特朗普14日訪華,普京隨后到,遺憾拒在華會(huì)晤

      特朗普14日訪華,普京隨后到,遺憾拒在華會(huì)晤

      無(wú)情有思可
      2026-04-16 13:40:56
      美軍封鎖霍爾木茲海峽!中國(guó)油船被迫掉頭折返

      美軍封鎖霍爾木茲海峽!中國(guó)油船被迫掉頭折返

      國(guó)際船舶網(wǎng)
      2026-04-16 13:43:25
      伊能靜發(fā)長(zhǎng)文控訴!十年無(wú)共同生活,抑郁是因秦昊缺席?

      伊能靜發(fā)長(zhǎng)文控訴!十年無(wú)共同生活,抑郁是因秦昊缺席?

      小椰的奶奶
      2026-04-17 02:47:42
      外電披露:伊朗向美提霍爾木茲海峽開放新方案

      外電披露:伊朗向美提霍爾木茲海峽開放新方案

      參考消息
      2026-04-16 14:30:41
      2026-04-17 07:23:00
      智東西 incentive-icons
      智東西
      智東西,AI產(chǎn)業(yè)新媒體,專注報(bào)道人工智能的前沿技術(shù)發(fā)展,和技術(shù)應(yīng)用帶來(lái)的千行百業(yè)產(chǎn)業(yè)變革。
      11612文章數(shù) 117031關(guān)注度
      往期回顧 全部

      科技要聞

      趙明:智駕之戰(zhàn),看誰(shuí)在大模型上更高效

      頭條要聞

      特朗普:伊朗已同意幾乎所有要求

      頭條要聞

      特朗普:伊朗已同意幾乎所有要求

      體育要聞

      皇馬拜仁踢出名局,但最搶鏡的還是他

      娛樂要聞

      絲芭傳媒創(chuàng)始人王子杰去世,享年63歲

      財(cái)經(jīng)要聞

      海爾與醫(yī)美女王互撕 換血抗衰誰(shuí)的生意?

      汽車要聞

      空間大五個(gè)乘客都滿意?體驗(yàn)嵐圖泰山X8

      態(tài)度原創(chuàng)

      本地
      數(shù)碼
      教育
      公開課
      軍事航空

      本地新聞

      12噸巧克力有難,全網(wǎng)化身超級(jí)偵探添亂

      數(shù)碼要聞

      榮耀史上最短發(fā)布會(huì),發(fā)布榮耀史上最強(qiáng)MagicBook數(shù)字系列

      教育要聞

      牛劍之外,近十年從未降低過(guò)門檻的三所英國(guó)大學(xué)!

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      封鎖霍爾木茲海峽后 美釋放雙重信號(hào)

      無(wú)障礙瀏覽 進(jìn)入關(guān)懷版