![]()
Agent 進入新階段。
作者|連冉
編輯|鄭玄
當一個 AI 系統(tǒng)可以在無人工干預的情況下,獨立完成一個復雜項目的完整交付,以及,當這些能力開始可以被復用、被沉淀為「技能」,AI 在職場中的角色,是否已經(jīng)發(fā)生了本質(zhì)變化?
OpenClaw 這波熱潮帶動了大模型競爭進入深水區(qū),賽道的分水嶺,從「誰更強」,轉(zhuǎn)向了「誰能真正交付生產(chǎn)力」。自主 Agent 的落地能力、工程化適配水平以及長時穩(wěn)定運行的可靠性,也正在成為新的核心評判標準。
但現(xiàn)實問題依然存在:即便頭部模型持續(xù)迭代,大多數(shù)產(chǎn)品仍停留在「分步驟生成單一內(nèi)容」的階段。面對復雜的企業(yè)與職場任務,要么無法完成全流程閉環(huán),需要人工反復拼接與修正;要么難以沉淀可復用經(jīng)驗,在規(guī)模化場景中始終無法落地,每一次執(zhí)行都要從零開始。這種「碎片化、一次性」的能力形態(tài),仍然難以支撐真實生產(chǎn)需求。
在這一背景下,月之暗面發(fā)布的開源基座模型 Kimi K2.6,給出了一種更具針對性的解法。
![]()
Kimi K2.6 是當前全球開源權(quán)重(Open Weights)大模型綜合能力 SOTA|圖片來源:X
作為 Kimi 迄今最強開源底座,K2.6 在代碼能力與 Agent 運行可靠性上實現(xiàn)躍遷,更關(guān)鍵的是,在產(chǎn)品層將兩項核心能力推向?qū)嵱秒A段:一是 Agent 集群單次運行即可完成多類型產(chǎn)物的端到端交付,二是將 Office 文檔轉(zhuǎn)化為可復用技能(document to skill),讓經(jīng)驗得以沉淀與調(diào)用。
同時,在 K2.5 已引入的 Agent 集群基礎上,K2.6 進一步強化了規(guī)模化執(zhí)行能力。新引入的 Claw Group 這一新形態(tài),推動 OpenClaw、Hermes Agent 框架的自主 Agent 從單體執(zhí)行走向「團隊協(xié)作」。
這意味著,AI 開始具備組織級的任務拆解與協(xié)同能力。某種程度上,這已經(jīng)不再是一次常規(guī)的模型升級——當 AI 能夠交付完整成果,并沉淀可復用能力,Agent 賽道的競爭邏輯,也隨之被重新改寫。
01
場景實測:
Kimi K2.6 的核心能力,到底強在哪?
拋開概念,回到企業(yè)辦公與開發(fā)的真實場景,Kimi K2.6 的核心能力表現(xiàn)如何?
我們嘗試聚焦兩個關(guān)鍵問題展開驗證:其一,AI 能否在無人工干預的情況下,完成復雜任務的全流程交付;其二,AI 能否將既有辦公經(jīng)驗與模板規(guī)則轉(zhuǎn)化為可復用能力,從而減少重復勞動。圍繞這兩個維度,我們設計了兩組高頻職場場景進行實測,以檢驗其實際落地價值。
場景一——Agent 集群驅(qū)動的規(guī)模化多產(chǎn)物交付的測試指令為:圍繞「2026 AI Agent 行業(yè)發(fā)展」,一次性生成深度分析報告、數(shù)據(jù)統(tǒng)計 Excel、商務匯報 PPT 以及可視化展示網(wǎng)站四類產(chǎn)物,要求全程無人工干預,且內(nèi)容同源、結(jié)構(gòu)規(guī)范。
視頻來源:極客公園
這次實測運行了將近一小時,K2.6 在這次「無人工干預」測試中,表現(xiàn)出一種接近工程系統(tǒng)的成熟度,其中有三個環(huán)節(jié)尤為關(guān)鍵。
首先是 Agent 集群的「組織化」協(xié)同,這是最核心的亮點。在回溯錄屏中,可以清晰看到系統(tǒng)如何將一個宏大的宏觀課題(2026 AI Agent 行業(yè)發(fā)展),自主拆解為 12 個維度的子任務,并同時拉起 12 個子 Agent(從市場規(guī)模、競爭格局到安全隱私等)進行并行的深度研究。隨后,又在撰寫階段拉起 6 個 Agent 認領(lǐng)不同章節(jié)。這種類似「主架構(gòu)師分配任務 + 基層研究員并行干活」的 Map-Reduce 邏輯,真正打破了單體模型長度和注意力的物理限制。
其次是內(nèi)置的「交叉驗證與沖突解決」機制,在 Phase 4 和 Phase 5 階段,系統(tǒng)并沒有直接將 12 個子 Agent 的檢索結(jié)果暴力拼接,而是執(zhí)行了明確的 12 維度文件交叉驗證(如校驗市場規(guī)模預估、CAGR 數(shù)據(jù)是否沖突)。這種引入「校驗層」的設計,是提升長文本和深度報告事實準確性(Factuality)的決定性一步,大幅降低了 AI 產(chǎn)出「幻覺」的概率。
最后是端到端的同源多產(chǎn)物交付,從一份底層 Markdown 研究資料,原生分發(fā)為 3.7MB 的深度 Word 報告、包含多種圖表類型的 Excel、16 頁以上的 PPT,甚至是帶有 React 動效的可視化 Web 站點。確保了「四類產(chǎn)物,同源同質(zhì)」,徹底免去了人類員工在不同軟件之間復制粘貼、重新排版的割裂感。
當工具開始展現(xiàn)出獨立承接完整工程項目的能力時,數(shù)字世界的生產(chǎn)關(guān)系確實在被重塑。
盡管系統(tǒng)演示了完美的閉環(huán),但這次測試同樣暴露出一個關(guān)鍵問題。
長時任務依然存在黑盒風險與「節(jié)點把控」缺失,運轉(zhuǎn)一小時意味著極高的「試錯成本」。如果 Agent 在前 15 分鐘的「方向理解」或「大綱設定」上出現(xiàn)了偏差,用戶只能在等待一小時后面對一堆南轅北轍的精美廢料。無需人工干預固然輕松,但真的不預留人工干預的環(huán)節(jié),可能也會有其他問題。
視頻來源:極客公園
在這個網(wǎng)站生成案例中,可以看到,從找客戶、做調(diào)研,到內(nèi)容生成、設計開發(fā),再到網(wǎng)站上線與結(jié)果匯總,全部由 AI 一次性完成。除了通過 Agent 集群實現(xiàn)類似「包工頭+分工團隊」的并行協(xié)作,大規(guī)模任務也能有序推進;同時還具備「千店千面」的定制能力,不同行業(yè)對應不同視覺風格,而非模板化復制;并且對復雜指令的執(zhí)行精度也很高,能夠嚴格遵守約束條件并完成一站式交付(包括網(wǎng)站與配套 Excel 方案)。
而且這套系統(tǒng)的審美,已經(jīng)可以達到一個比較成熟的「中級網(wǎng)頁設計師」水平。如果放在實際商業(yè)場景里——尤其是電商落地頁或品牌展示頁——整體表現(xiàn)是合格甚至偏上的,風格統(tǒng)一、表達清晰,也基本符合當前主流審美規(guī)范。
具體來看,它最突出的能力在于對「風格與場景匹配」的把握。不同類型的頁面,會自動切換對應的視覺語言,而不是簡單套用統(tǒng)一模板。
比如在偏街頭、復古的場景中,它會使用深色背景、高對比配色,以及更具沖擊力的字體和動態(tài)元素,整體呈現(xiàn)出較強的個性與氛圍感;而在花店這類偏柔和的場景中,畫面則明顯轉(zhuǎn)向留白、更克制的配色,以及更具裝飾性的字體,整體氣質(zhì)變得輕盈、安靜;再到婚紗或禮服類頁面,則進一步收斂為更低飽和度的色調(diào)和更纖細的排版風格,強化「精致感」和「品質(zhì)感」。這種針對行業(yè)語境的風格切換,說明它已經(jīng)具備一定的「審美判斷」。
為了進一步測試 k2.6 的審美,我用 k2.6 制作了一個平潭旅行網(wǎng)站。當 Kimi agent 任務執(zhí)行完畢時,我看到它給我的這個「藍眼淚」網(wǎng)站首頁,有點被驚艷到。
視頻來源:極客公園
可以看到,在這個版本里,K2.6 已經(jīng)從「全棧工程師」,進化為一個具備判斷力的「美術(shù)指導(Art Director)」。
無論是大地色系的質(zhì)感控制、非對稱網(wǎng)格下的留白處理,還是對動效「克制感」的把握,都體現(xiàn)出「設計直覺」。
在設計層,K2.6 對色彩的切換不僅是審美選擇,也是一種情緒表達策略:米色為基底,配合深色對比,既降低了視覺侵略性,又維持了足夠的信息張力,這種處理方式更接近成熟品牌設計中的「松弛感」構(gòu)建。
排版上,對非對稱布局的運用同樣關(guān)鍵。通過打破標準網(wǎng)格關(guān)系,讓圖文產(chǎn)生局部重疊與錯位,本質(zhì)上是在用代碼復現(xiàn)「人工排版」的空間控制能力。模型不僅理解了 CSS 的布局邏輯,也在一定程度上理解了「為什么要這樣排」。
在內(nèi)容層面,難點不在于生成圖片,而在于讓圖片「屬于這個頁面」。K2.6 對美食圖像的處理,已經(jīng)體現(xiàn)出明顯的上下文意識:低飽和、自然光、留白構(gòu)圖,這些特征服務于整體版面的統(tǒng)一表達,而不是隨機生成。也就是說,它開始把素材生成納入設計系統(tǒng)的一部分。
工程層面的進化同樣值得關(guān)注。面對修改需求,它能夠定位到具體組件并進行針對性調(diào)整,這背后其實是對項目結(jié)構(gòu)和依賴關(guān)系的理解。更重要的是它做出的選擇——主動簡化動效,從復雜的 WebGL 表現(xiàn)轉(zhuǎn)向更輕量的過渡方式。這種「做減法」的能力,往往比「能實現(xiàn)復雜效果」更接近真實的設計與開發(fā)決策。
能夠把抽象的審美描述,直接轉(zhuǎn)譯為可運行的前端結(jié)構(gòu)與交互體驗,K2.6 在網(wǎng)站設計上又前進了一大步。
之前我也用過其他 Agent 產(chǎn)品來生成網(wǎng)站,但出來的效果并不如人意,整體比較呆板、模板化,缺少真正「被設計過」的感覺。但這次 K2.6 生成的這個網(wǎng)站,不管是整體視覺風格還是交互節(jié)奏,都明顯更順滑、更有完成度,甚至在細節(jié)表達上也更接近一個「真實產(chǎn)品團隊打磨過的成品」。
此外,Kimi 還開始內(nèi)測 Claw 群聊,它本質(zhì)上是把每個人養(yǎng)好的、有專業(yè)技能的龍蝦 Agent 組成一個有分工、有管理、有協(xié)作流程的小團隊,由 Coordinator 負責拆任務、派活、驗收,讓復雜任務可以像真實團隊一樣推進。
視頻來源:極客公園
02
K2.6 擊穿了 Agent 的哪些原生痛點?
此前,行業(yè)內(nèi)并非沒有嘗試多產(chǎn)物交付或文檔技能化,但大多停留在能演示、落地難的階段。問題不在于方向,而在于底層能力與架構(gòu)無法支撐規(guī)模化應用。
K2.6 之所以能夠?qū)崿F(xiàn)突破,本質(zhì)上是針對 Agent 領(lǐng)域的幾個原生缺陷,給出了更系統(tǒng)性的解法。
首先是多產(chǎn)物交付。
![]()
多產(chǎn)物交付|圖片來源:Kimi官網(wǎng)
過去多產(chǎn)物交付難以成立,核心在于傳統(tǒng)架構(gòu)的「碎片化」。一方面,單 Agent 的承載能力有限,任務一旦變長或變復雜,就容易出現(xiàn)中斷或執(zhí)行失控,難以支撐多任務并行;另一方面,不同工具與不同內(nèi)容形態(tài)之間缺乏統(tǒng)一調(diào)度機制,跨格式生成往往彼此割裂,既影響效率,也難以保證內(nèi)容的一致性。
K2.6 的關(guān)鍵變化,在于基于 K2.5 引入的 Agent 集群能力,進一步實現(xiàn)了規(guī)模化與精細化調(diào)度。通過多 Agent 并行分工,模型可以同時推進信息檢索、深度分析、文檔處理與多格式內(nèi)容生成等環(huán)節(jié),再通過任務拆解與重組,將各類產(chǎn)物統(tǒng)一到同一邏輯框架下完成輸出。這種從「逐步生成」到「同步執(zhí)行」的轉(zhuǎn)變,本質(zhì)上解決了長時運行與跨任務協(xié)同的結(jié)構(gòu)性問題。
相比之下,document to skill 的難點更為隱蔽。
辦公文檔本質(zhì)上是非結(jié)構(gòu)化數(shù)據(jù),內(nèi)容與格式高度耦合,模型既難以準確提取其中的有效規(guī)則,也難以還原模板中隱含的版式與邏輯,這使得企業(yè)經(jīng)驗長期停留在「存儲」狀態(tài),而無法轉(zhuǎn)化為「可調(diào)用能力」。
K2.6 的突破,來自兩類能力的疊加:一方面,借助更強的代碼能力,對文檔結(jié)構(gòu)進行抽象與拆解,提取其內(nèi)在邏輯;另一方面,通過視覺理解能力識別版式與格式細節(jié),從而實現(xiàn)對模板的完整還原。在此基礎上,文檔不再只是參考材料,而可以被轉(zhuǎn)化為可復用的 Skill,參與后續(xù)任務執(zhí)行。
但對于結(jié)構(gòu)高度復雜或規(guī)則嵌套較深的定制化文檔,解析準確率仍有波動,通用性與穩(wěn)定性還有很多提升空間。
整體來看,K2.6 的關(guān)鍵突破,在于首次將「復雜任務執(zhí)行」「結(jié)果交付」與「經(jīng)驗沉淀」整合為一套相對完整的系統(tǒng)能力。這一變化,補齊了 Agent 從「可用」走向「好用」的關(guān)鍵環(huán)節(jié)。當然,這并不意味著問題已經(jīng)被徹底解決,但至少為 AI 進入真實生產(chǎn)場景,提供了一種更接近可行路徑的解法。
03
AI 從工具走向生產(chǎn)系統(tǒng)的關(guān)鍵一步?
Kimi K2.6 的發(fā)布,釋放出一個行業(yè)信號:大模型與 Agent 的發(fā)展,正在邁過一個關(guān)鍵門檻——從通用工具,走向具備生產(chǎn)能力的系統(tǒng)形態(tài)。
這一變化可以從三個層面來看。在模型層,K2.6 已不再局限于代碼片段生成或簡單推理,而是開始具備處理復雜工程任務的能力,代碼理解與邏輯推演能力顯著提升;在 Agent 層,能力邊界從「單次對話、短時執(zhí)行」擴展到「長時運行、持續(xù)任務處理」,穩(wěn)定性與可靠性明顯增強;而在產(chǎn)品層,最直觀的變化則是從「生成內(nèi)容」,走向「交付結(jié)果」,AI 開始具備完成完整工作閉環(huán)的能力。
![]()
圖片來源:AI 生成
這些底層能力的疊加,最終在產(chǎn)品側(cè)體現(xiàn)為兩類更具決定性的變化:一是以 Agent 集群為代表的復雜任務交付能力,通過多智能體的協(xié)同調(diào)度,實現(xiàn)從任務拆解到執(zhí)行再到結(jié)果輸出的全流程覆蓋;二是以 document to skill 為代表的經(jīng)驗復用能力,使原本分散在文檔中的規(guī)則與經(jīng)驗,可以被結(jié)構(gòu)化并持續(xù)調(diào)用。這兩者疊加,使 AI 開始從「輔助工具」,轉(zhuǎn)向能夠獨立完成任務的生產(chǎn)系統(tǒng)。
這些嘗試還很早期。
不管是企業(yè)級數(shù)據(jù)安全、多系統(tǒng)對接能力,還是在極端復雜任務中的穩(wěn)定性與容錯率,以及更低成本的規(guī)模化部署能力,要想讓成為 AI 真正意義上的產(chǎn)業(yè)級「操作系統(tǒng)」,這些都還有待進一步完善。
但趨勢已經(jīng)逐漸清晰:當 AI 從工具轉(zhuǎn)向生產(chǎn)系統(tǒng),數(shù)字世界的生產(chǎn)關(guān)系也會隨之發(fā)生改變。人類在工作中的角色,將從具體執(zhí)行逐步轉(zhuǎn)向目標設定與結(jié)果把控;而 AI 行業(yè)的競爭,也將從模型層的能力比拼,轉(zhuǎn)向系統(tǒng)能力與生態(tài)能力的綜合博弈。
從這個角度看,K2.6 所呈現(xiàn)的「任務執(zhí)行—結(jié)果交付—能力沉淀」的能力組合,更像是 AI 生產(chǎn)基礎設施的一個早期雛形。它還未成熟,但已經(jīng)提供了一種演進方向:AI 正在成為生產(chǎn)系統(tǒng)本身。
*頭圖來源:Kimi 官網(wǎng)
本文為極客公園原創(chuàng)文章,轉(zhuǎn)載請聯(lián)系極客君微信 geekparkGO
極客一問
你如何看待Kimi K2.6?
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.