網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

字節(jié)前技術(shù)負(fù)責(zé)人創(chuàng)業(yè)，聯(lián)手清華姚班校友，編程智能體世界登頂

2025-12-05 14:20:23　來(lái)源: 機(jī)器之心Pro

河北舉報(bào)

分享至

機(jī)器之心報(bào)道

機(jī)器之心編輯部

InfCode 正在定義 AI 編程的「工程時(shí)代」。

自「造詞大神」Andrej Karpathy 提出「Vibe Coding」這個(gè)概念后，它的熱度就居高不下。

只需一句提示詞描述「感覺(jué)」和意圖，AI 就能直接生成可運(yùn)行的代碼，這種近乎魔法的編程體驗(yàn)讓一眾開(kāi)發(fā)者嘆為觀止。

輸入提示詞：write a python code that visualizes how a traffic light works in a one way street with cars entering at random rate（編寫(xiě)一個(gè) Python 代碼，可視化單行道中交通信號(hào)燈的工作情況，車(chē)輛以隨機(jī)速率駛?cè)耄珹I 就能在幾秒鐘內(nèi)生成一個(gè)完整的動(dòng)畫(huà)模擬程序，包括交通燈的紅黃綠切換邏輯、車(chē)輛的隨機(jī)生成機(jī)制、停車(chē)和通行的判斷規(guī)則，甚至還配上了流暢的可視化界面。

但驚喜過(guò)后，問(wèn)題也隨之而來(lái)。Vibe Coding 雖然擅長(zhǎng)快速原型開(kāi)發(fā)和單腳本編寫(xiě)，但在面對(duì)企業(yè)級(jí)復(fù)雜工程時(shí)仍顯得力不從心。受限于上下文窗口、推理深度以及 Agentic 模式缺失，它往往難以精準(zhǔn)定位大型代碼庫(kù)中深埋的 Bug，也極易在處理跨文件系統(tǒng)級(jí)修改時(shí)引發(fā)連鎖錯(cuò)誤，特別是在 C++ 等類(lèi)型語(yǔ)言常用的底層框架編程場(chǎng)景中。

現(xiàn)在，來(lái)自中國(guó)的初創(chuàng)團(tuán)隊(duì)詞元無(wú)限給出了自己的答案。由清華姚班校友帶隊(duì)設(shè)計(jì)開(kāi)發(fā)的編碼智能體 InfCode，在 SWE-Bench Verified 和 Multi-SWE-bench-CPP 兩項(xiàng)非常權(quán)威的 AI Coding 基準(zhǔn)中雙雙登頂，力壓一眾編程智能體。

具體來(lái)說(shuō)，InfCode 展現(xiàn)的不僅是單點(diǎn)技術(shù)突破。在 SWE-Bench Verified 上，它以 79.4% 的 Pass@1 得分拿下 SOTA，在 MultiSWEbench 的 C++ 子集上，更是以 25.58% 的解決率大幅領(lǐng)先 Claude 3.7 Sonnet 的 8.59% 和 DeepSeek V3 的 7.75%。

這些數(shù)字背后，是一套面向企業(yè)場(chǎng)景設(shè)計(jì)的多智能體體系。對(duì)于希望在企業(yè)場(chǎng)景引入 AI Coding 的決策者而言，這也許是 AI 從「單體提效」走向企業(yè)「組織進(jìn)化」的新范式。

如果說(shuō) Vibe Coding 開(kāi)啟了 AI 編程的「感性時(shí)代」，那么 InfCode 正在定義 AI 編程的「工程時(shí)代」。

AI 編程進(jìn)入智能體時(shí)代

人工智能正在改變軟件開(kāi)發(fā)范式。

傳統(tǒng)的大模型只能生成代碼片段，而新一代編碼智能體（Coding Agent）強(qiáng)調(diào)自主性、全流程覆蓋和工程實(shí)用性。它們不僅會(huì)寫(xiě)代碼，還能分解任務(wù)、調(diào)用工具、運(yùn)行測(cè)試、反復(fù)調(diào)試，甚至提交補(bǔ)丁。這些智能體在多個(gè)基準(zhǔn)上接受評(píng)測(cè)，其中最具權(quán)威的是由普林斯頓大學(xué)等提出的 SWE?Bench 基準(zhǔn)，以及 OpenAI 于 2024 年發(fā)布的升級(jí)版 SWE?Bench Verified。該基準(zhǔn)來(lái)自真實(shí) GitHub 項(xiàng)目，每個(gè)樣本附帶自然語(yǔ)言問(wèn)題描述和完整的測(cè)試用例，要求智能體既要解決問(wèn)題，又不能破壞其他功能。

SWE?Bench Verified 僅包含 Python 項(xiàng)目，無(wú)法反映多語(yǔ)言生態(tài)的挑戰(zhàn)。2025 年，字節(jié)跳動(dòng)聯(lián)合科研機(jī)構(gòu)推出了Multi?SWE?bench 數(shù)據(jù)集，覆蓋 Java、TypeScript、JavaScript、Go、Rust、C 與 C++ 等七種語(yǔ)言，共計(jì) 1632 個(gè)經(jīng)過(guò)人工驗(yàn)證的修復(fù)任務(wù)，由 68 名專(zhuān)家從 2456 個(gè)候選樣本中精挑細(xì)選。

研究表明，C++ 項(xiàng)目通常需要一次修改 200 多行、涉及 7 個(gè)文件，這遠(yuǎn)難于 JavaScript 等高層語(yǔ)言；系統(tǒng)語(yǔ)言由于手動(dòng)內(nèi)存管理與復(fù)雜的編譯體系使得 LLM 表現(xiàn)顯著降低。對(duì)比官方報(bào)告，領(lǐng)先模型在 C++ 上的解決率往往不足 8%。

詞元無(wú)限的突破：InfCode 智能體

詞元無(wú)限團(tuán)隊(duì)開(kāi)發(fā)的 InfCode 智能體系統(tǒng)，在這一賽道上取得了突破性成績(jī)：

在 SWE?Bench Verified 上，InfCode 以 Pass@1 79.4% 的得分刷新 SOTA（世界最佳）—— 遠(yuǎn)高于公開(kāi)排行榜上 GPT?5、Claude 等頂尖模型 70% 左右的成績(jī)。
在 Multi?SWE?bench 的 C++ 子集（Multi?SWE?bench?cpp）上達(dá)到 25.58% 的解決率，大幅領(lǐng)先于 Claude 3.7 Sonnet 的約 8.59%、DeepSeek V3 的 7.75% 以及 Qwen2.5?72B?Instruct 幾乎為零的解決率。考慮到系統(tǒng)語(yǔ)言的巨大難度，這一成績(jī)堪稱(chēng)驚艷。

多語(yǔ)言基準(zhǔn)顯示，系統(tǒng)語(yǔ)言（C、C++、Rust）在內(nèi)存管理、模板機(jī)制和復(fù)雜編譯鏈方面的難度遠(yuǎn)高于 Python、Java 等高級(jí)語(yǔ)言。Multi?SWE?bench 中，C++ 問(wèn)題往往涉及跨文件、大規(guī)模修改，部分任務(wù)需要改動(dòng) 200 多行代碼。下表總結(jié)了 Multi?SWE?bench 各模型在 C++ 上的解決率：

在這樣的背景下，InfCode 在 C++ 子集上取得 25.58% 的 Pass@1 解決率，體現(xiàn)了語(yǔ)義定位與語(yǔ)法分析相結(jié)合的優(yōu)勢(shì)。它不僅能準(zhǔn)確定位問(wèn)題，更能在復(fù)雜語(yǔ)法和大型項(xiàng)目中生成正確補(bǔ)丁，這對(duì)工業(yè)界具有重要價(jià)值。

這些成績(jī)并不是偶然，而是來(lái)自一套精心設(shè)計(jì)的技術(shù)體系，詞元團(tuán)隊(duì)將相關(guān)技術(shù)報(bào)告發(fā)表在 arXiv 平臺(tái)上（https://arxiv.org/abs/2511.16004）。

根據(jù)該分析報(bào)告，InfCode 包含三大核心亮點(diǎn)。

超越 RAG：基于功能意圖的復(fù)雜上下文定位

在真實(shí)的軟件倉(cāng)庫(kù)中，真正困難的往往不是「寫(xiě)出補(bǔ)丁」，而是「先在海量代碼中找到有問(wèn)題的代碼塊」。SWE-Bench 的任務(wù)通常不提供堆棧追蹤（StackTrace），智能體只能依靠自然語(yǔ)言描述（如搜索功能變慢）去推測(cè)問(wèn)題發(fā)生的位置。傳統(tǒng)基于向量相似度的 RAG（Retrieval-Augmented Generation）機(jī)制，往往只會(huì)檢索到包含「search」關(guān)鍵詞的注釋或變量，這套機(jī)制在中小規(guī)模倉(cāng)庫(kù)上或許能夠定位到問(wèn)題位置，但在大型工程中容易停留在「字面相關(guān)」的片段附近 —— 例如命中帶有 search 字樣的工具函數(shù)、配置或包裝層，而不是實(shí)際承載查詢(xún)邏輯的實(shí)現(xiàn)位置（如 Manager::ExecuteQuery），本質(zhì)原因在于它主要感知的是局部向量相似度，而沒(méi)有顯式理解「代碼承載的具體功能語(yǔ)義」及其「在系統(tǒng)中的邏輯歸屬」這類(lèi)功能意圖。

為突破這一瓶頸，InfCode 提出了「代碼意圖分析（Code Intent Analysis）」機(jī)制。

該機(jī)制讓智能體能夠超越字面匹配，理解自然語(yǔ)言背后的「功能意圖」，并將其智能映射到項(xiàng)目中的具體實(shí)現(xiàn)單元（函數(shù)或類(lèi)）。這一過(guò)程融合了語(yǔ)義推理與架構(gòu)理解，使模型能在無(wú)堆棧信息的條件下仍然精準(zhǔn)地鎖定問(wèn)題上下文。

研究表明，在多語(yǔ)言基準(zhǔn)（如 Multi-SWE-bench）中，傳統(tǒng) LLM 往往無(wú)法正確識(shí)別文件或函數(shù)位置（尤其在 C++、Rust 等系統(tǒng)級(jí)語(yǔ)言中）。InfCode 的語(yǔ)義意圖映射結(jié)合 AST 層級(jí)分析，有效提升了跨語(yǔ)言、跨模塊的定位成功率，讓智能體在復(fù)雜工程中具備了「理解全局意圖、直達(dá)根因代碼」的能力。

增強(qiáng)工具：超越 Grep 的基于 AST 的結(jié)構(gòu)化檢索

找到問(wèn)題的代碼只是第一步，如何精準(zhǔn)定位并修改它才是工程修復(fù)的關(guān)鍵。

傳統(tǒng)的文本搜索工具（如 grep）在 C++ 等復(fù)雜語(yǔ)言中存在天然缺陷 —— 同一標(biāo)識(shí)符可能同時(shí)是類(lèi)名、成員函數(shù)或變量，導(dǎo)致結(jié)果噪聲極高。

字節(jié)跳動(dòng)團(tuán)隊(duì)在 Multi-SWE-bench 的研究中指出，C++ 與 Rust 項(xiàng)目通常涉及跨文件、大規(guī)模修改，這使得「語(yǔ)義感知檢索」成為智能體系統(tǒng)的必需能力。

InfCode 自研了基于抽象語(yǔ)法樹(shù)（AST）的結(jié)構(gòu)化檢索引擎。

它通過(guò) Tree-Sitter 構(gòu)建完整的語(yǔ)法樹(shù)，為智能體提供 FindClass、FindFunction 等語(yǔ)法層 API。

例如：

FindClass (Search)：只返回名為 Search 的類(lèi)定義，自動(dòng)忽略同名函數(shù)或變量；
FindFunctions (MyClass::search)：僅匹配特定類(lèi)的成員函數(shù)。

這種語(yǔ)法感知搜索（Syntax-Aware Search）的理念與開(kāi)源工具 ast-grep 不謀而合 —— 它被稱(chēng)為「語(yǔ)法層的 grep/sed」，能通過(guò) AST 模式快速定位與重寫(xiě)代碼。

借助這種結(jié)構(gòu)化檢索，InfCode 的智能體不再「盲搜」，而是真正「理解」代碼的層次結(jié)構(gòu)，在復(fù)雜工程中實(shí)現(xiàn)更高精度的 bug 定位與安全修復(fù)。

多智能體生成：基于對(duì)抗式的代碼補(bǔ)丁與測(cè)試補(bǔ)丁雙智能體生成

修復(fù)能力的核心不在于「一次命中」，而在于反復(fù)試錯(cuò)、持續(xù)進(jìn)化。

傳統(tǒng)代碼修復(fù)智能體多采用單智能體架構(gòu)，無(wú)論是先生成測(cè)試補(bǔ)丁再生成修復(fù)代碼，亦或是先生成修復(fù)代碼再回測(cè)驗(yàn)證，這種單向的修復(fù)模式往往容易陷入「過(guò)擬合當(dāng)前 Issue」的信息繭房。

InfCode 首創(chuàng)對(duì)抗式雙智能體架構(gòu)：

代碼補(bǔ)丁生成器（Code Patch Generator）負(fù)責(zé)修改代碼以通過(guò)當(dāng)前測(cè)試集；
測(cè)試補(bǔ)丁生成器（Test Patch Generator）則負(fù)責(zé)生成更強(qiáng)的測(cè)試用例，捕捉遺漏的邊界場(chǎng)景。

二者在一個(gè)閉環(huán)中交替迭代：

當(dāng)代碼補(bǔ)丁通過(guò)測(cè)試后，測(cè)試補(bǔ)丁生成器會(huì)自動(dòng)分析潛在漏洞并擴(kuò)展測(cè)試覆蓋度；隨后代碼補(bǔ)丁生成器必須進(jìn)一步修復(fù)代碼以應(yīng)對(duì)新的挑戰(zhàn)。

這種「越測(cè)越強(qiáng)、越修越穩(wěn)」的對(duì)抗式工作流，讓補(bǔ)丁在魯棒性與完備性上持續(xù)演化，最終達(dá)到可直接集成于生產(chǎn)倉(cāng)庫(kù)的工程級(jí)質(zhì)量。

這一設(shè)計(jì)契合了當(dāng)前代碼智能體研究的發(fā)展趨勢(shì)：高水平智能體不僅要會(huì)生成，更要會(huì)驗(yàn)證與自我改進(jìn)。

正如近期研究結(jié)果，單輪生成模式已難以支撐復(fù)雜工程任務(wù)，迭代 - 驗(yàn)證 - 優(yōu)化的閉環(huán)結(jié)構(gòu)將成為下一代 Coding Agent 的核心范式。

工程化細(xì)節(jié)：生成與篩選范式

InfCode 的修復(fù)流程分為兩階段：生成（Generate）與篩選（Select）。

在生成階段，系統(tǒng)并行啟動(dòng)多個(gè)獨(dú)立容器，每個(gè)容器運(yùn)行一條修復(fù)鏈路，允許模型查看代碼庫(kù)、運(yùn)行測(cè)試、分析錯(cuò)誤，并迭代生成候選補(bǔ)丁。最多經(jīng)歷五輪迭代，產(chǎn)生多樣化的補(bǔ)丁組合。

篩選階段，系統(tǒng)在真實(shí)構(gòu)建和測(cè)試環(huán)境中重放每個(gè)補(bǔ)丁，除了驗(yàn)證測(cè)試通過(guò)與否，還考慮行為一致性、穩(wěn)定性和副作用。最終選出的補(bǔ)丁不僅「跑通測(cè)試」，還具有更強(qiáng)的工程完整性與可維護(hù)性。這種廣泛探索 + 精準(zhǔn)篩選的策略使 InfCode 能產(chǎn)出質(zhì)量更高的修復(fù)補(bǔ)丁，而非過(guò)擬合或脆弱的修改方案。

背后站著一支「創(chuàng)業(yè)天團(tuán)」

技術(shù)突破的背后，是一支被業(yè)內(nèi)稱(chēng)為「創(chuàng)業(yè)天團(tuán)」的豪華陣容。詞元無(wú)限的核心團(tuán)隊(duì)不僅擁有頂尖的技術(shù)實(shí)力，更難得的是將技術(shù)前瞻、產(chǎn)品化能力與商業(yè)化思維三者融為一體，這在當(dāng)下競(jìng)爭(zhēng)激烈的 AI Coding Agent 賽道中，構(gòu)成難以復(fù)制的全鏈路優(yōu)勢(shì)。

團(tuán)隊(duì)領(lǐng)軍人楊萍在字節(jié)跳動(dòng)期間主導(dǎo)創(chuàng)立公司首個(gè)軟件工程實(shí)驗(yàn)室。其研發(fā)的多智能體測(cè)試系統(tǒng)，廣泛應(yīng)用于字節(jié)多條核心產(chǎn)品線。由她從零開(kāi)始孵化的內(nèi)部 AI Coding 產(chǎn)品，也早已全面覆蓋公司研發(fā)體系。在復(fù)雜真實(shí)場(chǎng)景中，「如何在超大規(guī)模組織中向 AI 要效能和結(jié)果」，是詞元團(tuán)隊(duì)深刻的基因。此次創(chuàng)業(yè)，期望通過(guò)革命性的Agentic 平臺(tái)，賦能企業(yè)以自然語(yǔ)言構(gòu)建、優(yōu)化和演化軟件系統(tǒng)，降低技術(shù)門(mén)檻，加速數(shù)字化進(jìn)程，讓創(chuàng)新不再受技術(shù)資源限制。

CTO 王偉來(lái)自清華姚班，在大模型與智能體領(lǐng)域深耕多年，具備扎實(shí)的算法與工程經(jīng)驗(yàn)。加入詞元無(wú)限之前，他曾作為國(guó)內(nèi)知名具身機(jī)器人公司與大模型創(chuàng)業(yè)公司的技術(shù)合伙人，主導(dǎo)打造了多個(gè)落地效果突出的大模型與具身智能項(xiàng)目，此前亦帶隊(duì)在 SWE-Bench 曾斬獲全球第二的成績(jī)，再加上這次 InfCode 登頂，展現(xiàn)了其團(tuán)隊(duì)在算法創(chuàng)新上的世界級(jí)水準(zhǔn)。

而商業(yè)化負(fù)責(zé)人李瑩擁有十余年 AI 產(chǎn)業(yè)落地經(jīng)驗(yàn)，作為 AI 領(lǐng)域連續(xù)創(chuàng)業(yè)者，她曾主導(dǎo)多段從 0 到 1 的業(yè)務(wù)孵化、規(guī)模化增長(zhǎng)直至公司成功登陸資本市場(chǎng)的完整周期，更是在大模型 To B 領(lǐng)域主導(dǎo)完成了數(shù)億元規(guī)模的項(xiàng)目落地，實(shí)現(xiàn)了多家央國(guó)企及世界 500 強(qiáng)客戶(hù)的億級(jí)項(xiàng)目簽約與卓越交付。這種將技術(shù)價(jià)值轉(zhuǎn)化為商業(yè)回報(bào)的能力，正是 AI 創(chuàng)業(yè)公司最稀缺的資源。

這個(gè)團(tuán)隊(duì)匯聚了來(lái)自字節(jié)、百度、微軟等頂尖企業(yè)的精英，以及清華、北大、哥大、MIT 等世界名校的人才，構(gòu)成了獨(dú)特的「頂尖老將 + 新生代骨干」組合。多個(gè)重要崗位由 00 后領(lǐng)銜，不僅為團(tuán)隊(duì)注入了對(duì)前沿技術(shù)的敏銳度和創(chuàng)新活力，也打造了扁平化、擁抱變化的 AI 原生企業(yè)文化，這對(duì)于需要在快速迭代的 AI Agent 賽道保持領(lǐng)先至關(guān)重要。

此外，團(tuán)隊(duì)對(duì) AI Coding 賽道有著清晰的認(rèn)知，該領(lǐng)域的競(jìng)爭(zhēng)已從單純的「工具效能」提升，轉(zhuǎn)向?qū)浖こ倘芷诘闹貥?gòu)，即AI SWE。未來(lái)的贏家將是那些能提供端到端價(jià)值閉環(huán)的「數(shù)字員工」平臺(tái)，而非簡(jiǎn)單的代碼補(bǔ)全工具。團(tuán)隊(duì)正致力于實(shí)現(xiàn)「Coding + 細(xì)分行業(yè)」的深度融合，通過(guò)賦能垂直領(lǐng)域的「Agentic ISV」，構(gòu)建從工具到平臺(tái)再到生態(tài)的商業(yè)閉環(huán)。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.