機(jī)器之心報(bào)道
機(jī)器之心編輯部
InfCode 正在定義 AI 編程的「工程時(shí)代」。
自「造詞大神」Andrej Karpathy 提出「Vibe Coding」這個(gè)概念后,它的熱度就居高不下。
只需一句提示詞描述「感覺(jué)」和意圖,AI 就能直接生成可運(yùn)行的代碼,這種近乎魔法的編程體驗(yàn)讓一眾開(kāi)發(fā)者嘆為觀止。

輸入提示詞:write a python code that visualizes how a traffic light works in a one way street with cars entering at random rate(編寫(xiě)一個(gè) Python 代碼,可視化單行道中交通信號(hào)燈的工作情況,車(chē)輛以隨機(jī)速率駛?cè)耄珹I 就能在幾秒鐘內(nèi)生成一個(gè)完整的動(dòng)畫(huà)模擬程序,包括交通燈的紅黃綠切換邏輯、車(chē)輛的隨機(jī)生成機(jī)制、停車(chē)和通行的判斷規(guī)則,甚至還配上了流暢的可視化界面。
但驚喜過(guò)后,問(wèn)題也隨之而來(lái)。Vibe Coding 雖然擅長(zhǎng)快速原型開(kāi)發(fā)和單腳本編寫(xiě),但在面對(duì)企業(yè)級(jí)復(fù)雜工程時(shí)仍顯得力不從心。受限于上下文窗口、推理深度以及 Agentic 模式缺失,它往往難以精準(zhǔn)定位大型代碼庫(kù)中深埋的 Bug,也極易在處理跨文件系統(tǒng)級(jí)修改時(shí)引發(fā)連鎖錯(cuò)誤,特別是在 C++ 等類(lèi)型語(yǔ)言常用的底層框架編程場(chǎng)景中。
現(xiàn)在,來(lái)自中國(guó)的初創(chuàng)團(tuán)隊(duì)詞元無(wú)限給出了自己的答案。由清華姚班校友帶隊(duì)設(shè)計(jì)開(kāi)發(fā)的編碼智能體 InfCode,在 SWE-Bench Verified 和 Multi-SWE-bench-CPP 兩項(xiàng)非常權(quán)威的 AI Coding 基準(zhǔn)中雙雙登頂,力壓一眾編程智能體。
![]()
具體來(lái)說(shuō),InfCode 展現(xiàn)的不僅是單點(diǎn)技術(shù)突破。在 SWE-Bench Verified 上,它以 79.4% 的 Pass@1 得分拿下 SOTA,在 MultiSWEbench 的 C++ 子集上,更是以 25.58% 的解決率大幅領(lǐng)先 Claude 3.7 Sonnet 的 8.59% 和 DeepSeek V3 的 7.75%。
這些數(shù)字背后,是一套面向企業(yè)場(chǎng)景設(shè)計(jì)的多智能體體系。對(duì)于希望在企業(yè)場(chǎng)景引入 AI Coding 的決策者而言,這也許是 AI 從「單體提效」走向企業(yè)「組織進(jìn)化」的新范式。
如果說(shuō) Vibe Coding 開(kāi)啟了 AI 編程的「感性時(shí)代」,那么 InfCode 正在定義 AI 編程的「工程時(shí)代」。
AI 編程進(jìn)入智能體時(shí)代
人工智能正在改變軟件開(kāi)發(fā)范式。
傳統(tǒng)的大模型只能生成代碼片段,而新一代編碼智能體(Coding Agent)強(qiáng)調(diào)自主性、全流程覆蓋和工程實(shí)用性。它們不僅會(huì)寫(xiě)代碼,還能分解任務(wù)、調(diào)用工具、運(yùn)行測(cè)試、反復(fù)調(diào)試,甚至提交補(bǔ)丁。這些智能體在多個(gè)基準(zhǔn)上接受評(píng)測(cè),其中最具權(quán)威的是由普林斯頓大學(xué)等提出的 SWE?Bench 基準(zhǔn),以及 OpenAI 于 2024 年發(fā)布的升級(jí)版 SWE?Bench Verified。該基準(zhǔn)來(lái)自真實(shí) GitHub 項(xiàng)目,每個(gè)樣本附帶自然語(yǔ)言問(wèn)題描述和完整的測(cè)試用例,要求智能體既要解決問(wèn)題,又不能破壞其他功能。
SWE?Bench Verified 僅包含 Python 項(xiàng)目,無(wú)法反映多語(yǔ)言生態(tài)的挑戰(zhàn)。2025 年,字節(jié)跳動(dòng)聯(lián)合科研機(jī)構(gòu)推出了Multi?SWE?bench 數(shù)據(jù)集,覆蓋 Java、TypeScript、JavaScript、Go、Rust、C 與 C++ 等七種語(yǔ)言,共計(jì) 1632 個(gè)經(jīng)過(guò)人工驗(yàn)證的修復(fù)任務(wù),由 68 名專(zhuān)家從 2456 個(gè)候選樣本中精挑細(xì)選。
研究表明,C++ 項(xiàng)目通常需要一次修改 200 多行、涉及 7 個(gè)文件,這遠(yuǎn)難于 JavaScript 等高層語(yǔ)言;系統(tǒng)語(yǔ)言由于手動(dòng)內(nèi)存管理與復(fù)雜的編譯體系使得 LLM 表現(xiàn)顯著降低。對(duì)比官方報(bào)告,領(lǐng)先模型在 C++ 上的解決率往往不足 8%。
詞元無(wú)限的突破:InfCode 智能體
詞元無(wú)限團(tuán)隊(duì)開(kāi)發(fā)的 InfCode 智能體系統(tǒng),在這一賽道上取得了突破性成績(jī):
- 在 SWE?Bench Verified 上,InfCode 以 Pass@1 79.4% 的得分刷新 SOTA(世界最佳)—— 遠(yuǎn)高于公開(kāi)排行榜上 GPT?5、Claude 等頂尖模型 70% 左右的成績(jī)。
- 在 Multi?SWE?bench 的 C++ 子集(Multi?SWE?bench?cpp)上達(dá)到 25.58% 的解決率,大幅領(lǐng)先于 Claude 3.7 Sonnet 的約 8.59%、DeepSeek V3 的 7.75% 以及 Qwen2.5?72B?Instruct 幾乎為零的解決率。考慮到系統(tǒng)語(yǔ)言的巨大難度,這一成績(jī)堪稱(chēng)驚艷。
![]()
多語(yǔ)言基準(zhǔn)顯示,系統(tǒng)語(yǔ)言(C、C++、Rust)在內(nèi)存管理、模板機(jī)制和復(fù)雜編譯鏈方面的難度遠(yuǎn)高于 Python、Java 等高級(jí)語(yǔ)言。Multi?SWE?bench 中,C++ 問(wèn)題往往涉及跨文件、大規(guī)模修改,部分任務(wù)需要改動(dòng) 200 多行代碼。下表總結(jié)了 Multi?SWE?bench 各模型在 C++ 上的解決率:
![]()
在這樣的背景下,InfCode 在 C++ 子集上取得 25.58% 的 Pass@1 解決率,體現(xiàn)了語(yǔ)義定位與語(yǔ)法分析相結(jié)合的優(yōu)勢(shì)。它不僅能準(zhǔn)確定位問(wèn)題,更能在復(fù)雜語(yǔ)法和大型項(xiàng)目中生成正確補(bǔ)丁,這對(duì)工業(yè)界具有重要價(jià)值。
這些成績(jī)并不是偶然,而是來(lái)自一套精心設(shè)計(jì)的技術(shù)體系,詞元團(tuán)隊(duì)將相關(guān)技術(shù)報(bào)告發(fā)表在 arXiv 平臺(tái)上(https://arxiv.org/abs/2511.16004)。
根據(jù)該分析報(bào)告,InfCode 包含三大核心亮點(diǎn)。
超越 RAG:基于功能意圖的復(fù)雜上下文定位
在真實(shí)的軟件倉(cāng)庫(kù)中,真正困難的往往不是「寫(xiě)出補(bǔ)丁」,而是「先在海量代碼中找到有問(wèn)題的代碼塊」。SWE-Bench 的任務(wù)通常不提供堆棧追蹤(StackTrace),智能體只能依靠自然語(yǔ)言描述(如搜索功能變慢)去推測(cè)問(wèn)題發(fā)生的位置。傳統(tǒng)基于向量相似度的 RAG(Retrieval-Augmented Generation)機(jī)制,往往只會(huì)檢索到包含「search」關(guān)鍵詞的注釋或變量,這套機(jī)制在中小規(guī)模倉(cāng)庫(kù)上或許能夠定位到問(wèn)題位置,但在大型工程中容易停留在「字面相關(guān)」的片段附近 —— 例如命中帶有 search 字樣的工具函數(shù)、配置或包裝層,而不是實(shí)際承載查詢(xún)邏輯的實(shí)現(xiàn)位置(如 Manager::ExecuteQuery),本質(zhì)原因在于它主要感知的是局部向量相似度,而沒(méi)有顯式理解「代碼承載的具體功能語(yǔ)義」 及其 「在系統(tǒng)中的邏輯歸屬」這類(lèi)功能意圖。
為突破這一瓶頸,InfCode 提出了「代碼意圖分析(Code Intent Analysis)」機(jī)制。
該機(jī)制讓智能體能夠超越字面匹配,理解自然語(yǔ)言背后的「功能意圖」,并將其智能映射到項(xiàng)目中的具體實(shí)現(xiàn)單元(函數(shù)或類(lèi))。這一過(guò)程融合了語(yǔ)義推理與架構(gòu)理解,使模型能在無(wú)堆棧信息的條件下仍然精準(zhǔn)地鎖定問(wèn)題上下文。
研究表明,在多語(yǔ)言基準(zhǔn)(如 Multi-SWE-bench)中,傳統(tǒng) LLM 往往無(wú)法正確識(shí)別文件或函數(shù)位置(尤其在 C++、Rust 等系統(tǒng)級(jí)語(yǔ)言中)。InfCode 的語(yǔ)義意圖映射結(jié)合 AST 層級(jí)分析,有效提升了跨語(yǔ)言、跨模塊的定位成功率,讓智能體在復(fù)雜工程中具備了「理解全局意圖、直達(dá)根因代碼」的能力。
增強(qiáng)工具:超越 Grep 的基于 AST 的結(jié)構(gòu)化檢索
找到問(wèn)題的代碼只是第一步,如何精準(zhǔn)定位并修改它才是工程修復(fù)的關(guān)鍵。
傳統(tǒng)的文本搜索工具(如 grep)在 C++ 等復(fù)雜語(yǔ)言中存在天然缺陷 —— 同一標(biāo)識(shí)符可能同時(shí)是類(lèi)名、成員函數(shù)或變量,導(dǎo)致結(jié)果噪聲極高。
字節(jié)跳動(dòng)團(tuán)隊(duì)在 Multi-SWE-bench 的研究中指出,C++ 與 Rust 項(xiàng)目通常涉及跨文件、大規(guī)模修改,這使得「語(yǔ)義感知檢索」成為智能體系統(tǒng)的必需能力。
InfCode 自研了基于抽象語(yǔ)法樹(shù)(AST)的結(jié)構(gòu)化檢索引擎。
它通過(guò) Tree-Sitter 構(gòu)建完整的語(yǔ)法樹(shù),為智能體提供 FindClass、FindFunction 等語(yǔ)法層 API。
例如:
- FindClass (Search):只返回名為 Search 的類(lèi)定義,自動(dòng)忽略同名函數(shù)或變量;
- FindFunctions (MyClass::search):僅匹配特定類(lèi)的成員函數(shù)。
這種語(yǔ)法感知搜索(Syntax-Aware Search)的理念與開(kāi)源工具 ast-grep 不謀而合 —— 它被稱(chēng)為「語(yǔ)法層的 grep/sed」,能通過(guò) AST 模式快速定位與重寫(xiě)代碼。
借助這種結(jié)構(gòu)化檢索,InfCode 的智能體不再「盲搜」,而是真正「理解」代碼的層次結(jié)構(gòu),在復(fù)雜工程中實(shí)現(xiàn)更高精度的 bug 定位與安全修復(fù)。
多智能體生成:基于對(duì)抗式的代碼補(bǔ)丁與測(cè)試補(bǔ)丁雙智能體生成
修復(fù)能力的核心不在于「一次命中」,而在于反復(fù)試錯(cuò)、持續(xù)進(jìn)化。
傳統(tǒng)代碼修復(fù)智能體多采用單智能體架構(gòu),無(wú)論是先生成測(cè)試補(bǔ)丁再生成修復(fù)代碼,亦或是先生成修復(fù)代碼再回測(cè)驗(yàn)證,這種單向的修復(fù)模式往往容易陷入「過(guò)擬合當(dāng)前 Issue」的信息繭房。
InfCode 首創(chuàng)對(duì)抗式雙智能體架構(gòu):
- 代碼補(bǔ)丁生成器(Code Patch Generator)負(fù)責(zé)修改代碼以通過(guò)當(dāng)前測(cè)試集;
- 測(cè)試補(bǔ)丁生成器(Test Patch Generator)則負(fù)責(zé)生成更強(qiáng)的測(cè)試用例,捕捉遺漏的邊界場(chǎng)景。
二者在一個(gè)閉環(huán)中交替迭代:
當(dāng)代碼補(bǔ)丁通過(guò)測(cè)試后,測(cè)試補(bǔ)丁生成器會(huì)自動(dòng)分析潛在漏洞并擴(kuò)展測(cè)試覆蓋度;隨后代碼補(bǔ)丁生成器必須進(jìn)一步修復(fù)代碼以應(yīng)對(duì)新的挑戰(zhàn)。
這種「越測(cè)越強(qiáng)、越修越穩(wěn)」的對(duì)抗式工作流,讓補(bǔ)丁在魯棒性與完備性上持續(xù)演化,最終達(dá)到可直接集成于生產(chǎn)倉(cāng)庫(kù)的工程級(jí)質(zhì)量。
這一設(shè)計(jì)契合了當(dāng)前代碼智能體研究的發(fā)展趨勢(shì):高水平智能體不僅要會(huì)生成,更要會(huì)驗(yàn)證與自我改進(jìn)。
正如近期研究結(jié)果,單輪生成模式已難以支撐復(fù)雜工程任務(wù),迭代 - 驗(yàn)證 - 優(yōu)化的閉環(huán)結(jié)構(gòu)將成為下一代 Coding Agent 的核心范式。
工程化細(xì)節(jié):生成與篩選范式
InfCode 的修復(fù)流程分為兩階段:生成(Generate) 與 篩選(Select)。
![]()
在生成階段,系統(tǒng)并行啟動(dòng)多個(gè)獨(dú)立容器,每個(gè)容器運(yùn)行一條修復(fù)鏈路,允許模型查看代碼庫(kù)、運(yùn)行測(cè)試、分析錯(cuò)誤,并迭代生成候選補(bǔ)丁。最多經(jīng)歷五輪迭代,產(chǎn)生多樣化的補(bǔ)丁組合。
篩選階段,系統(tǒng)在真實(shí)構(gòu)建和測(cè)試環(huán)境中重放每個(gè)補(bǔ)丁,除了驗(yàn)證測(cè)試通過(guò)與否,還考慮行為一致性、穩(wěn)定性和副作用。最終選出的補(bǔ)丁不僅「跑通測(cè)試」,還具有更強(qiáng)的工程完整性與可維護(hù)性。這種廣泛探索 + 精準(zhǔn)篩選的策略使 InfCode 能產(chǎn)出質(zhì)量更高的修復(fù)補(bǔ)丁,而非過(guò)擬合或脆弱的修改方案。
背后站著一支「創(chuàng)業(yè)天團(tuán)」
技術(shù)突破的背后,是一支被業(yè)內(nèi)稱(chēng)為「創(chuàng)業(yè)天團(tuán)」的豪華陣容。詞元無(wú)限的核心團(tuán)隊(duì)不僅擁有頂尖的技術(shù)實(shí)力,更難得的是將技術(shù)前瞻、產(chǎn)品化能力與商業(yè)化思維三者融為一體,這在當(dāng)下競(jìng)爭(zhēng)激烈的 AI Coding Agent 賽道中,構(gòu)成難以復(fù)制的全鏈路優(yōu)勢(shì)。
團(tuán)隊(duì)領(lǐng)軍人楊萍在字節(jié)跳動(dòng)期間主導(dǎo)創(chuàng)立公司首個(gè)軟件工程實(shí)驗(yàn)室。其研發(fā)的多智能體測(cè)試系統(tǒng),廣泛應(yīng)用于字節(jié)多條核心產(chǎn)品線。由她從零開(kāi)始孵化的內(nèi)部 AI Coding 產(chǎn)品,也早已全面覆蓋公司研發(fā)體系。在復(fù)雜真實(shí)場(chǎng)景中,「如何在超大規(guī)模組織中向 AI 要效能和結(jié)果」,是詞元團(tuán)隊(duì)深刻的基因。此次創(chuàng)業(yè),期望通過(guò)革命性的Agentic 平臺(tái),賦能企業(yè)以自然語(yǔ)言構(gòu)建、優(yōu)化和演化軟件系統(tǒng),降低技術(shù)門(mén)檻,加速數(shù)字化進(jìn)程,讓創(chuàng)新不再受技術(shù)資源限制。
CTO 王偉來(lái)自清華姚班,在大模型與智能體領(lǐng)域深耕多年,具備扎實(shí)的算法與工程經(jīng)驗(yàn)。加入詞元無(wú)限之前,他曾作為國(guó)內(nèi)知名具身機(jī)器人公司與大模型創(chuàng)業(yè)公司的技術(shù)合伙人,主導(dǎo)打造了多個(gè)落地效果突出的大模型與具身智能項(xiàng)目,此前亦帶隊(duì)在 SWE-Bench 曾斬獲全球第二的成績(jī),再加上這次 InfCode 登頂,展現(xiàn)了其團(tuán)隊(duì)在算法創(chuàng)新上的世界級(jí)水準(zhǔn)。
而商業(yè)化負(fù)責(zé)人李瑩擁有十余年 AI 產(chǎn)業(yè)落地經(jīng)驗(yàn),作為 AI 領(lǐng)域連續(xù)創(chuàng)業(yè)者,她曾主導(dǎo)多段從 0 到 1 的業(yè)務(wù)孵化、規(guī)模化增長(zhǎng)直至公司成功登陸資本市場(chǎng)的完整周期,更是在大模型 To B 領(lǐng)域主導(dǎo)完成了數(shù)億元規(guī)模的項(xiàng)目落地,實(shí)現(xiàn)了多家央國(guó)企及世界 500 強(qiáng)客戶(hù)的億級(jí)項(xiàng)目簽約與卓越交付。這種將技術(shù)價(jià)值轉(zhuǎn)化為商業(yè)回報(bào)的能力,正是 AI 創(chuàng)業(yè)公司最稀缺的資源。
這個(gè)團(tuán)隊(duì)匯聚了來(lái)自字節(jié)、百度、微軟等頂尖企業(yè)的精英,以及清華、北大、哥大、MIT 等世界名校的人才,構(gòu)成了獨(dú)特的「頂尖老將 + 新生代骨干」組合。多個(gè)重要崗位由 00 后領(lǐng)銜,不僅為團(tuán)隊(duì)注入了對(duì)前沿技術(shù)的敏銳度和創(chuàng)新活力,也打造了扁平化、擁抱變化的 AI 原生企業(yè)文化,這對(duì)于需要在快速迭代的 AI Agent 賽道保持領(lǐng)先至關(guān)重要。
此外,團(tuán)隊(duì)對(duì) AI Coding 賽道有著清晰的認(rèn)知,該領(lǐng)域的競(jìng)爭(zhēng)已從單純的「工具效能」提升,轉(zhuǎn)向?qū)浖こ倘芷诘闹貥?gòu),即AI SWE。未來(lái)的贏家將是那些能提供端到端價(jià)值閉環(huán)的「數(shù)字員工」平臺(tái),而非簡(jiǎn)單的代碼補(bǔ)全工具。團(tuán)隊(duì)正致力于實(shí)現(xiàn)「Coding + 細(xì)分行業(yè)」的深度融合,通過(guò)賦能垂直領(lǐng)域的「Agentic ISV」,構(gòu)建從工具到平臺(tái)再到生態(tài)的商業(yè)閉環(huán)。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.