網易首頁 > 網易號 > 正文申請入駐

字節前技術負責人創業，聯手清華姚班校友，編程智能體世界登頂

2025-12-05 14:20:23　來源: 機器之心Pro

河北舉報

分享至

機器之心報道

機器之心編輯部

InfCode 正在定義 AI 編程的「工程時代」。

自「造詞大神」Andrej Karpathy 提出「Vibe Coding」這個概念后，它的熱度就居高不下。

只需一句提示詞描述「感覺」和意圖，AI 就能直接生成可運行的代碼，這種近乎魔法的編程體驗讓一眾開發者嘆為觀止。

輸入提示詞：write a python code that visualizes how a traffic light works in a one way street with cars entering at random rate（編寫一個 Python 代碼，可視化單行道中交通信號燈的工作情況，車輛以隨機速率駛入），AI 就能在幾秒鐘內生成一個完整的動畫模擬程序，包括交通燈的紅黃綠切換邏輯、車輛的隨機生成機制、停車和通行的判斷規則，甚至還配上了流暢的可視化界面。

但驚喜過后，問題也隨之而來。Vibe Coding 雖然擅長快速原型開發和單腳本編寫，但在面對企業級復雜工程時仍顯得力不從心。受限于上下文窗口、推理深度以及 Agentic 模式缺失，它往往難以精準定位大型代碼庫中深埋的 Bug，也極易在處理跨文件系統級修改時引發連鎖錯誤，特別是在 C++ 等類型語言常用的底層框架編程場景中。

現在，來自中國的初創團隊詞元無限給出了自己的答案。由清華姚班校友帶隊設計開發的編碼智能體 InfCode，在 SWE-Bench Verified 和 Multi-SWE-bench-CPP 兩項非常權威的 AI Coding 基準中雙雙登頂，力壓一眾編程智能體。

具體來說，InfCode 展現的不僅是單點技術突破。在 SWE-Bench Verified 上，它以 79.4% 的 Pass@1 得分拿下 SOTA，在 MultiSWEbench 的 C++ 子集上，更是以 25.58% 的解決率大幅領先 Claude 3.7 Sonnet 的 8.59% 和 DeepSeek V3 的 7.75%。

這些數字背后，是一套面向企業場景設計的多智能體體系。對于希望在企業場景引入 AI Coding 的決策者而言，這也許是 AI 從「單體提效」走向企業「組織進化」的新范式。

如果說 Vibe Coding 開啟了 AI 編程的「感性時代」，那么 InfCode 正在定義 AI 編程的「工程時代」。

AI 編程進入智能體時代

人工智能正在改變軟件開發范式。

傳統的大模型只能生成代碼片段，而新一代編碼智能體（Coding Agent）強調自主性、全流程覆蓋和工程實用性。它們不僅會寫代碼，還能分解任務、調用工具、運行測試、反復調試，甚至提交補丁。這些智能體在多個基準上接受評測，其中最具權威的是由普林斯頓大學等提出的 SWE?Bench 基準，以及 OpenAI 于 2024 年發布的升級版 SWE?Bench Verified。該基準來自真實 GitHub 項目，每個樣本附帶自然語言問題描述和完整的測試用例，要求智能體既要解決問題，又不能破壞其他功能。

SWE?Bench Verified 僅包含 Python 項目，無法反映多語言生態的挑戰。2025 年，字節跳動聯合科研機構推出了Multi?SWE?bench 數據集，覆蓋 Java、TypeScript、JavaScript、Go、Rust、C 與 C++ 等七種語言，共計 1632 個經過人工驗證的修復任務，由 68 名專家從 2456 個候選樣本中精挑細選。

研究表明，C++ 項目通常需要一次修改 200 多行、涉及 7 個文件，這遠難于 JavaScript 等高層語言；系統語言由于手動內存管理與復雜的編譯體系使得 LLM 表現顯著降低。對比官方報告，領先模型在 C++ 上的解決率往往不足 8%。

詞元無限的突破：InfCode 智能體

詞元無限團隊開發的 InfCode 智能體系統，在這一賽道上取得了突破性成績：

在 SWE?Bench Verified 上，InfCode 以 Pass@1 79.4% 的得分刷新 SOTA（世界最佳）—— 遠高于公開排行榜上 GPT?5、Claude 等頂尖模型 70% 左右的成績。
在 Multi?SWE?bench 的 C++ 子集（Multi?SWE?bench?cpp）上達到 25.58% 的解決率，大幅領先于 Claude 3.7 Sonnet 的約 8.59%、DeepSeek V3 的 7.75% 以及 Qwen2.5?72B?Instruct 幾乎為零的解決率?？紤]到系統語言的巨大難度，這一成績堪稱驚艷。

多語言基準顯示，系統語言（C、C++、Rust）在內存管理、模板機制和復雜編譯鏈方面的難度遠高于 Python、Java 等高級語言。Multi?SWE?bench 中，C++ 問題往往涉及跨文件、大規模修改，部分任務需要改動 200 多行代碼。下表總結了 Multi?SWE?bench 各模型在 C++ 上的解決率：

在這樣的背景下，InfCode 在 C++ 子集上取得 25.58% 的 Pass@1 解決率，體現了語義定位與語法分析相結合的優勢。它不僅能準確定位問題，更能在復雜語法和大型項目中生成正確補丁，這對工業界具有重要價值。

這些成績并不是偶然，而是來自一套精心設計的技術體系，詞元團隊將相關技術報告發表在 arXiv 平臺上（https://arxiv.org/abs/2511.16004）。

根據該分析報告，InfCode 包含三大核心亮點。

超越 RAG：基于功能意圖的復雜上下文定位

在真實的軟件倉庫中，真正困難的往往不是「寫出補丁」，而是「先在海量代碼中找到有問題的代碼塊」。SWE-Bench 的任務通常不提供堆棧追蹤（StackTrace），智能體只能依靠自然語言描述（如搜索功能變慢）去推測問題發生的位置。傳統基于向量相似度的 RAG（Retrieval-Augmented Generation）機制，往往只會檢索到包含「search」關鍵詞的注釋或變量，這套機制在中小規模倉庫上或許能夠定位到問題位置，但在大型工程中容易停留在「字面相關」的片段附近 —— 例如命中帶有 search 字樣的工具函數、配置或包裝層，而不是實際承載查詢邏輯的實現位置（如 Manager::ExecuteQuery），本質原因在于它主要感知的是局部向量相似度，而沒有顯式理解「代碼承載的具體功能語義」及其「在系統中的邏輯歸屬」這類功能意圖。

為突破這一瓶頸，InfCode 提出了「代碼意圖分析（Code Intent Analysis）」機制。

該機制讓智能體能夠超越字面匹配，理解自然語言背后的「功能意圖」，并將其智能映射到項目中的具體實現單元（函數或類）。這一過程融合了語義推理與架構理解，使模型能在無堆棧信息的條件下仍然精準地鎖定問題上下文。

研究表明，在多語言基準（如 Multi-SWE-bench）中，傳統 LLM 往往無法正確識別文件或函數位置（尤其在 C++、Rust 等系統級語言中）。InfCode 的語義意圖映射結合 AST 層級分析，有效提升了跨語言、跨模塊的定位成功率，讓智能體在復雜工程中具備了「理解全局意圖、直達根因代碼」的能力。

增強工具：超越 Grep 的基于 AST 的結構化檢索

找到問題的代碼只是第一步，如何精準定位并修改它才是工程修復的關鍵。

傳統的文本搜索工具（如 grep）在 C++ 等復雜語言中存在天然缺陷 —— 同一標識符可能同時是類名、成員函數或變量，導致結果噪聲極高。

字節跳動團隊在 Multi-SWE-bench 的研究中指出，C++ 與 Rust 項目通常涉及跨文件、大規模修改，這使得「語義感知檢索」成為智能體系統的必需能力。

InfCode 自研了基于抽象語法樹（AST）的結構化檢索引擎。

它通過 Tree-Sitter 構建完整的語法樹，為智能體提供 FindClass、FindFunction 等語法層 API。

例如：

FindClass (Search)：只返回名為 Search 的類定義，自動忽略同名函數或變量；
FindFunctions (MyClass::search)：僅匹配特定類的成員函數。

這種語法感知搜索（Syntax-Aware Search）的理念與開源工具 ast-grep 不謀而合 —— 它被稱為「語法層的 grep/sed」，能通過 AST 模式快速定位與重寫代碼。

借助這種結構化檢索，InfCode 的智能體不再「盲搜」，而是真正「理解」代碼的層次結構，在復雜工程中實現更高精度的 bug 定位與安全修復。

多智能體生成：基于對抗式的代碼補丁與測試補丁雙智能體生成

修復能力的核心不在于「一次命中」，而在于反復試錯、持續進化。

傳統代碼修復智能體多采用單智能體架構，無論是先生成測試補丁再生成修復代碼，亦或是先生成修復代碼再回測驗證，這種單向的修復模式往往容易陷入「過擬合當前 Issue」的信息繭房。

InfCode 首創對抗式雙智能體架構：

代碼補丁生成器（Code Patch Generator）負責修改代碼以通過當前測試集；
測試補丁生成器（Test Patch Generator）則負責生成更強的測試用例，捕捉遺漏的邊界場景。

二者在一個閉環中交替迭代：

當代碼補丁通過測試后，測試補丁生成器會自動分析潛在漏洞并擴展測試覆蓋度；隨后代碼補丁生成器必須進一步修復代碼以應對新的挑戰。

這種「越測越強、越修越穩」的對抗式工作流，讓補丁在魯棒性與完備性上持續演化，最終達到可直接集成于生產倉庫的工程級質量。

這一設計契合了當前代碼智能體研究的發展趨勢：高水平智能體不僅要會生成，更要會驗證與自我改進。

正如近期研究結果，單輪生成模式已難以支撐復雜工程任務，迭代 - 驗證 - 優化的閉環結構將成為下一代 Coding Agent 的核心范式。

工程化細節：生成與篩選范式

InfCode 的修復流程分為兩階段：生成（Generate）與篩選（Select）。

在生成階段，系統并行啟動多個獨立容器，每個容器運行一條修復鏈路，允許模型查看代碼庫、運行測試、分析錯誤，并迭代生成候選補丁。最多經歷五輪迭代，產生多樣化的補丁組合。

篩選階段，系統在真實構建和測試環境中重放每個補丁，除了驗證測試通過與否，還考慮行為一致性、穩定性和副作用。最終選出的補丁不僅「跑通測試」，還具有更強的工程完整性與可維護性。這種廣泛探索 + 精準篩選的策略使 InfCode 能產出質量更高的修復補丁，而非過擬合或脆弱的修改方案。

背后站著一支「創業天團」

技術突破的背后，是一支被業內稱為「創業天團」的豪華陣容。詞元無限的核心團隊不僅擁有頂尖的技術實力，更難得的是將技術前瞻、產品化能力與商業化思維三者融為一體，這在當下競爭激烈的 AI Coding Agent 賽道中，構成難以復制的全鏈路優勢。

團隊領軍人楊萍在字節跳動期間主導創立公司首個軟件工程實驗室。其研發的多智能體測試系統，廣泛應用于字節多條核心產品線。由她從零開始孵化的內部 AI Coding 產品，也早已全面覆蓋公司研發體系。在復雜真實場景中，「如何在超大規模組織中向 AI 要效能和結果」，是詞元團隊深刻的基因。此次創業，期望通過革命性的Agentic 平臺，賦能企業以自然語言構建、優化和演化軟件系統，降低技術門檻，加速數字化進程，讓創新不再受技術資源限制。

CTO 王偉來自清華姚班，在大模型與智能體領域深耕多年，具備扎實的算法與工程經驗。加入詞元無限之前，他曾作為國內知名具身機器人公司與大模型創業公司的技術合伙人，主導打造了多個落地效果突出的大模型與具身智能項目，此前亦帶隊在 SWE-Bench 曾斬獲全球第二的成績，再加上這次 InfCode 登頂，展現了其團隊在算法創新上的世界級水準。

而商業化負責人李瑩擁有十余年 AI 產業落地經驗，作為 AI 領域連續創業者，她曾主導多段從 0 到 1 的業務孵化、規模化增長直至公司成功登陸資本市場的完整周期，更是在大模型 To B 領域主導完成了數億元規模的項目落地，實現了多家央國企及世界 500 強客戶的億級項目簽約與卓越交付。這種將技術價值轉化為商業回報的能力，正是 AI 創業公司最稀缺的資源。

這個團隊匯聚了來自字節、百度、微軟等頂尖企業的精英，以及清華、北大、哥大、MIT 等世界名校的人才，構成了獨特的「頂尖老將 + 新生代骨干」組合。多個重要崗位由 00 后領銜，不僅為團隊注入了對前沿技術的敏銳度和創新活力，也打造了扁平化、擁抱變化的 AI 原生企業文化，這對于需要在快速迭代的 AI Agent 賽道保持領先至關重要。

此外，團隊對 AI Coding 賽道有著清晰的認知，該領域的競爭已從單純的「工具效能」提升，轉向對軟件工程全生命周期的重構，即AI SWE。未來的贏家將是那些能提供端到端價值閉環的「數字員工」平臺，而非簡單的代碼補全工具。團隊正致力于實現「Coding + 細分行業」的深度融合，通過賦能垂直領域的「Agentic ISV」，構建從工具到平臺再到生態的商業閉環。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.