網易首頁 > 網易號 > 正文申請入駐

代碼+視覺不再“偏科”，國產模型真正平替Claude還有多遠？

2026-01-31 00:00:10　來源: 創業最前線

北京舉報

分享至

出品 | 創業最前線

作者 | 白華

編輯 | 閃電

美編 | 邢靜

審核 | 頌文

過去一年，AI編程工具邁入“軍備競賽”階段。以Anthropic的Claude系列為代表的閉源模型，憑借領先的代碼生成和Agent能力，成為全球主流開發平臺的首選。然而，其對中國市場的服務限制、高昂的API成本，以及缺乏本地化支持，正倒逼國內開發者尋找高性能、高性價比的替代方案。

與此同時，國產大模型在純文本任務上已取得顯著進展，但在視覺理解、復雜Agent工具調用等真實工程場景中仍存在明顯短板——多數編程模型要么不支持圖像輸入，要么支持圖像的模型編程能力不足。因為圖文能力割裂，難以支撐現代軟件開發中日益增長的代碼+多模態基礎需求。

近期，Kimi新發布的K2.5模型在開發者群體中引發廣泛關注，因為編程性能的提升與視覺能力的補齊，讓開發者終于等到了完整Claude平替的希望。

在全球最大的大模型API聚合平臺OpenRouter上，Kimi K2.5模型發布次日就沖上了全球前三。

這份亮眼表現也迅速獲得了頭部編程工具平臺的認可與青睞。Cursor的核心競品，由GitLab創始人打造的知名編程工具Kilo Code宣布推出Kimi K2.5的首周免費活動后，K2.5也成為該平臺上最受歡迎的模型，單日消耗超過380億Token。

最近很火的Claude Code開源版OpenCode，也宣布限時免費來吸引開發者用戶。

國內大廠旗下的編程工具同樣第一時間接入了K2.5模型。騰訊CodeBuddy將其設定為首選模型；字節Trae宣布提供免費額度，阿里Qoder、美團CatPaw等據傳也在接入中。

1、K2.5代碼能力究竟如何？

從知名匿名評測機構大模型競技場LMarena公布的數據來看，K2.5在Thinking模式下，代碼能力以1509分與Claude Sonnet 4.5持平。排在它前面的，只有Claude和Gemini最新的旗艦模型。這應該是開源模型代碼能力的新高。

不止代碼能力表現亮眼，K2.5在視覺能力上的評測成績同樣令人驚喜。從大模型競技場的視覺能力匿名評測來看，K2.5模型的視覺能力比Claude更能打。

我們也從開發者社區看到一些真實反饋，K2.5的實際表現和體感，與榜單呈現的結果比較接近，代碼能力確實有了提升。

一位Sezxy的網友表示Kimi K2.5+OpenCode感覺很不錯，幾個需求都用它倆解決。

不過，似乎編程能力的提升，也有一定的“副作用”，部分網友表示，之前K2模型的創意寫作能力好像在K2.5模型上減弱了。

2、代碼模型為什么需要視覺？

在知乎問題《Kimi發布并開源K2.5模型，哪些信息值得關注？》下，有Kimi的工程師分享了Kimi做多模態的背后思路，其中一段提到了視覺能力對代碼模型的價值，其中一個關鍵場景是模型可以自己發現前端頁面的視覺bug，然后有機會在后續的流程中自己進行修正：

其實對于很多任務而言，Agent模型也能去自己debug，去根據Console Log的文本內容去解決問題，但是我們還是會遇到一些沒有任何Error或者Warnning，但又不得不再次提出Feedback的時刻，比如：“網站兩個組件產生了堆疊遮擋，你修改下”“放在首頁的圖裂開了，應該是Link失效了，麻煩你check下”“這是一個介紹中學生的網頁，配圖不應該是工作人員”。

這些問題總是在不斷提出，我們總是希望模型能不犯這些錯誤。是的，模型是有可能one-shot出來沒有任何問題的代碼，但是，只要我們給模型一雙眼睛，這些吐槽的問題或者就有可能會讓模型自己形成一個Action-Critic的Refine閉環，而沒有Human的工作流水線是有更高效率的理想上限。

這可能是K2.5模型上線后，立即受到開發者群體歡迎的關鍵原因之一。此前的中國編程模型，普遍沒有視覺能力，遇到圖片和視頻都無法處理，只能報錯。或者需要非常復雜的流程，自行接入另一個模型來處理，對編程的效率影響很大。另一個關鍵原因則是Claude模型太貴了，燒錢太快。Kimi新模型的API價格只有Claude中號模型Sonnet 4.5的1/5，用起來錢包不會太疼。

3、更多K2.5的幕后

除了市場端的亮眼表現，K2.5的技術研發背后還有不少值得深挖的細節。

因此在1月29日凌晨，Kimi核心團隊在Reddit平臺舉行了一場長達3小時的AMA（有問必答）活動，CEO楊植麟、算法團隊負責人周昕宇、吳育昕三位聯合創始人，與全球網友交流了K2.5的技術細節、產品規劃與行業看法。這場對話中，許多關鍵問題的回應，讓外界了解了更多K2.5的幕后。

有網友拋出尖銳問題：Kimi K2.5非常棒，但我看到有人說模型會自稱為Claude，并把這當作你們大量蒸餾（distill）自Claude模型的證據。這是怎么回事？

楊植麟回應稱：“我們的觀察是，在正確的系統提示詞下，它有很高的概率回答‘Kimi’，尤其是在思考模式下。但當系統提示為空時，它就進入了一個未定義區域，這更多地反映了預訓練數據的分布情況。其中一項改進是，我們在預訓練階段對來自互聯網的最新編程數據進行了上采樣，而這些數據似乎與詞元‘Claude’的關聯性更強。事實上，K2.5在許多基準測試中似乎都優于Claude，例如HLE、BrowseComp、MMMU Pro和MathVision等等。”

對于“Kimi Code和Claude Code有什么區別？為什么Kimi要開發自己的編程工具？”的問題，楊植麟表示：“我們認為我們需要一個與模型最匹配的框架。但使用Claude Code時，框架會不斷變化，兼容性有時會成為問題。此外，Kimi Code還擁有一些獨有的功能。我們認為video2code（視頻生代碼）非常重要，代表著前端開發的未來。”

而被問及“訓練VLM的主要挑戰是什么？為什么Kimi如此堅定地投入視覺模型的訓練？”時，楊植麟給出了深入的技術解讀：“主要挑戰在于同步提升文本與視覺能力。我們發現，只要配方得當，兩者可以相互增強：在視覺任務上做RL訓練，反而提高了文本知識基準；反過來，像K2這樣扎實的文本基礎，也是視覺性能的關鍵。”

從技術突破到市場認可，再到研發底層的邏輯拆解，K2.5的出現為國產大模型的發展提供了全新的思路和樣本。

4、結束語

中國企業和開發者都亟需一個真正的Clauce平替，“代碼和視覺功能完備+性能全面對標+性價比優勢”。現在看起來，kimi2.5暫時彌補了這一空缺。但我們還是希望看到更多中國模型可以站起來，讓企業和開發者有更多選擇。

*注：文中題圖來自界面圖庫。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.