網易首頁 > 網易號 > 正文申請入駐

Cursor自研新模型反超Opus 4.6，價格還“打一折”！網友實測：只有它寫完應用能一次跑通

2026-03-20 15:54:14　來源: AI前線

北京舉報

分享至

　　作者｜木子

　　站在懸崖邊的 Cursor，剛剛發布了自家第二代編程大模型：Composer 2.0，且已在 IDE 中上線。

　　在一項關鍵的編程基準測試（Terminal-Bench 2.0）上，Composer 2 竟然反超了 Claude 的旗艦模型 Opus 4.6。

　　要知道，在 Cursor 擁有自家編程模型 Composer 之前，它長期“外掛”Claude 和 Codex，雖然因此吸了一大波粉但也飽受質疑有沒有核心能力。

　　而這一次，不僅性能反超，而且價格還“打一折”！

　　Cursor 給出的定價是：Fast 版本，每百萬輸入 token 輸入 1.5 美元，每百萬輸入 token 輸出 7.5 美元，比上一代便宜了 57% 左右。

　　而普通版的價格直接干到了輸入 0.5 美元、輸出 2.5 美元。相比之下，Claude Opus 4.6 的定價是：輸入 5 美元、輸出 25 美元——剛好差了整整 10 倍！不過需要說明的是，Anthropic 也指出，在使用緩存與批處理等優化機制時，原則上能把成本最多壓到原來的十分之一。

　　當下 AI 競爭已經卷到了“誰能用更少的錢吐出更多 token”這步，而 Composer 2.0 在速度和成本這兩端，竟然同時碾壓了 Opus 4.6、GPT-5.4 這兩個老對手。Cursor 也是毫不客氣地放一張圖，把三者的數據對比直接擺上臺面。

　　網友實測：只有 Composer 2

　　寫完應用能一次跑通

　　Cursor 宣稱，Composer 2 在我們衡量的所有基準測試上都取得了大幅提升。

　　除了前文提到的 Terminal-Bench 2.0，在衡量模型 Debug 能力的 SWE-bench Multilingual（多語言版）上，Composer 2 也給出了一個很能打的成績：73.7%，而 Claude Opus 4.6 的這項得分是 77.83%（數據來自 Anthropic），可見兩者已經拉得很近。

　　只在“通用榜單”里比高低可能已經不能滿足 Cursor 了，他們最近還自建了一套基準，專門評估 agent 在真實任務執行水平，名為Cursor Bench。

　　值得一提的是，Cursor Bench 還曾把在 SWE-Bench 上風光無限的 Claude Sonnet 4.5 直接打回原形：得分從 77.2 驟降到 37.9。至于 Composer 2，大概率已經在這套自家的“魔鬼基準”下被反復檢驗過了。

　　話說回來，在數據上的表現確實很亮眼了，那 Composer 2 的真實“業務水平”如何？

　　一位開發者網友對 Composer 2、Opus 4.6 和 GPT-5.4 在同一任務下做了波實測：

　　他用一套指定技術棧生成了一個 X 的克隆應用，并允許這三個模型調用瀏覽器自行測試。

　　結果顯示，三者在規劃階段差別不大，都花了約 5 分鐘；但到了真正執行時，差距開始拉開：Composer 2 生成的應用可以直接運行，而 Opus 和 GPT 雖然最終也能完成，但都卡在了 CORS 問題上，需要額外調試。

　　更有意思的是，三者生成的代碼結構和質量其實非常接近，差距主要在于效率和成本：Composer 2 用時 5 分鐘、花費 6.04 美元；而 Opus 和 GPT 分別耗時 19 分鐘、22 分鐘，成本也更高，達到 10.43 美元和 14.15 美元。

　　為什么說 Cursor 站在懸崖邊？

　　這當然不是因為它賺不到錢。

　　恰恰相反，過去一年 Cursor 的營收、估值、用戶增長都很猛，企業客戶也還在持續買單。

　　據彭博社 3 月初消息，Cursor 在 2025 年銷售額，從一年前的 1.5 億美元飆升至 20 億美元（約合人民幣 138 億元）。而且他們的員工數只有 300 多人。

　　另外，Cursor 在去年 11 月完成了上一輪融資，金額為 23 億美元，投后估值 300 億美元左右（約合人民幣 2069 億元）。而且據彭博社 3 月 11 日消息，Cursor 還在和投資者洽談新一輪融資，投后估值或達 500 億美元（約合人民幣 3448 億元）。不過談判還在進行中，最終不一定能達成融資協議。

　　也就是說，真正危險的，是 Cursor 賴以崛起的那套邏輯正在被掏空：

　　過去開發者需要 IDE 來和 AI 一起寫代碼，而現在，越來越多開發者開始直接把任務交給 Claude Code、Codex 這類 CLI 智能體，讓它們自己寫、自己跑、自己改。

　　軟件開發正在從“輔助寫代碼”切換到“智能體完成任務”，代碼編輯器不再是唯一入口，甚至開始顯得多余。

　　這對 Cursor 來說是致命的。它原本最強的地方，是把 Claude、Codex 這些頂級模型裝進一個足夠順手的 IDE 里；但當模型廠商自己下場做產品，直接把入口拿走，Cursor 就很容易從“超級入口”滑落成“中間一層”。

　　更尷尬的是，它長期依賴外部模型，用戶喜歡它，恰恰也是因為它接入了最強的大腦；可一旦這些大腦自己做 IDE、做 CLI、做 Agent，Cursor 的護城河就開始變淺——上游模型廠往下吃，下游開發者往外繞，它被夾在中間。

　　所以 Cursor 的自救方式也很明確：

　　第一，補上最致命的短板，做自己的模型。

　　第二，全面轉向 Agent，把 IDE 從“文件中心”改成“任務中心”。上線云端多智能體協作，讓多個 Agent 并行干活，而不是只做一個代碼補全工具。

　　第三，繼續押企業市場，因為大公司遷移慢、合同長、合規重，不會今天用 Cursor 明天就全員切到 Claude Code。

　　另外，它還要降低對 Anthropic 和 OpenAI 的依賴。Cursor 利用 DeepSeek、Kimi、Qwen 等開源模型做了二次訓練，再通過自有數據和強化學習，把它們擰成更便宜、更快的專用編碼模型——Cursor 也是搭上中國開源模型的快車了。

　　說白了，Cursor 現在不只是在做版本更新，而是在搶時間重寫自己的存在理由：

　　在“編輯器可能失去中心地位”的時代，證明自己不只是一個好用的殼，而是一個真正有模型、有系統、有新入口的 AI 編程平臺。

　　https://cursor.com/cn/blog/composer-2

　　https://x.com/TukiFromKL/status/2034677859818610700

　　https://x.com/wesbos/status/2034705631773372853

　　聲明：本文為 AI 前線整理，不代表平臺觀點，未經許可禁止轉載。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.