中國AI編程面臨殘酷競爭，OpenAI推出1000token/秒的Codex-Spark ｜以Agent為馬

2026-02-13 21:05:56　來源: 未盡研究

上海舉報(bào)

分享至

當(dāng)AI正在能替人類編程數(shù)個(gè)小時(shí)甚至數(shù)天，編程的速度就愈發(fā)關(guān)鍵；當(dāng)多個(gè)智能體協(xié)作完成更加復(fù)雜的任務(wù)，延時(shí)就變得更加不能容忍。

在推出GPT-5.3-Codex之后一周，OpenAI即推出Codex-Spark。這個(gè)輕量版，可以實(shí)現(xiàn)即時(shí)編程，速度達(dá)到1000token/秒。這也是OpenAI首個(gè)運(yùn)行在英偉達(dá)GPU競爭對手Cerebras芯片上的模型。

隨著模型功能的日益強(qiáng)大，交互速度顯然成為了瓶頸。這樣的速度，對于長程工作、動輒耗費(fèi)成上億token的智能體來說，會帶來產(chǎn)品的差異性競爭力。

以O(shè)penAI為代表的美國前沿AI實(shí)驗(yàn)室，進(jìn)一步抬高競爭門檻，用新一代更強(qiáng)的算力，訓(xùn)練更強(qiáng)大的模型，持續(xù)擴(kuò)展性能邊界，并創(chuàng)造出更好的用戶體驗(yàn)。Blackwell大規(guī)模上市成為主流，TPU-7e即將量產(chǎn)推出，以及更快速的推理芯片如Groq、Cerebras等，正在加快部署。中國的開源AI軍團(tuán)，要快馬加鞭了。

“響應(yīng)速度即產(chǎn)品”

OpenAI開始用算力與模型協(xié)同，加入AI編程的殘酷競爭。Codex-Spark運(yùn)行在Cerebras的芯片上；雙方宣布合作也僅僅一個(gè)月，即推出首個(gè)模型。Cerebras 的創(chuàng)始人兼CEO Andrew Feldman稱，Codex-Spark 是為實(shí)時(shí)軟件開發(fā)而打造的。“在編程領(lǐng)域，響應(yīng)速度本身就是產(chǎn)品。這不是“錦上添花”，而是剛需。”

Codex-Spark針對定向代碼修改、邏輯調(diào)整和前端迭代進(jìn)行了優(yōu)化，為開發(fā)者提供幾乎即時(shí)的反饋，讓他們保持在高效的心流狀態(tài)中——這對于10X甚至100X的人才來說，具有極高的經(jīng)濟(jì)價(jià)值。

OpenAI提出了馬年工作重心：提高數(shù)據(jù)中心容量，強(qiáng)化端到端用戶體驗(yàn)，并部署更大的前沿模型。

如OpenAI所說，其最新的前沿模型在執(zhí)行長時(shí)間運(yùn)行的任務(wù)方面展現(xiàn)出優(yōu)勢，無需人工干預(yù)即可自主運(yùn)行數(shù)小時(shí)、數(shù)天甚至數(shù)周。這樣的話，低延時(shí)可以直接縮短任務(wù)完成的時(shí)間，轉(zhuǎn)化為經(jīng)濟(jì)價(jià)值。

Codex-Spark 成為首個(gè)專為實(shí)時(shí)編程而設(shè)計(jì)的模型，提供128k的上下文窗口，并且僅支持文本。在研究預(yù)覽期間，Codex-Spark 將擁有獨(dú)立的速率限制，其使用量不計(jì)入標(biāo)準(zhǔn)速率限制。但是，當(dāng)需求量較高時(shí)，用戶可能會遇到訪問受限或臨時(shí)排隊(duì)的情況，“因?yàn)槲覀冃枰胶獠煌脩舻目煽啃浴！?/p>

速度即智能

Codex-Spark 針對交互式工作進(jìn)行了優(yōu)化，在這種工作環(huán)境中，低延遲與智能同樣重要。用戶可以與模型實(shí)時(shí)協(xié)作，在模型運(yùn)行過程中隨時(shí)中斷或重定向它，并快速迭代，獲得近乎實(shí)時(shí)的響應(yīng)。由于 Codex-Spark 注重速度，因此其默認(rèn)工作方式非常輕量級：它只進(jìn)行最少的、有針對性的編輯，并且除非用戶口主動要求，否則不會自動運(yùn)行測試。

Codex-Spark 運(yùn)行在 Cerebras 的晶圓級引擎（Wafer Scale Engine）3上，這是一款專為高速推理而打造的 AI 加速器，為 Codex 提供了一個(gè)優(yōu)先降低延遲的服務(wù)層。OpenAI與 Cerebras 合作，還將把這條低延遲路徑添加到其他服務(wù)器相同的生產(chǎn)服務(wù)堆棧中，使其能夠在 Codex 上無縫運(yùn)行，并為支持未來的模型做好準(zhǔn)備。

OpenAI特意說明，GPU 仍然是其訓(xùn)練和推理流程的基礎(chǔ)，能夠提供最具成本效益的token，適用于廣泛的應(yīng)用。Cerebras 則在此基礎(chǔ)上更進(jìn)一步，在對延遲要求極低的工作流程中表現(xiàn)更好，能夠縮短端到端循環(huán)，使 Codex 在迭代過程中響應(yīng)更加迅速。GPU 和 Cerebras 可以結(jié)合使用，針對單個(gè)工作負(fù)載實(shí)現(xiàn)最佳性能。

Codex 將擁有快慢結(jié)合的兩種互補(bǔ)模式：一種是用于長期推理和執(zhí)行的模式，另一種是用于快速迭代的實(shí)時(shí)協(xié)作模式。隨著時(shí)間的推移，這兩種模式將會融合，既讓用戶保持緊密的交互循環(huán)，又能將耗時(shí)較長的任務(wù)委托給后臺運(yùn)行的子代理；或者，當(dāng)需要兼顧廣度和速度時(shí)，它還可以將任務(wù)并行分配給多個(gè)模型，因此無需預(yù)先選擇單一模式。

關(guān)于Cerebras

2015年創(chuàng)立，設(shè)計(jì)的處理器，實(shí)現(xiàn)了單晶圓級的計(jì)算、內(nèi)存和互連架構(gòu)。比H100快10-20倍，在Mistral, Perplexity等模型上使用，速度達(dá)到1000-1200token/秒。

為什么WSE架構(gòu)在速度上碾壓GPU？ GPU將模型權(quán)重保存在 HBM 中，每生成一個(gè) token，整個(gè)模型需要通過內(nèi)存總線傳輸。受限于帶寬瓶頸，無論計(jì)算能力，吞吐量都限制在 200-300 tps 左右。而Cerebras 的晶圓級引擎足夠大，可以將整個(gè)模型存儲在芯片上，無需外部內(nèi)存，也無需總線。權(quán)重和計(jì)算都位于同一位置，能實(shí)現(xiàn)2500+ tps 的吞吐量。

目前大模型的推理已經(jīng)成為瓶頸。訓(xùn)練展現(xiàn)了人工智能的顯著突破，但推理的成本決定了其經(jīng)濟(jì)可行性，維護(hù)和使用前沿模型成本高昂，OpenAI每1美元收入需要3美元成本，急需建立推理的經(jīng)濟(jì)性，不僅需要token的數(shù)量，更需要token的質(zhì)量，即所能創(chuàng)造的經(jīng)濟(jì)價(jià)值，而低延遲是目前在智能體長程任務(wù)中比較迫切的需求。

2026正是推理定制芯片戰(zhàn)爭爆發(fā)之年，TPU， Grok(LPU)，Cerebras等。每家前沿AI實(shí)驗(yàn)室仍然需要GPU滿足基本的訓(xùn)練推理需求，但是在延遲、總擁有成本（TCO）、功耗等方面的競爭，其差異化將主要通過ASIC定制推理芯片實(shí)現(xiàn)。英偉達(dá)花了200億美元將推理芯片初創(chuàng)企業(yè)Groq的核心團(tuán)隊(duì)買下，也是為了把它的護(hù)城河拓得更寬、掘得更深。

Andrew Feldman說：當(dāng)推理足夠快時(shí)，全新的市場將隨之打開。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.