公眾號記得加星標??,第一時間看推送不會錯過。
2025年開年,AI芯片領域就傳出兩則重磅的消息:
埃隆·馬斯克在社交平臺確認特斯拉重啟Dojo 3超級計算機項目,其表示特斯拉將成為全球最大的AI芯片廠商;
同為AI芯片行業的重要參與者Cerebras Systems則與OpenAI則與敲定了一份價值超百億美元、承諾交付750兆瓦算力的多年采購協議,該產能將在2028年前分批投入使用。
一個是自研訓練芯片的“死而復生”,一個是晶圓級系統的商業突破——兩條迥異新聞背后,讓“大芯片”這一曾被視為異類的技術路線再次站回了聚光燈下。
兩種大芯片的分野
在AI芯片的演進史上,大芯片從來不是一個精確的技術術語,而更像是對兩種截然不同設計的概括。
一種是以Cerebras為代表的晶圓級單片集成,另一種則是特斯拉Dojo這類介于單芯片與GPU集群之間的“晶圓級系統”。前者追求大道至簡,用一整片300毫米晶圓構建單一處理器,后者則走中間路線,通過先進封裝將多個預測試芯片集成為類單芯片系統。
這種分野的根源,在于對“內存墻”和“互連瓶頸”兩大痛點的不同解法。
傳統GPU架構下,處理器與內存的分離導致數據不斷在HBM與計算核心間往返。根據技術文獻,英偉達從A100到H100,計算能力增加約6倍,但內存帶寬僅增長1.7倍,這種失衡讓訓練時間的主導因素從計算能力轉向了內存帶寬。而多GPU系統更是將這種開銷放大——即便NVLink 6.0已將單GPU帶寬推至3.6TB/s,芯片間通信的延遲依然是片上互聯的數百倍。
2024年發布的Cerebras WSE-3用4萬億晶體管、90萬個AI核心和44GB片上SRAM給出了一個自己的答案:把計算和存儲塞進同一塊硅片,讓數據足不出戶就能完成處理。其片上互聯帶寬達到214Pbps,是英偉達H100系統的3715倍,內存帶寬高達21PB/s,是H100的880倍。這種極致的集成密度帶來了極致的性能提升,在Llama 3.1 8B模型上跑出1800 token/s的生成速度,而H100僅為242 token/s。
但這種極致也帶來了極致的工程挑戰。一整片晶圓的良率問題幾乎是反摩爾定律的:面積越大,缺陷概率指數級上升。Cerebras的破局之道是將每個AI核心縮小到0.05平方毫米——僅為H100 SM核心的1%,并通過冗余設計和智能路由繞過缺陷區域。這種蟻群式的容錯機制讓單顆芯片即便存在瑕疵也能維持整體性能,但代價是需要專門的固件映射和復雜的散熱系統,WSE-3的23千瓦功耗需要定制的液冷循環和混合冷卻劑。
相比之下,特斯拉Dojo走的是介于兩者之間的晶圓級系統路線。D1芯片本身只有645平方毫米,但通過5×5陣列排列在載片上,利用臺積電InFO封裝技術實現高密度互連,讓25顆芯片像單一處理器般協同工作。這種設計既避免了單片晶圓的良率風險.每顆D1都可以預先測試,又在一定程度上緩解了多芯片系統的互聯瓶頸,芯片間延遲僅100納秒,遠低于傳統GPU集群的毫秒級。
特斯拉的務實轉向
2025年8月,彭博社報道特斯拉解散Dojo超算團隊,這一度被視為自研訓練芯片路線的終結。但在短短半年后,Dojo就迎來了重啟,二它背后邏輯也已發生根本性轉變。
馬斯克在社交平臺透露,AI5芯片設計狀況良好,特斯拉將重啟Dojo 3的工作,其將采用AI6或AI7芯片,目標不再是訓練地球上的自動駕駛模型,它將專注于“太空人工智能計算”。
這個轉向耐人尋味。原本Dojo被定位為對標10萬張H100的通用訓練平臺,摩根士丹利一度估值其能給特斯拉帶來5000億美元增量。但現實是核心團隊接連離職,項目在2024年底被叫停,特斯拉轉而采購6.7萬張H100等效算力組建Cortex集群。背后原因不難理解,盡管D1紙面性能強大,但訓練芯片的關鍵并不是單芯片性能。
英偉達的護城河,是CUDA生態的十幾年積累、CoWoS先進封裝產能的鎖定、HBM供應鏈的深度綁定。對比之下,特斯拉的自研Dojo2方案即便流片成功,也要在軟件適配、集群調度、可靠性工程上補課數年,而這段時間英偉達早已迭代兩至三代產品。
特斯拉如今選擇的是訓練外采和推理自研,其本質上是對機會成本的重新計算。馬斯克表示,特斯拉在兩種完全不同的AI芯片設計上分散資源不合理,AI5、AI6及后續芯片在推理方面將非常出色,至少在訓練方面也相當不錯。AI5芯片采用3nm制程,由臺積電代工,預計2026年底量產,單顆性能接近英偉達Hopper級別,雙芯片配置則可接近Blackwell架構。
更關鍵的是戰略重心的轉移。Dojo 3不再是對標GPU集群的通用訓練平臺,而是面向太空算力部署,馬斯克計劃通過SpaceX未來的IPO為該設想融資,利用星艦部署可在持續日照下運行的算力衛星。
這種定位的精妙在于:太空算力作為新興賽道,既沒有英偉達的生態壁壘,也不需要與成熟GPU生態正面硬剛,而是開辟全新應用場景。2025年11月,英偉達投資的Starcloud首次將H100發射上天,3天后谷歌宣布要在2027年初將TPU部署到太空,這場太空算力競賽才剛剛開始。
但即便重啟,依舊有其他方面的挑戰。據報道,特斯拉已將Dojo 3芯片制造合同授予三星,芯片封裝業務交由英特爾承接。這一供應鏈調整既反映了臺積電產能飽和無法為Dojo 3提供積極支持的現實,也暴露出特斯拉在爭搶代工產能上的弱勢。
Cerebras的精準卡位
如果說特斯拉的Dojo是在試錯中重新定位,那么Cerebras與OpenAI的百億美元合作則是在推理爆發前夜的一次精準卡位。OpenAI承諾到2028年從Cerebras購買高達750兆瓦的計算能力,交易金額超過100億美元。這筆訂單的關鍵在于OpenAI愿意為所謂的“超低延遲推理”支付溢價。
巴克萊研報預測,未來AI推理計算需求將占通用AI總算力的70%以上,推理計算的需求甚至可以超過訓練計算需求,達到后者的4.5倍。當ChatGPT等生成式AI應用從“訓練一次、部署多次”轉向“持續推理、實時交互”之際,低延遲推理能力的價值陡增。OpenAI基礎設施負責人Sachin Katti表示,當AI實時響應時,用戶會做更多事情、停留更長時間、運行更高價值的工作負載。
Cerebras的獨特速度來自于將大量計算、內存和帶寬集成在單個巨型芯片上,消除了傳統硬件中減慢推理速度的瓶頸。這種架構優勢能夠在實際應用中轉化為驚人的性能差距。Cerebras WSE-3在碳捕獲模擬中跑出比H100快210倍的速度,在AI推理上實現20倍加速。如果Cerebras能持續在規模上提供亞秒級響應,它可能會削減基礎設施成本,并為依賴流式響應的更豐富、更對話化的應用打開大門。
但這種商業突破來之不易。在2024年上半年,Cerebras 87%的收入來自阿聯酋的G42,這種過度依賴單一客戶的狀況一度讓其IPO計劃受阻。2024年10月,Cerebras撤回IPO申請,但持續融資,最新報道稱公司正在洽談新一輪10億美元融資,估值約220億美元。OpenAI的訂單金額超過了Cerebras目前的公司估值,實際上使OpenAI成為Cerebras最大也是唯一的主要客戶,這種緊密關系既是商業突破,也潛藏風險。
知情人士認為,如果OpenAI的財務狀況更強勁,它或許會效仿其他科技巨頭,直接收購Cerebras及其工程人才和運營基礎設施。當前的合作結構更多是出于財務現實而非戰略意圖。OpenAI CEO Sam Altman早在2017年就個人投資了Cerebras,2018年埃隆·馬斯克還曾試圖收購Cerebras并入特斯拉,這些歷史糾葛讓當前合作顯得更加微妙。
這筆投資,也在一定程度上促成了供應鏈多元化。2025年,OpenAI與英偉達、AMD和博通都簽署了協議。在9月,英偉達承諾投入1000億美元支持OpenAI,建設至少10吉瓦的英偉達系統,相當于400萬至500萬個GPU。OpenAI執行官表示,計算規模與收入增長高度相關,但計算能力的可用性已成為進一步增長的最重要限制因素之一。在這種背景下,Cerebras提供了專為低延遲推理優化的專用系統的差異化選項。
分析師Neil Shah指出,這促使超大規模提供商實現計算系統多樣化,針對通用AI工作負載使用英偉達GPU,針對高度優化任務使用內部AI加速器,針對專業低延遲工作負載使用Cerebras等系統。推理場景的碎片化(從對話生成到代碼補全到圖像渲染)意味著沒有一種芯片架構能通吃所有場景,專用加速器的存在價值恰在于此。
生態壁壘的裂痕與機會
無論是Cerebras還是特斯拉,都無法回避一個終極問題:在競爭愈發激烈的當下,大芯片路線的生存空間究竟有多大?
要知道,AI芯片市場早已人滿為患,去年6月,AMD推出了MI350X和MI355X兩款GPU,訓練及推理速度與 B200 相當或更優,而在今年1月,英偉達又在CES上推出了Rubin平臺,這兩家芯片早已到了一個令人咋舌的更新速度。
當GPU市場走向一超多強,留給第三條技術路線的窗口期急劇收窄——客戶可以用AMD這樣的通用GPU廠商對沖英偉達,何必冒險押注尚未成熟的晶圓級系統?
Cerebras的應對策略是徹底錯位競爭。CS-3系統不以訓練平臺自居,而是主打推理專用機,通過存算一體架構將推理延遲壓到極致,同時簡化軟件棧。這種定位的精妙在于:推理市場的爆發才剛剛開始,生態鎖定效應遠弱于訓練側,而推理任務的多樣性給專用架構留下了施展空間。OpenAI的百億訂單本質上是在用真金白銀驗證這一商業邏輯,當推理成本占運營支出的大頭時,15倍的性能提升足以重塑供應商格局。
而特斯拉,則是押注于先進封裝之上。臺積電預計2027年推出的晶圓級CoWoS技術,將實現40倍于現有系統的計算能力、超過40個光罩的硅片面積、容納60+個HBM芯片——這幾乎是為晶圓級集成量身定制的工藝路線。
當封裝技術允許在單一襯底上集成數十顆預先測試的邏輯芯片和數十塊HBM,傳統意義上的“大芯片”與“小芯片互聯”之間的界限將變得模糊。此前特斯拉D2芯片選擇的就是這條路:用CoWoS封裝實現晶圓級性能,同時規避單片晶圓的良率風險,未來的Dojo3可能也會在這方面繼續進行探索。
重新定義“大”的邊界
大芯片再度走入大家的視線,但“大”的邊界似乎已悄然改變。
首先是物理尺寸上的“大”——Cerebras那塊占據整片晶圓的單芯片依然是技術奇跡,但商業價值被限定在特定場景。Cerebras WSE系統大約需要200萬至300萬美元,迄今為止部署在阿貢國家實驗室、梅奧診所等機構,以及與G42合作的Condor Galaxy設施。它不會取代GPU成為通用訓練平臺,但可以在推理、科學計算等對延遲敏感的領域開辟新戰場。
其次是系統集成度上的“大”——無論是特斯拉的晶圓級封裝,還是英偉達GB200 NVL72的整柜方案——正在成為主流。SEMI報告顯示,2025年全球晶圓廠設備支出將達1100億美元,2026年增長18%至1300億美元,邏輯微組件領域在2納米制程和背面供電技術等先進技術投資推動下成為關鍵驅動力。臺積電CoWoS路線圖的演進、HBM4的標準化推進、UCIe互聯協議的普及,都在推動小芯片異構集成走向系統級單芯片化。
最后是商業模式上的“大”——這是真正的分水嶺。OpenAI與Cerebras的合作被廣泛視為領先科技公司吸收有前途的AI芯片初創公司的又一例證,無論是通過直接收購,還是通過獨家、大規模的商業合作關系,有效地將這些初創公司納入一個主導的生態系統。SambaNova、Groq和Cerebras各自采用了不同的技術方案,多年來被視為少數幾家能夠在特定工作負載方面與AI芯片市場行業領導者競爭的利基挑戰者,但隨著競爭加劇和客戶接受度持續有限,許多此類初創公司難以突破與主要客戶的試點部署階段。
特斯拉Dojo的停擺與重啟,本質上是一次昂貴的商業試錯——它驗證了全棧自研訓練芯片對非云巨頭不具可復制性,但也為推理側的自主可控保留了技術儲備。Cerebras與OpenAI的聯姻,則是在推理爆發前夜的一次精準卡位,用晶圓級架構的極致性能換取垂直場景的定價權。
在摩爾定律放緩、先進封裝接力、AI場景碎片化的三重背景下,晶圓級集成這條看似小眾的技術路線,正在以意想不到的方式重新定義“大”的邊界。
它們不是要復刻英偉達的成功,而是在AI算力版圖的裂隙中,找到那些被通用方案忽視的價值洼地。從這個意義上說,它不是崛起或沒落的二元敘事,而是一場關于如何在巨人陰影下生存,并最終開辟新疆域的持久戰。
*免責聲明:本文由作者原創。文章內容系作者個人觀點,半導體行業觀察轉載僅為了傳達一種不同的觀點,不代表半導體行業觀察對該觀點贊同或支持,如果有任何異議,歡迎聯系半導體行業觀察。
今天是《半導體行業觀察》為您分享的第4298期內容,歡迎關注。
加星標??第一時間看推送
求推薦
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.