文 | 貝克街探案官,作者 | 魯鎮西
48小時內,智譜AI和MiniMax先后通過港交所上市聆訊,有人說這是大模型第一股之爭,也有人說這是研制大模型的公司資金告急,無法形成盈利亟需二級市場輸血。
根據財報,智譜2022年至2025年上半年,累計虧損超62億元;MiniMax2023年、2024年分別虧損2.69億美元、4.65億美元,2025年前9個月虧損5.12億美元,累計虧損超87億元。
由此可見,“不掙錢”確實是大模型行業內玩家暫時無法逾越的鴻溝,這個行業內的頭部玩家們,一邊在刷新人類智能的上限,一邊在以驚人的速度燒錢,頗有一絲參數越大,虧損越深;能力越強,賬越難算。
當市場還在討論“誰的模型更聰明”時,一個更殘酷的問題,如果連最聰明的機器,都算不清這筆賬,這還是一門好生意嗎?一個長期虧損、短期看不到盈利的行業,是否仍然值得投入?
01 真正的科技浪潮,都曾長期虧損
每一次科技變革的風口來臨之前,沒人能預見風往哪吹,只有堅持長期主義,并且持續穩定投入的玩家,才能迎來那陣風。
比如亞馬遜,在1997–2001年,亞馬遜連續5年凈虧損,2000年互聯網泡沫期間,股價從113美元跌到6美元,至2003年才首次實現全年盈利,公司成立10年,累計虧損超過210億元。
華爾街在亞馬遜盈利之前,認為亞馬遜的物流資產太重,毛利率太低,無限擴張也沒有盈利紀律,所以斷言亞馬遜不可能賺錢,它賣得越多,虧得越多。
但在2019年開始,無論華爾街的精英們是因為換了一代人,還是因為看到了亞馬遜的增長空間,開始合力將亞馬遜的股價推至2萬億美元,超越微軟,一度成為全球市值最高的上市公司,雖然目前再度被蘋果、英偉達和微軟反超,但亞馬遜的價值已經被市場承認,目前市值穩定在2.5萬億左右。
![]()
亞馬遜不是個例,另一家長期虧損且差點破產的代表公司,就是現在網友熟知的特斯拉。2003–2019 年,特斯拉累計虧損超420億元,尤其是2017年至2018年,特斯拉CEO埃隆·馬斯克(Elon Musk)在接受采訪時表示,今年在實現Model3產量目標前,特斯拉距離“破產不足10周”。
2018年的特斯拉,飽受“電動車不可能規模化”“智駕是PPT”等質疑,而且當時電動車產業鏈也不成熟,電池成本居高不下,軟件決定車輛等級的宣傳也顛覆了大量消費者對汽車的認知。但隨著電池成本下降,智駕軟件(FSD)帶來收益,特斯拉終于成為市場認可的焦點。
除這兩家公司外,云計算不僅曾長期虧損,還在2006年至2010年期間被市場“無視”,一度被定義為“IT外包2.0”,包括從業人員在內的大多數人,認為企業不會把核心系統放云上,時至今日,云計算成為全球最賺錢的云平臺,A股上市公司中,傳統企業轉型最多的就是云計算公司,長期毛利率30%+。當行業站上風口時,又有業內人士公開表示:“前期虧損是入場門檻”。
或許有人認為,無論是亞馬遜、特斯拉,還是云計算以及移動互聯網,這些曾經長期虧損,如今實現盈利的公司或行業已經跑出來了,隨便世人如何謳歌其篳路藍縷的奮斗過程,并非所有長期虧損的公司或行業,最終都能等來盈利拐點。
事實是,科技浪潮涌來前期的普遍性虧損,其共同特征并非“忽視盈利”,而是將資源持續投入到難以復制的系統性能力建設中。一旦基礎設施成型,盈利拐點往往以非線性方式出現。
亞馬遜虧了十年,卻把錢砸進了倉儲、物流和云計算,最終變成了全球最重的電商與云基礎設施;特斯拉多年燒錢,是在賭電池成本曲線和規模化制造,一旦跨過臨界點,利潤瞬間釋放;云計算早期長期不被看好,卻用虧損換來了數據中心和調度系統,最終成為高毛利的現金牛。
對于一個新興行業而言,真正危險的,從來不是虧損本身,而是虧損沒有換來任何不可替代的東西。
02 大模型的廣泛應用場景和不可替代性
恰巧,現在虧損的大模型行業,就具有顯著的不可替代性。
大模型,是通過海量數據訓練、具備通用認知與生成能力、可以跨任務遷移使用的人工智能模型。通常指參數規模達到數十億乃至萬億級,通過大規模數據與算力訓練而成,具備跨任務泛化能力的人工智能模型, 核心特征在于:模型不再針對單一任務設計,而是通過統一的模型結構,在多種復雜任務中表現出通用智能能力。大模型可以賦能多個行業,上到航天、航空,下到港口、保潔、采礦。
以前文的特斯拉為例,2021年,特斯拉推出BEV+Transformer智能駕駛解決方案,解決了2D到3D轉換、多傳感器融合以及復雜場景感知的難題。
在感知階段,BEV(鳥瞰圖)通過將純視覺傳感器的多模態數據融合在同一平面上的方法,將2D平面圖像升級至BEV視角,以全局視角解決數據之間的遮擋和重疊問題,提高物體檢測和跟蹤的精度,從而擺脫對高精地圖的依賴。
深度學習神經網絡模型(Transformer)的自注意力機制能夠分析BEV特征圖中的不同位置特征,實現從二維圖像特征到三維向量空間的轉換,幫助系統理解物體之間的空間關系,進而提升感知能力。
除此之外,Transformer能夠輸出環境的高層次語義信息,包括物體類別、位置、運動趨勢等,在決策模塊中,通過結合高層信息與其他預測結果,可生成更加準確的駕駛策略。BEV+Transformer架構顯著提升了系統的感知和決策能力,增強了系統對于“長尾場景”的適應性,逐漸具備應對城市道路的復雜環境的能力,打破了智能駕駛只適用于高速場景的局限,開始向城市 NOA 逐步探索。
![]()
2022年,特斯拉進一步引入占用網絡技術(OCC)以提高智能駕駛的動態障礙物識別和復雜場景泛化能力;2023 年,特斯拉端推出將“感知-決策-控制”全流程整合為端到端一體化架構的智能駕駛解決方案。
在特斯拉的擾動下,智駕行業紛紛引入大模型,并演進出“模塊化端到端”與“一體化端到端”的技術路徑之爭。
模塊化端到端方面,2024年4月華為發布設計為“GOD感知網絡+PDP決策網絡+本能安全網絡”的乾崑ADS3.0架構,采用三網協同的端到端大模型,通過GOD提供無損感知數據、PDP進行擬人決策、本能安全網絡兜底應急的策略,形成“感知-決策-安全”閉環。
2024年5月小鵬發布國內首個量產端到端大模型XNGP+,整合神經網絡XNet、規控大模型XPlanner和大語言模型XBrain三大板塊,XBrain由感知模塊XNet2.0和規劃控制模塊XPlanner構成,二者通過神經網絡直接連接實現模塊間的深度耦合,通過三網融合形成了小鵬自己的端到端智駕大模型。
一體化端到端方面,2024年10月理想推出OneModel端到端+VLM雙系統架構,通過單一模型端到端架構(One Model)實現從傳感器輸入到行駛軌跡輸出的全鏈條直接映射,同時引入視覺語言模型(VLM)構建雙系統并行框架,利用VLM的認知推理能力規范端到端模型的行為下限,從而在擬人化駕駛、復雜場景處理和安全冗余層面實現突破。
![]()
端到端架構下,模型從海量數據中學習規律,不再依賴人工迭代規則庫以新駕駛場景,具備了全局優化能力和數據驅動的泛化特性,真正實現了從“規則驅動”向“數據驅動”的跨越,進一步解決部分長尾場景與擬人化決策,顯著提升了智能駕駛系統的性能,推動智能駕駛向L3級別過渡。
進入L3時代后,端到端模型依舊存在明顯的數據瓶頸和泛化缺陷。在端到端架構下,模型觀看大量的駕駛視頻片段,學習場景的時空特征與駕駛策略的映射關系,直接生成車輛控制指令。
端到端技術具備無損傳遞、全局優化和一定的泛化能力,能夠達到L2級別部分自動駕駛的要求,但是該技術自身的局限性制約著L3級別下全動態駕駛任務自主執行的實現。
此時就要進一步引入VLA 大模型,即Vision(視覺)、Language(語言)、Action(動作),可以從能夠輸出動作指令,升級到能夠思考為什么要輸出相應的動作指令。國內企業理想、小鵬均布局了該技術領域,并積累了一定技術儲備。
![]()
大模型在智駕領域取得的成就,再次推動算力領域的投入,包括車載算力芯片研發和云計算儲備,這也是大模型行業內玩家一直虧損,卻一直有投資的主要原因之一,就是可以推進多行業融合,實現多行業共同迭代。
![]()
03 大模型迭代路徑和終局猜想
能幫助其他行業更好發展的大模型,沒有理由被市場淘汰,更不會等不到屬于行業拐點。現在唯一需要擔心的,是在這個行業里,誰能活到不需要講故事的那一天。
當前主流大模型集中于中美,基于Artificial Analysis的數據與模型智能指標觀察,當前頭部模型整體由美國陣營領跑,海外最具代表性者為OpenAI、xAI、Anthropic與Google;曾在開源方向表現突出的Meta,受Llama4系列推進不順等因素影響,模型性能階段性落后。
國內方面,從模型性能維度評估,DeepSeek、Qwen(阿里系)、智譜模型位居前列,Kimi與MiniMax等亦處于國內較為領先的行列。騰訊、百度的模型沒有被納入排行榜單,但其模型依然各有特色,上述格局反映了中美在基礎模型與工程化推進上的綜合優勢。
從現階段表現看,Google在上述各維度的能力布局相對均衡且覆蓋面廣,體現為底層自研硬件(TPU系列)到應用的端到端一體化優勢。相對而言,其他玩家也在逐步補齊短板,如OpenAI在底層定制化硬件方面暫處于落后位置,但是據路透社信息,OpenAI已宣布與博通合作開發新一代ASIC芯片,以期強化算力與成本控制的基礎能力;國內DeepSeekV3.1及之后系列、智譜GLM4.6在Day0即適配了國產芯片。
![]()
梳理上述模型不難發現,當前全球大模型仍以Transformer的decoder-only架構為核心主流。盡管近年來陸續出現如Mamba、KAN等新型網絡結構,但尚未在工程實踐中形成主導地位,Transformer體系依舊占據核心位置,短期內,Transformer仍將是大模型研發與優化的基礎框架,其生態與工具鏈優勢將繼續鞏固主導地位。
目前有可能挑戰Transformer架構的,就是Sora搭載的Diffusion架構,只不過該架構主要用于圖像與視頻生成。
2024年初Sora的發布,展現了Diffusion與Transformer結合的潛力,顯著提升了視頻生成的一致性、分辨率及時長表現。25年5月,Google首次嘗試將Diffusion算法用于文本生成,發布Gemini Diffusion預覽版,字節隨后也推出Seed Diffusion以跟進相關方向。目前有觀點認為,字節Seed Diffusion Preview性能超過Google Gemini Diffusion。
![]()
Transformer體系下,Scaling Law是核心邏輯,Scaling Law2.0以“后訓練+強化學習”為核心路徑,Grok迭代驗證該方向。
圍繞xAI的發布節奏可見Scaling Law側重的遷移。在Scaling Law1.0階段,對應xAI自Grok2到Grok3的迭代,主要通過將預訓練算力擴大約10倍帶來性能躍升;Grok3的推理模型標志著Grok模型進入后訓練階段;至Grok4發布,其后訓練(Reasoning)相較Grok3再度將算力放大約10倍,使得后訓練算力需求接近預訓練。
從目前頭部模型迭代進度看,后訓練的算力需求還有可能繼續增加。據xAI官網,Grok4依托20萬卡級別的Colossus大規模集群進行訓練,因此,持續擴大后訓練的模式與海外更高密度算力核集群稟賦相匹配。
Scaling Law2.0體現出算力重心由預訓練向后訓練與推理環節遷移,并對高密度集群供給提出更高要求。Grok 4.1又在強化學習獎勵范式上引入 Agent 模型獎勵,并繼續在后訓練算力上有數量級提升。
值得注意的是,在大模型迅速迭代下,各家公司除了追求技術外,還紛紛涌入算力擴張之路,尤其以OpenAI最為迅猛。
![]()
而國內企業由于算力受限,不得不進行創新性架構優化,抓住Attention本質,以阿里、DeepSeek最具代表性。
從當前技術演進看,Transformer架構在中短期內仍將是主流,其核心算法Attention機制(通過計算Tokens間相關性以預測最優輸出),構成了模型性能的關鍵環節。因此,國內頭部廠商普遍聚焦于Attention層面的優化與創新,其中以阿里的Qwen系列與DeepSeek的模型為典型代表。在算力約束難以短期突破的情況下,架構創新與算法精煉將成為國內基礎模型競爭的主要方向。
以DeepSeek V3.2為例,DeepSeek V3.2-Exp 在性能上與上一版 V3.1-Terminus 差距不大,并將 V3.2 定位為“邁向新一代架構”的中間步驟。V3.2最大的進步體現在DSA(Dynamic Sparse Attention)的引入,模型訓練與推理效率顯著提升,相比上一代模型API輸入與輸出成本分別下降約50%與75%以上(推理成本)。
DSA的核心優化集中在Attention機制層,通過算子級與內核級的工程化重構,在長上下文任務中顯著壓縮訓練與推理開銷,同時盡量保持模型性能穩定,延續了以架構精修換取綜合效率提升的技術路線,該版本體現出在算力約束下的務實取舍,既為后續架構演進奠定技術基礎,也展示出國產模型在底層優化方面的持續積累。
![]()
![]()
DSV3框架的成功,令很多模型在DeepSeek V3框架引入針對性架構優化,如Kimi K2,K2主要改進包括驗證在激活參數不變的條件下,單純提升MoE總參數量依然符合Scaling規律,訓練與驗證loss持續下降且無過擬合跡象;適度減少Attentionhead數量,在保持性能穩定的同時顯著降低算力開銷;僅保留首層dense層,其余全部采用MoE結構,以改善首層router負載不均并提升專家利用效率;引入無分組的簡化router,優化計算路徑與參數調度;將模型參數從V3的671B提升到1T;引入MuonClip優化器,顯著提升訓練穩定性與收斂一致性。
得益于上述改進,K2在維持與DeepSeekv3相當的訓練與推理成本下,實現了更低loss 與更高參數效率。K2的路徑體現了國內團隊在算力約束下通過結構精修延展Scaling規律、提升模型性價比的工程化思路。
![]()
在頭部玩家的合力推動下,推理/非推理模型統一后,模型應用轉折點或將到來,比如GPT-5以統一架構實現快思與深思的自適應協同,并以路由器按任務動態分配資源,GPT-5.1以自適應推理與細化模型分工提升智能表現與交互體驗;DeepSeek V3.1以混合推理架構落地統一模型,實現單體兼容快思與深思。
在統一系統落地之后,頭部大模型廠商的研發重心正逐步由底層模型優化轉向上層應用與商業化探索,技術競爭正從模型理論創新轉向產品體驗與生態建設。
結語
當大模型的“底座”逐漸統一,真正的競爭才剛剛開始。
現階段,大模型行業就像高速公路已經修好,接下來拼的就不再是誰會鋪路,而是誰能造出更多跑得起來的車。
當大模型的底層系統逐步統一,廠商的競爭自然從“模型有多強”,轉向“產品好不好用、生態能不能跑起來”。技術優勢開始讓位于商業能力,真正的考驗才剛剛開始。
行業內的頭部廠商,早已不再糾結模型再大一點、參數再多一點,而是把重心轉向:誰的產品更好用,誰能先把智能賣出去。這意味著,大模型之爭正在從實驗室里的理論創新,轉移到真實世界的產品體驗和生態爭奪,今天正在虧損的企業,誰敢斷言不會迎風起飛,成為下一個亞馬遜或者特斯拉?
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.