臨近年底,全球大模型競爭已提前拉開2026年序幕。
在中國,MiniMax與月之暗面相繼開源旗艦模型,百度高達2.4萬億參數規模的文心5.0正式登場,社區還在等待阿里的Qwen以及DeepSeek的下一步。在美國,OpenAI的GPT-5.1今日發布,谷歌的Gemini 3已經拉滿預期,馬斯克也曾預告Grok 5年底登場。
短短一年,中國開源模型從不為世界所知,崛起至讓硅谷倍感壓力。“價廉物美”是今年中國開源模型主調,甚至,部分模型可以打著“發布時間差”,宣告在選定測試基準上后發制人的超越。但隨著商業化壓力劇增,明年,開源與閉源相互攻防,將圍繞著token經濟學展開。
基準飽和,擴展不靈
過去一年,中國開源模型參與的全球AI競爭,核心敘事就是在訓練與推理上花更少的錢,接近前沿模型的水平。隨著內部混亂不已的Meta逐步退出競爭,開源AI的競賽;明年的目標是進一步縮小與最領先的閉源模型之間的性能差距。
市場對中國開源模型在部分基準測試中取得短暫領先感到興奮。但這種“錯覺”不會一直持續下去。一方面,開源模型更新頻率更高,追趕差距往往只是發布時間的錯位;另一方面,擴展定律邊際放緩,也在為中國短期內逼近前沿打開了時間窗口。追趕者天然具備成本優勢。
基準測試已經飽和。大模型的真實進步,越來越難被基準捕捉。行業正在吸取Meta在Llama4上的教訓,拒絕以打榜基準為目標而主動“作弊”,但很多時候,模型被測試集“污染”的情況仍然難以避免。當模型在基準分數上差距越來越難以分辨,各家公司開始靠營銷來“差異化”自己,進一步降低了基準公信力。這又放大了外界對開源模型測試成績的質疑。某些情況下,第三方配置環境與參數的不同也會導致測試水平波動。
行業需要更新驗證創新的基準,也需要重新探索創新的路徑。硅谷大神卡帕西,只依賴最終獎勵的強化學習,往往會誤獎中間的錯誤步驟,也錯過過程中的靈光一閃。中國研究團隊也質疑,可驗證獎勵強化學習(RLVR)并未真正涌現超出預訓練的推理能力。大模型對這個世界的理解,仍然是預訓練數據集“分布內”的知識,但是,大模型預訓練擴展定律卻已經“死亡”。
行業正在探索新的可能。Transformer八子中的Ashish Vaswani,批評業界對后訓練的沉迷是短期驅動,掩蓋了預訓練創新的長期改進空間;Llion Jones正在重新審視那些可以追溯到Transformer之前的想法。傳言離開Meta的楊立昆,醞釀在世界模型領域創業,加入與李飛飛團隊的競爭。但這些嘗試都仍處于早期,解不了近憂。
創新“停滯”倒逼著商業變現,對AI泡沫的。明年,開源模型與閉源模型的性能競爭,最終將落在token經濟學之上。它與當前絕大多數評測基準沒有直接關系。這次,OpenAI發布GPT-5.1,就已經跳出了這個數字游戲。一切,最終用戶說了算,在工作場景中創造價值說了算。
token經濟學
這一輪AI創新的基本元素是token。它的單位成本與消耗量決定了任務成本,任務的經濟價值又決定了token的價值。當然,經濟還涉及“周轉率”。吞吐這些token的速度,決定著單位時間能創造多少價值。
中國開源模型仍在以極致性價比,向美國閉源陣營施壓。目前,在Artificial Analysis的榜單中,最新發布的MiniMax-M2與Kimi-K2-Thinking,都處于性能表現略遜于GPT-5(high),但單位成本優勢明顯的象限內。其他處于這一象限模型,也大多出自中國企業之手。價廉物美是中國開源模型今年崛起的基調,明年也將如此。
![]()
中國的這一優勢,來自算力“卡脖子”的倒逼創新。為了突破算力限制,中國開源大模型普遍將自注意力機制等優化作為創新重點,盡可能地。DeepSeek與智譜還,以應對越來越長的上下文窗口。今年,DeepSeek帶動了中國,也引發了一波又一波的價格戰。明年,中國開源模型會不會進一步卷到自研模型的歐美企業數量進一步收斂?
但并非只有算法才會影響的token單位成本。AI芯片與內存、通信硬件的性能及其能效,也發揮重要作用。黃仁勛一直鼓吹“買得越多,省得越多”,就是從硬件與基礎設施層面優化能效,降低運營成本的邏輯。這是美國的強項。
今年以來,中國開源模型已經開始推進。螞蟻集團在國產異構集群上完成了對2900億規模參數Ling-Plus的訓練,成本較H800降低20%;DeepSeek“指導”芯片與基礎設施廠商針對性地優化,尤其是DeepSeek V3.2-Exp發布后,華為昇騰和寒武紀均。明年,中國開源模型是否會交付一款完全基于國產算力技術棧的前沿開源模型?
但token的單位成本不是決定token經濟學的一切。甚至,完成一項任務的總token成本,都不是上述因素所能完全左右的。
如果算力一定,那么,大模型的速度、性能與成本在實際工作負載中需要權衡。大模型的速度,包括延遲(Latency,即首個token的生成時間)與吞吐率(Throughput,即每個token的生成速度)等。中國開源模型在算力資源有限的情況下,要追平性能,價格更低,不得不犧牲部分速度優先級,這直接影響用戶體驗。事實上,很長一段時間,這也是Anthropic所面對的問題,直至今年它與亞馬遜、谷歌深度綁定,賬面投入數百億美元,補上與OpenAI的算力差距。
此外,token單位成本優勢還可能被“冗長思考”侵蝕。很多用戶和開發者已經注意到,似乎DeepSeek-R1等開源模型,在回答問題時往往缺乏“節制”,使用了過多的token。尤其是簡單問題,它。Kimi-K2-Thinking也犯了這個毛病,影響了用戶體驗,削弱了成本優勢。月之暗面創始人楊植麟解釋,現階段該模型優先考慮絕對性能,token效率會在后續得到改善。
未來,在多智能體協作中,冗余消耗和記憶占用,短板效應會更加明顯。OpenAI就非常重視這一問題,即使初期體驗不佳,被用戶指責“黑箱”,還是堅持讓,根據對話類型、復雜度、所需工具和明確意圖快速決定調用哪個模型。這次的GPT-5.1也不例外,它能更精準地根據問題調整思考時間。
![]()
聲勢強,商業弱
中國的開源模型正在贏得硅谷的青睞。無論AI基礎設施層還是應用層的企業,都樂意在合適場景下部署或調用這些“夠好用又夠便宜”的模型。懸念在于,它們能否在不斷增長的市場中,分得更大的一塊。
中國開源模型確實能夠創造價值。月初,在多模型API聚合平臺OpenRouter上,對中國開源模型的API的調用,占據了20%以上的市場份額。它還沒算上用戶私有部署的開源模型。今年8月,中國開源模型的全球累計下載量就已經超越了美國。對于成本敏感的全球南方國家而言更是如此。上個月,彭博社驚呼中國AI模型正在非洲崛起,當地企業家齊聚一堂,聆聽華為云撒哈拉以南非洲地區首席架構師宣講DeepSeek。
![]()
中國開源模型往往會針對某些細分應用場景迭代。它們往往是基于業務數據積累與實際需求的微創新。今年,騰訊、阿里、字節跳動幾乎同時開源了自己的翻譯模型Hunyuan-MT-7B、Qwen3-MT與Seed-X-7B。針對特定市場的翻譯問題遠未解決,而且需求巨大,社交、電商等場景下高頻調用,值得做到像編碼模型這樣專。共享民宿巨頭Airbnb的CEO布萊恩·切斯基(Brian Chesky)就說,他們使用OpenAI的最新版本,但很大程度上更依賴于Qwen模型。非洲企業也反饋歐美模型對非洲語言的token切分并不合理。
但是,從看,中國開源模型仍然無法與美國前沿模型相匹敵,也難以撼動硅谷巨頭的生態。開源模型的市場份額,并沒有體現為這些企業的收入份額。年底,OpenAI的ARR或達200億美元,Anthropic則有望實現90億美元。沒有一家中國初創企業可以達到這一體量,它們面臨投資者的壓力。
越來越多中國開源模型已經,這次Kimi-K2-Thinking就強化了工具調用能力。中國SaaS企業先天不足,明年,開源模型加持的智能體能否打開中國企業服務的市場?
事實上,規模就是創新。開源模型初創企業并不直接占有ChatGPT那樣的海量用戶數據,同時缺乏集中、持續的用戶反饋機制,在長尾需求、細節優化與真實交互方面存在劣勢。阿里巴巴與字節跳動等具備全棧技術、垂直整合能力與龐大用戶生態的互聯網巨頭,可以通過賦能內部業務形成閉環,而初創企業很難逾越這一壁壘。
此外,盡管大模型在基準測試中考得越來越好,但,它嵌入實際工作流的效果仍然不佳。Anthropic、OpenAI和Cohere正在招聘“前沿部署工程師”,以應對定制服務挑戰。而開源模型廠商對此的響應更為困難。
2026年,開源仍然是中國的確定敘事。它意味著國產算力生態協同,也意味著科技普惠與自立自強。但是,開源模型的陣容或將隨著商業閉環的推進而改寫,美團、小米、螞蟻等公司可能頻繁地露臉。競爭品類的激增,將讓更多歐美模型廠商承受價格壓力,不斷構建差異化體驗,或者擠破泡沫。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.