很多業內人士已經注意到,似乎DeepSeek-R1等開源模型,在回答問題時往往缺乏“節制”。尤其是簡單問題,它想得過于復雜了。它的單位token成本的API價格優勢,最終將可能被不受制約的“冗長思考”所侵蝕。
NousResearch團隊一項研究,就是想搞清楚,開源權重模型在完成相同任務時,是否系統性地需要比閉源模型更多的token?當將token消耗數量納入考量后,這種差異如何影響總體推理成本?這種效率差異在不同的任務類型中是否更加顯著?
該研究發現,對于不需要復雜推理就可直答的知識題(Knowledge questions),開源模型的“浪費”最為明顯,DeepSeek-R1-0528完成任務消耗的token數量(completion tokens)——它既包括向用戶呈現的輸出結果,也包括思維鏈(CoT),并與實際計費的token數量相匹配——要比基準水平高出4倍。不過,到了需要推理數學題(Math problems)以及更復雜的邏輯謎題(Logic puzzles),DeepSeek-R1-0528消耗的token數量,高出基準水平縮小至2倍左右。看來實際工作中,向合適的模型詢問合適的問題是一大學問。
![]()
事實上,AI招聘獨角獸公司Mercor的也注意到了這一現象。在它提出的衡量大模型的AI生產力指數的APEX-v1.0基準上,Qwen-3-235B和DeepSeek-R1的輸出長度都超過了其他前沿模型。它們思考得更久,可以彌補一些不足,提升了平均成績,代價就是更多的token消耗。
但這也是“慢思考”剛推出時的魅力,不是嗎?在預訓練擴展邊際放緩后,測試時擴展越來越重要,是提升解題能力的關鍵。回到NousResearch團隊的研究上,DeepSeek-R1在各類邏輯謎題的準確率,也明顯勝出一籌。也許它慢了一些,用的token也多了一些,但答對了題!
![]()
所以,開源模型相比前沿閉源模型,究竟經濟不經濟?
如果有一個最簡易的統計公式,那么token經濟可以歸納為:AI完成一項任務的收益=token兌現的價值-單位token成本×消耗token數量。
Token兌現的價值,一方面取決于模型能不能最終解決現實問題,另一方面則取決于它所解決的問題有多值錢。它下圍棋戰勝世界冠軍,值多少錢?獲得奧數金牌,又值多少錢?但更重要的是,在實際工作場景中創造出經濟價值,而這些價值由市場來決定。
單位token成本也決定著模型的經濟性。黃仁勛一直鼓吹“買得越多,省得越多”,就是從硬件與基礎設施層面優化能效,降低運營成本的邏輯。這是美國的強項。目前,美國幾乎所有AI云巨頭與前沿大模型廠商,都在探索與部署AI定制芯片以降低推理成本。英偉達計劃自研HBM基礎裸片(Base Die),OpenAI則找上了SK海力士與三星合作;閃迪甚至預見了數年后HBF的顛覆性。
中國開源社區的貢獻,主要在于算法和架構的改進,對MOE推理與注意力機制的探索層出不窮。阿里巴巴的架構,總參數80B,卻只需激活3B,即可媲美旗艦版Qwen3-235B性能,效率大幅提升。DeepSeek最新發布的引入了DSA機制,能在成本更低的同時幾乎不影響模型的輸出效果。這些都體現為每百萬token的輸入和輸出成本在持續下降。
微軟近期一篇為自己的碳足跡“洗白”的論文中,駁斥過往的紙面研究,往往忽略了實際部署環境中的規模效應與軟硬件優化措施。論文提到,就每次AI查詢而言,實際能耗要比預估低8-20倍。其中,硬件改進帶來1.5至2倍降幅,模型改進帶來3至4倍降幅,工作負載優化帶來2至3倍降幅。
這里的工作負載優化,既包括KV緩存管理與批大小管理等提升單位token生成效率的手段,也包括用戶手動設置token預算上限,或自動觸發智能路由調用合適模型等降低token消耗數量的技術。OpenAI堅持讓實時路由系統,根據對話類型、復雜度、所需工具和明確意圖快速決定調用哪個模型。字節跳動的Knapsack RL也是類似的預算分配策略探索。這些都是出于性價比的考慮。
很長一段時間以來,在討論token經濟學時,完成任務的token消耗數量,往往被人們所忽視。這一指標缺乏前述各類測評token價值的基準,也不在大模型API定價中直接標識出來。
但它無疑越來越重要,它決定著AI的經濟性。實際工作不同于刷榜(有的刷榜也有算力成本上限),往往存在明顯的成本約束。前述微軟論文也擔心,隨著多模型與智能體的廣泛落地,更多的推理次數和更長的推理時間將帶來更高的能耗。不僅如此,要輸出更多token,通常也意味著更長的響應時間,用戶體驗下降;對于部分必須高速精準響應的場景,這甚至是生死問題;單次任務越來越多的token消耗,也可能耗盡模型的上下文窗口,限制它處理復雜長任務的能力。
受限于各自的技術儲備、供應鏈體系與電力供給條件,中國與美國在token經濟學上已經各自分岔。中國開源模型的首要目標是在國產替代的現實中逼近前沿水平,用較多的token換取較高的價值;美國閉源模型則要開始想法設法去降低token的消耗,并提升token的價值。
從DeepSeek的R1到R1-0528,或者,從Qwen3-235B-A22B-thinking到Qwen-235B-A22B-thinking-2507,中國領先的開源模型的迭代,往往伴隨著總token消耗的上升。而Anthropic、OpenAI與xAI的模型迭代,則伴隨著總token消耗的降低。
![]()
到目前為止,NousResearch團隊的研究認為,綜合token消耗數量與單位token成本(基于海外第三方的API價格,因工作負載不同,定價區間差別較大),DeepSeek等開源模型仍具備整體成本優勢,但在最高API定價時(即以更大的上下文或更高的吞吐速度交付結果等),它的整體成本優勢已經不再顯著,尤其是在回答簡單問題時。
![]()
結合中國的AI算力生態,token消耗過多的短板會進一步放大。有一項研究,專門就基礎設施的框架,量化了前沿模型的硬件配置與環境乘數,對能耗、水與碳足跡的影響。在其設定場景下,DeepSeek-R1成為了碳排放量最高的前沿模型,且遠高于其他模型。除了與o3類似,它大量依賴CoT深度思考,還因為該研究為它“分配”了H800等更低能效的芯片,以及更高PUE的數據中心。
當下對性能的追求壓倒了一切。最終,起作用的將是AI的經濟性,用盡可能少的token解決盡可能有價值的問題。
參考:
https://doi.org/10.48550/arXiv.2505.09598
https://doi.org/10.48550/arXiv.2509.20241
https://arxiv.org/html/2509.25721v2
https://github.com/cpldcpu/LRMTokenEconomy/
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.