網易首頁 > 網易號 > 正文申請入駐

DeepSeek等開源模型，更“浪費”token嗎

2025-10-10 00:26:49　來源: 未盡研究

上海舉報

分享至

很多業內人士已經注意到，似乎DeepSeek-R1等開源模型，在回答問題時往往缺乏“節制”。尤其是簡單問題，它想得過于復雜了。它的單位token成本的API價格優勢，最終將可能被不受制約的“冗長思考”所侵蝕。

NousResearch團隊一項研究，就是想搞清楚，開源權重模型在完成相同任務時，是否系統性地需要比閉源模型更多的token？當將token消耗數量納入考量后，這種差異如何影響總體推理成本？這種效率差異在不同的任務類型中是否更加顯著？

該研究發現，對于不需要復雜推理就可直答的知識題（Knowledge questions），開源模型的“浪費”最為明顯，DeepSeek-R1-0528完成任務消耗的token數量（completion tokens）——它既包括向用戶呈現的輸出結果，也包括思維鏈（CoT），并與實際計費的token數量相匹配——要比基準水平高出4倍。不過，到了需要推理數學題（Math problems）以及更復雜的邏輯謎題（Logic puzzles），DeepSeek-R1-0528消耗的token數量，高出基準水平縮小至2倍左右。看來實際工作中，向合適的模型詢問合適的問題是一大學問。

事實上，AI招聘獨角獸公司Mercor的也注意到了這一現象。在它提出的衡量大模型的AI生產力指數的APEX-v1.0基準上，Qwen-3-235B和DeepSeek-R1的輸出長度都超過了其他前沿模型。它們思考得更久，可以彌補一些不足，提升了平均成績，代價就是更多的token消耗。

但這也是“慢思考”剛推出時的魅力，不是嗎？在預訓練擴展邊際放緩后，測試時擴展越來越重要，是提升解題能力的關鍵。回到NousResearch團隊的研究上，DeepSeek-R1在各類邏輯謎題的準確率，也明顯勝出一籌。也許它慢了一些，用的token也多了一些，但答對了題！

所以，開源模型相比前沿閉源模型，究竟經濟不經濟?

如果有一個最簡易的統計公式，那么token經濟可以歸納為：AI完成一項任務的收益=token兌現的價值-單位token成本×消耗token數量。

Token兌現的價值，一方面取決于模型能不能最終解決現實問題，另一方面則取決于它所解決的問題有多值錢。它下圍棋戰勝世界冠軍，值多少錢？獲得奧數金牌，又值多少錢？但更重要的是，在實際工作場景中創造出經濟價值，而這些價值由市場來決定。

單位token成本也決定著模型的經濟性。黃仁勛一直鼓吹“買得越多，省得越多”，就是從硬件與基礎設施層面優化能效，降低運營成本的邏輯。這是美國的強項。目前，美國幾乎所有AI云巨頭與前沿大模型廠商，都在探索與部署AI定制芯片以降低推理成本。英偉達計劃自研HBM基礎裸片（Base Die），OpenAI則找上了SK海力士與三星合作；閃迪甚至預見了數年后HBF的顛覆性。

中國開源社區的貢獻，主要在于算法和架構的改進，對MOE推理與注意力機制的探索層出不窮。阿里巴巴的架構，總參數80B，卻只需激活3B，即可媲美旗艦版Qwen3-235B性能，效率大幅提升。DeepSeek最新發布的引入了DSA機制，能在成本更低的同時幾乎不影響模型的輸出效果。這些都體現為每百萬token的輸入和輸出成本在持續下降。

微軟近期一篇為自己的碳足跡“洗白”的論文中，駁斥過往的紙面研究，往往忽略了實際部署環境中的規模效應與軟硬件優化措施。論文提到，就每次AI查詢而言，實際能耗要比預估低8-20倍。其中，硬件改進帶來1.5至2倍降幅，模型改進帶來3至4倍降幅，工作負載優化帶來2至3倍降幅。

這里的工作負載優化，既包括KV緩存管理與批大小管理等提升單位token生成效率的手段，也包括用戶手動設置token預算上限，或自動觸發智能路由調用合適模型等降低token消耗數量的技術。OpenAI堅持讓實時路由系統，根據對話類型、復雜度、所需工具和明確意圖快速決定調用哪個模型。字節跳動的Knapsack RL也是類似的預算分配策略探索。這些都是出于性價比的考慮。

很長一段時間以來，在討論token經濟學時，完成任務的token消耗數量，往往被人們所忽視。這一指標缺乏前述各類測評token價值的基準，也不在大模型API定價中直接標識出來。

但它無疑越來越重要，它決定著AI的經濟性。實際工作不同于刷榜（有的刷榜也有算力成本上限），往往存在明顯的成本約束。前述微軟論文也擔心，隨著多模型與智能體的廣泛落地，更多的推理次數和更長的推理時間將帶來更高的能耗。不僅如此，要輸出更多token，通常也意味著更長的響應時間，用戶體驗下降；對于部分必須高速精準響應的場景，這甚至是生死問題；單次任務越來越多的token消耗，也可能耗盡模型的上下文窗口，限制它處理復雜長任務的能力。

受限于各自的技術儲備、供應鏈體系與電力供給條件，中國與美國在token經濟學上已經各自分岔。中國開源模型的首要目標是在國產替代的現實中逼近前沿水平，用較多的token換取較高的價值；美國閉源模型則要開始想法設法去降低token的消耗，并提升token的價值。

從DeepSeek的R1到R1-0528，或者，從Qwen3-235B-A22B-thinking到Qwen-235B-A22B-thinking-2507，中國領先的開源模型的迭代，往往伴隨著總token消耗的上升。而Anthropic、OpenAI與xAI的模型迭代，則伴隨著總token消耗的降低。

到目前為止，NousResearch團隊的研究認為，綜合token消耗數量與單位token成本（基于海外第三方的API價格，因工作負載不同，定價區間差別較大），DeepSeek等開源模型仍具備整體成本優勢，但在最高API定價時（即以更大的上下文或更高的吞吐速度交付結果等），它的整體成本優勢已經不再顯著，尤其是在回答簡單問題時。

結合中國的AI算力生態，token消耗過多的短板會進一步放大。有一項研究，專門就基礎設施的框架，量化了前沿模型的硬件配置與環境乘數，對能耗、水與碳足跡的影響。在其設定場景下，DeepSeek-R1成為了碳排放量最高的前沿模型，且遠高于其他模型。除了與o3類似，它大量依賴CoT深度思考，還因為該研究為它“分配”了H800等更低能效的芯片，以及更高PUE的數據中心。

當下對性能的追求壓倒了一切。最終，起作用的將是AI的經濟性，用盡可能少的token解決盡可能有價值的問題。

參考：

https://doi.org/10.48550/arXiv.2505.09598

https://doi.org/10.48550/arXiv.2509.20241

https://arxiv.org/html/2509.25721v2

https://github.com/cpldcpu/LRMTokenEconomy/

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.