![]()
機器之心編輯部
過去十年,我們幾乎把 AI 領域的創新簡化成一條公式:更多參數、更多數據、更多算力。可未來的突破,是否仍然只能從訓練算力中產生,其實并不清楚。
這個問題之所以重要,是因為「算力驅動進步」的信念,已經深刻改變了整個領域的研究文化。學術界因缺乏算力逐漸被邊緣化,研究參與在地域上高度集中;巨額資本投入也讓原本開放的發表傳統變得愈發封閉。
在過去的一段時間,前谷歌大腦研究員、Cohere 前 AI 研究負責人 Sara Hooker 一直在呼吁大家重視這個問題。最近,她還把自己之前的演講內容寫成了文章。
![]()
- 文章標題:On the slow death of scaling.
- 文章鏈接:https://papers.ssrn.com/sol3/papers.cfm?abstract_id=5877662
文章中提到,對于深度神經網絡而言,持續擴展訓練計算資源效率極低。我們花費大量資源來學習那些低頻特征的長尾部分,而所有跡象都表明,我們正處于收益遞減的時期。在模型規模不再逐年翻倍的世界里,模型如何從環境中學習并有效地從新知識中適應,就顯得尤為重要。在文章中,她探討了一些未來有價值的方向。
以下是文章內容節選。
一個不容忽視的趨勢:小模型的崛起
聲稱 scaling 正在走向終結,這在許多領域都存在爭議。因為過去十年的所有證據都表明,擴展計算能力能夠解鎖更大的模型規模或數據集。增加計算能力也恰好符合行業季度規劃的節奏,相比提出一種替代的優化技術,提議訓練更大的模型風險更小。
但僅僅依靠計算資源會忽略規模與性能之間的關系正在發生的一個關鍵轉變。更大的模型并不總能帶來更好的性能。最近幾年出現了很多大模型被規模小得多的小模型超越的案例。如下圖 3b 所示,隨著時間推移,這類小模型數量激增。
![]()
要理解為什么會出現這種情況,我們必須弄清楚在過去十年中,哪些關鍵變量一直在推動性能的提升。在計算資源回報遞減的時代,優化和架構上的突破決定了單位計算資源的回報率。而正是這種回報率,對發展速度以及額外計算資源所帶來的風險水平最為關鍵。
![]()
哪些因素會影響算力回報率?
在復雜系統中,孤立地操控一個變量并預見所有影響是極具挑戰性的,人們對計算量的推崇也是如此。
增大模型規模正面臨收益遞減
過去十年,模型參數量從早期 Inception 的 2300 萬暴增至 Qwen3-235B 的 2350 億。盡管更大模型確實帶來了性能提升,但額外的參數數量與泛化能力之間的關系仍不清楚。
令人困惑的是:訓練結束后,我們可以刪除大部分權重而幾乎不損失性能;但若一開始就不啟用這些權重,則無法達到相同效果。研究發現,僅用一小部分權重就能預測網絡中 95% 的權重,說明存在大量冗余。這可能反映的是深度學習技術本身的低效 —— 如果有更好的學習方法,我們可能根本不需要這么大的網絡。
增大模型規模是學習長尾分布的一種成本極高的方式。深度神經網絡的學習效率極低。它們能快速學會常見特征,卻需要大量算力和時間來學習罕見特征。這是因為訓練基于平均誤差最小化,所有樣本被同等對待,導致低頻特征的信號在批量更新中被稀釋。而現實世界中,大多數屬性恰恰是低頻的 —— 人類智能的獨特之處正是能高效處理這類長尾數據。深度網絡在這方面最為吃力,訓練的大部分算力都被消耗在以極高代價記憶長尾數據上,如同「搭梯子登月」般低效。
數據質量降低了對計算資源的依賴
在質量更高的數據上訓練的模型不需要那么多計算資源。大量研究表明,改進訓練語料庫的一些工作,包括去重、數據修剪或數據優先級排序,可以彌補模型規模的不足。這表明,可學習參數的數量并非提升性能的絕對限制因素;對更高數據質量的投入能夠減少對更多(計算資源等)的需求。
新的算法技術彌補了計算量的不足
過去幾年的進展,既得益于算法的改進,也得益于計算能力的提升。這包括通過指令微調擴展預訓練,以教會模型遵循指令;利用更大、性能更強的「教師」模型生成的合成數據進行模型蒸餾,來訓練能力強、規模小的「學生」模型;思維鏈推理;增加上下文長度;檢索增強生成;以及通過偏好訓練使模型與人類反饋保持一致等。
所有這些技術都彌補了對大量權重或昂貴的長時間訓練的需求。在所有條件相同的情況下,與未使用這些優化技巧且在相同計算量下訓練的模型相比,這些技術已被證明能顯著提升模型性能。我們正用相同數量的資源做著多得多的事情。
架構在決定可擴展性方面起著重要作用
架構在確定單位計算量下的整體性能回報率方面起著巨大作用。它在決定進步上限方面也至關重要。新架構設計的引入可以從根本上改變計算量與性能之間的關系,并使任何現有的 scaling law 變得無關緊要。
Scaling Law 的局限性
巴菲特曾說過一句話:「別問理發師你需不需要理發。」同樣的道理,也別去問計算機科學家或經濟學家能不能預測未來。人們往往會被「我能預測」的誘惑牽著走,而忽視了對預測邊界應有的謙遜。關于模型規模與性能關系的 scaling law 正是這種自信膨脹的體現。它試圖用算力規模去推斷預訓練損失的變化,或預測下游能力如何隨規模出現,但現實遠比公式復雜。
Scaling Law 之所以流行,很大程度上源于人們過度相信算力是推動進步的核心變量。它逐漸成了一個萬能說法,被用來為巨額投資甚至政策決策背書。其吸引力也不難理解,如果能力真的能隨算力精確預測,資本配置就會顯得異常清晰。但問題在于,我們幾乎從未準確預測過性能究竟會提升多少,這讓「算力投入的回報率」在科學上難以站得住腳。
更關鍵的是,Scaling Law 真正被反復驗證的,只是對預訓練測試損失的預測,也就是模型補全文本的能力。一旦換成真實的下游任務表現,結果往往混亂且不一致。所謂的「涌現能力」,常被用來解釋這種落差,看似是能力突然出現,實際上等于承認 Scaling Law 并不能告訴我們未來會發生什么。即便只預測測試損失,在數據分布假設略有變化時,結果的可復現性也會出現問題。越來越多研究發現,許多能力的提升曲線并不平滑,甚至根本不符合冪律。
對于需要向未來外推的復雜系統來說,小誤差會不斷累積,而樣本數量又極其有限。每一個數據點都是一整個模型,高昂的計算成本意味著很多 scaling 結論建立在不到百個樣本之上,統計支撐本身就很脆弱。因此,不同領域中 Scaling Law 的可靠性差異巨大。比如代碼生成在極大算力跨度內表現出相對穩定的冪律關系,而其他能力則顯得更加不可預測。
在架構、優化方法和數據質量保持不變的短期受控環境下,Scaling Law 對規劃訓練規模仍有一定價值。但一旦拉長時間尺度,它們就很難經得起檢驗。Scaling Law 的頻繁失效提醒我們,單純堆算力并不是一條直線式的進步路徑。那些過度依賴 Scaling Law 的前沿 AI 公司,可能正在低估其他創新方向的價值,而真正的突破,往往正藏在這些被忽視的地方。
未來前進方向
在計算機科學中,我們長期把算力當成銀彈。
但現實正在發生分化。一方面,至少在短期內,人們仍會繼續把模型做得更大,試圖從逐漸老化的架構中榨取最后的性能;另一方面,算力與性能之間的關系卻越來越緊繃,也越來越難以預測。單純依賴算力,正在變成一條不穩定的道路。
真正有可能引領下一輪創新的前沿實驗室,不會把賭注只壓在算力上。更有價值的進展,來自對優化空間的根本性重塑,也就是范式層面的轉變。與以往不同的是,計算機科學家如今需要同時優化的「工具箱」大幅擴展,這不僅會決定他們把時間花在哪里,也會影響「發現」本身是如何發生的。
新的優化空間
如今,越來越多的計算并不是花在訓練階段,而是花在訓練之外、推理之中。過去,模型性能的提升幾乎等同于更多數據、更長訓練或更大參數規模,而現在,一個明顯的轉向正在發生:通過在推理時投入更多算力,用搜索、工具調用、多智能體協作或自適應計算來提升表現,而不必改動模型本身。更重要的是,這些方法大多不依賴梯度更新,徹底偏離了過去三十年以訓練為中心的進步路徑。已有研究表明,僅靠推理階段的計算放大,就可能帶來數倍甚至一個數量級的性能提升,而所需算力遠低于重新預訓練的成本。
![]()
與此同時,數據也不再是不可觸碰的「靜態背景」。長期以來,高質量標注數據稀缺且昂貴,訓練集往往被視為對世界的固定快照,從 MNIST、ImageNet 到 SQuAD,AI 的進步建立在這些凍結的數據之上。但現實使用中,模型最擅長的始終是訓練分布,而推理時真正重要的場景卻常常數據不足,訓練與使用之間由此產生結構性錯位。隨著合成數據成本大幅下降,數據空間本身開始變得可塑,我們可以有意識地生成、引導和放大那些原本稀少卻關鍵的分布區域,這也動搖了機器學習中關于 IID 樣本的基礎假設。
最后,智能系統的核心正在從「更強的模型」轉向「更會與世界互動的系統」。算法本身不再是全部,交互方式、界面設計以及多組件系統的協同,正在成為決定智能上限的重要因素。曾經屬于 UX 或人機交互的小眾問題,正在走到計算機科學研究的正中央。
只要還用 Transformer,scaling 就會變得沒有意義
在以 Transformer 為核心架構的前提下,只要我們仍局限于 Transformer 這種架構,繼續擴大計算規模就沒有意義。現有架構已經明顯出現邊際收益遞減,再投入算力也難以換來成比例的進步。深度神經網絡主導了過去十年的發展,但越來越多跡象表明,下一次真正的躍遷需要一種全新的架構。隨著模型開始持續與世界互動,如何避免災難性遺忘成為關鍵挑戰,而依賴全局參數更新的深度網絡,在持續學習和知識分化上先天受限,很難像大腦那樣形成相對獨立、可專門化的知識區域。
與此同時,訓練算力「scaling 退潮」并不等于 AI 的環境影響會隨之減輕。需要區分的是,算力與性能關系的變化,并不等同于整個 AI 系統的計算開銷下降。即便模型本身變得更小、更高效,AI 也會被部署到越來越多的場景中。真正的能耗大頭,往往不在訓練,而在模型上線后的生產化與大規模服務階段。當數十億用戶同時使用 AI 時,即使單個模型更輕量,總體能耗仍可能持續上升,這依然是一個不容忽視的現實問題。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.