前谷歌研究員發(fā)文：算力崇拜時代該結(jié)束了

2026-01-12 18:27:12　來源: 機(jī)器之心Pro

北京舉報

分享至

機(jī)器之心編輯部

過去十年，我們幾乎把 AI 領(lǐng)域的創(chuàng)新簡化成一條公式：更多參數(shù)、更多數(shù)據(jù)、更多算力。可未來的突破，是否仍然只能從訓(xùn)練算力中產(chǎn)生，其實(shí)并不清楚。

這個問題之所以重要，是因?yàn)椤杆懔︱?qū)動進(jìn)步」的信念，已經(jīng)深刻改變了整個領(lǐng)域的研究文化。學(xué)術(shù)界因缺乏算力逐漸被邊緣化，研究參與在地域上高度集中；巨額資本投入也讓原本開放的發(fā)表傳統(tǒng)變得愈發(fā)封閉。

在過去的一段時間，前谷歌大腦研究員、Cohere 前 AI 研究負(fù)責(zé)人 Sara Hooker 一直在呼吁大家重視這個問題。最近，她還把自己之前的演講內(nèi)容寫成了文章。

文章標(biāo)題：On the slow death of scaling.
文章鏈接：https://papers.ssrn.com/sol3/papers.cfm?abstract_id=5877662

文章中提到，對于深度神經(jīng)網(wǎng)絡(luò)而言，持續(xù)擴(kuò)展訓(xùn)練計算資源效率極低。我們花費(fèi)大量資源來學(xué)習(xí)那些低頻特征的長尾部分，而所有跡象都表明，我們正處于收益遞減的時期。在模型規(guī)模不再逐年翻倍的世界里，模型如何從環(huán)境中學(xué)習(xí)并有效地從新知識中適應(yīng)，就顯得尤為重要。在文章中，她探討了一些未來有價值的方向。

以下是文章內(nèi)容節(jié)選。

一個不容忽視的趨勢：小模型的崛起

聲稱 scaling 正在走向終結(jié)，這在許多領(lǐng)域都存在爭議。因?yàn)檫^去十年的所有證據(jù)都表明，擴(kuò)展計算能力能夠解鎖更大的模型規(guī)模或數(shù)據(jù)集。增加計算能力也恰好符合行業(yè)季度規(guī)劃的節(jié)奏，相比提出一種替代的優(yōu)化技術(shù)，提議訓(xùn)練更大的模型風(fēng)險更小。

但僅僅依靠計算資源會忽略規(guī)模與性能之間的關(guān)系正在發(fā)生的一個關(guān)鍵轉(zhuǎn)變。更大的模型并不總能帶來更好的性能。最近幾年出現(xiàn)了很多大模型被規(guī)模小得多的小模型超越的案例。如下圖 3b 所示，隨著時間推移，這類小模型數(shù)量激增。

要理解為什么會出現(xiàn)這種情況，我們必須弄清楚在過去十年中，哪些關(guān)鍵變量一直在推動性能的提升。在計算資源回報遞減的時代，優(yōu)化和架構(gòu)上的突破決定了單位計算資源的回報率。而正是這種回報率，對發(fā)展速度以及額外計算資源所帶來的風(fēng)險水平最為關(guān)鍵。

哪些因素會影響算力回報率？

在復(fù)雜系統(tǒng)中，孤立地操控一個變量并預(yù)見所有影響是極具挑戰(zhàn)性的，人們對計算量的推崇也是如此。

增大模型規(guī)模正面臨收益遞減

過去十年，模型參數(shù)量從早期 Inception 的 2300 萬暴增至 Qwen3-235B 的 2350 億。盡管更大模型確實(shí)帶來了性能提升，但額外的參數(shù)數(shù)量與泛化能力之間的關(guān)系仍不清楚。

令人困惑的是：訓(xùn)練結(jié)束后，我們可以刪除大部分權(quán)重而幾乎不損失性能；但若一開始就不啟用這些權(quán)重，則無法達(dá)到相同效果。研究發(fā)現(xiàn)，僅用一小部分權(quán)重就能預(yù)測網(wǎng)絡(luò)中 95% 的權(quán)重，說明存在大量冗余。這可能反映的是深度學(xué)習(xí)技術(shù)本身的低效 —— 如果有更好的學(xué)習(xí)方法，我們可能根本不需要這么大的網(wǎng)絡(luò)。

增大模型規(guī)模是學(xué)習(xí)長尾分布的一種成本極高的方式。深度神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)效率極低。它們能快速學(xué)會常見特征，卻需要大量算力和時間來學(xué)習(xí)罕見特征。這是因?yàn)橛?xùn)練基于平均誤差最小化，所有樣本被同等對待，導(dǎo)致低頻特征的信號在批量更新中被稀釋。而現(xiàn)實(shí)世界中，大多數(shù)屬性恰恰是低頻的 —— 人類智能的獨(dú)特之處正是能高效處理這類長尾數(shù)據(jù)。深度網(wǎng)絡(luò)在這方面最為吃力，訓(xùn)練的大部分算力都被消耗在以極高代價記憶長尾數(shù)據(jù)上，如同「搭梯子登月」般低效。

數(shù)據(jù)質(zhì)量降低了對計算資源的依賴

在質(zhì)量更高的數(shù)據(jù)上訓(xùn)練的模型不需要那么多計算資源。大量研究表明，改進(jìn)訓(xùn)練語料庫的一些工作，包括去重、數(shù)據(jù)修剪或數(shù)據(jù)優(yōu)先級排序，可以彌補(bǔ)模型規(guī)模的不足。這表明，可學(xué)習(xí)參數(shù)的數(shù)量并非提升性能的絕對限制因素；對更高數(shù)據(jù)質(zhì)量的投入能夠減少對更多（計算資源等）的需求。

新的算法技術(shù)彌補(bǔ)了計算量的不足

過去幾年的進(jìn)展，既得益于算法的改進(jìn)，也得益于計算能力的提升。這包括通過指令微調(diào)擴(kuò)展預(yù)訓(xùn)練，以教會模型遵循指令；利用更大、性能更強(qiáng)的「教師」模型生成的合成數(shù)據(jù)進(jìn)行模型蒸餾，來訓(xùn)練能力強(qiáng)、規(guī)模小的「學(xué)生」模型；思維鏈推理；增加上下文長度；檢索增強(qiáng)生成；以及通過偏好訓(xùn)練使模型與人類反饋保持一致等。

所有這些技術(shù)都彌補(bǔ)了對大量權(quán)重或昂貴的長時間訓(xùn)練的需求。在所有條件相同的情況下，與未使用這些優(yōu)化技巧且在相同計算量下訓(xùn)練的模型相比，這些技術(shù)已被證明能顯著提升模型性能。我們正用相同數(shù)量的資源做著多得多的事情。

架構(gòu)在決定可擴(kuò)展性方面起著重要作用

架構(gòu)在確定單位計算量下的整體性能回報率方面起著巨大作用。它在決定進(jìn)步上限方面也至關(guān)重要。新架構(gòu)設(shè)計的引入可以從根本上改變計算量與性能之間的關(guān)系，并使任何現(xiàn)有的 scaling law 變得無關(guān)緊要。

Scaling Law 的局限性

巴菲特曾說過一句話：「別問理發(fā)師你需不需要理發(fā)。」同樣的道理，也別去問計算機(jī)科學(xué)家或經(jīng)濟(jì)學(xué)家能不能預(yù)測未來。人們往往會被「我能預(yù)測」的誘惑牽著走，而忽視了對預(yù)測邊界應(yīng)有的謙遜。關(guān)于模型規(guī)模與性能關(guān)系的 scaling law 正是這種自信膨脹的體現(xiàn)。它試圖用算力規(guī)模去推斷預(yù)訓(xùn)練損失的變化，或預(yù)測下游能力如何隨規(guī)模出現(xiàn)，但現(xiàn)實(shí)遠(yuǎn)比公式復(fù)雜。

Scaling Law 之所以流行，很大程度上源于人們過度相信算力是推動進(jìn)步的核心變量。它逐漸成了一個萬能說法，被用來為巨額投資甚至政策決策背書。其吸引力也不難理解，如果能力真的能隨算力精確預(yù)測，資本配置就會顯得異常清晰。但問題在于，我們幾乎從未準(zhǔn)確預(yù)測過性能究竟會提升多少，這讓「算力投入的回報率」在科學(xué)上難以站得住腳。

更關(guān)鍵的是，Scaling Law 真正被反復(fù)驗(yàn)證的，只是對預(yù)訓(xùn)練測試損失的預(yù)測，也就是模型補(bǔ)全文本的能力。一旦換成真實(shí)的下游任務(wù)表現(xiàn)，結(jié)果往往混亂且不一致。所謂的「涌現(xiàn)能力」，常被用來解釋這種落差，看似是能力突然出現(xiàn)，實(shí)際上等于承認(rèn) Scaling Law 并不能告訴我們未來會發(fā)生什么。即便只預(yù)測測試損失，在數(shù)據(jù)分布假設(shè)略有變化時，結(jié)果的可復(fù)現(xiàn)性也會出現(xiàn)問題。越來越多研究發(fā)現(xiàn)，許多能力的提升曲線并不平滑，甚至根本不符合冪律。

對于需要向未來外推的復(fù)雜系統(tǒng)來說，小誤差會不斷累積，而樣本數(shù)量又極其有限。每一個數(shù)據(jù)點(diǎn)都是一整個模型，高昂的計算成本意味著很多 scaling 結(jié)論建立在不到百個樣本之上，統(tǒng)計支撐本身就很脆弱。因此，不同領(lǐng)域中 Scaling Law 的可靠性差異巨大。比如代碼生成在極大算力跨度內(nèi)表現(xiàn)出相對穩(wěn)定的冪律關(guān)系，而其他能力則顯得更加不可預(yù)測。

在架構(gòu)、優(yōu)化方法和數(shù)據(jù)質(zhì)量保持不變的短期受控環(huán)境下，Scaling Law 對規(guī)劃訓(xùn)練規(guī)模仍有一定價值。但一旦拉長時間尺度，它們就很難經(jīng)得起檢驗(yàn)。Scaling Law 的頻繁失效提醒我們，單純堆算力并不是一條直線式的進(jìn)步路徑。那些過度依賴 Scaling Law 的前沿 AI 公司，可能正在低估其他創(chuàng)新方向的價值，而真正的突破，往往正藏在這些被忽視的地方。

未來前進(jìn)方向

在計算機(jī)科學(xué)中，我們長期把算力當(dāng)成銀彈。

但現(xiàn)實(shí)正在發(fā)生分化。一方面，至少在短期內(nèi)，人們?nèi)詴^續(xù)把模型做得更大，試圖從逐漸老化的架構(gòu)中榨取最后的性能；另一方面，算力與性能之間的關(guān)系卻越來越緊繃，也越來越難以預(yù)測。單純依賴算力，正在變成一條不穩(wěn)定的道路。

真正有可能引領(lǐng)下一輪創(chuàng)新的前沿實(shí)驗(yàn)室，不會把賭注只壓在算力上。更有價值的進(jìn)展，來自對優(yōu)化空間的根本性重塑，也就是范式層面的轉(zhuǎn)變。與以往不同的是，計算機(jī)科學(xué)家如今需要同時優(yōu)化的「工具箱」大幅擴(kuò)展，這不僅會決定他們把時間花在哪里，也會影響「發(fā)現(xiàn)」本身是如何發(fā)生的。

新的優(yōu)化空間

如今，越來越多的計算并不是花在訓(xùn)練階段，而是花在訓(xùn)練之外、推理之中。過去，模型性能的提升幾乎等同于更多數(shù)據(jù)、更長訓(xùn)練或更大參數(shù)規(guī)模，而現(xiàn)在，一個明顯的轉(zhuǎn)向正在發(fā)生：通過在推理時投入更多算力，用搜索、工具調(diào)用、多智能體協(xié)作或自適應(yīng)計算來提升表現(xiàn)，而不必改動模型本身。更重要的是，這些方法大多不依賴梯度更新，徹底偏離了過去三十年以訓(xùn)練為中心的進(jìn)步路徑。已有研究表明，僅靠推理階段的計算放大，就可能帶來數(shù)倍甚至一個數(shù)量級的性能提升，而所需算力遠(yuǎn)低于重新預(yù)訓(xùn)練的成本。

與此同時，數(shù)據(jù)也不再是不可觸碰的「靜態(tài)背景」。長期以來，高質(zhì)量標(biāo)注數(shù)據(jù)稀缺且昂貴，訓(xùn)練集往往被視為對世界的固定快照，從 MNIST、ImageNet 到 SQuAD，AI 的進(jìn)步建立在這些凍結(jié)的數(shù)據(jù)之上。但現(xiàn)實(shí)使用中，模型最擅長的始終是訓(xùn)練分布，而推理時真正重要的場景卻常常數(shù)據(jù)不足，訓(xùn)練與使用之間由此產(chǎn)生結(jié)構(gòu)性錯位。隨著合成數(shù)據(jù)成本大幅下降，數(shù)據(jù)空間本身開始變得可塑，我們可以有意識地生成、引導(dǎo)和放大那些原本稀少卻關(guān)鍵的分布區(qū)域，這也動搖了機(jī)器學(xué)習(xí)中關(guān)于 IID 樣本的基礎(chǔ)假設(shè)。

最后，智能系統(tǒng)的核心正在從「更強(qiáng)的模型」轉(zhuǎn)向「更會與世界互動的系統(tǒng)」。算法本身不再是全部，交互方式、界面設(shè)計以及多組件系統(tǒng)的協(xié)同，正在成為決定智能上限的重要因素。曾經(jīng)屬于 UX 或人機(jī)交互的小眾問題，正在走到計算機(jī)科學(xué)研究的正中央。

只要還用 Transformer，scaling 就會變得沒有意義

在以 Transformer 為核心架構(gòu)的前提下，只要我們?nèi)跃窒抻?Transformer 這種架構(gòu)，繼續(xù)擴(kuò)大計算規(guī)模就沒有意義。現(xiàn)有架構(gòu)已經(jīng)明顯出現(xiàn)邊際收益遞減，再投入算力也難以換來成比例的進(jìn)步。深度神經(jīng)網(wǎng)絡(luò)主導(dǎo)了過去十年的發(fā)展，但越來越多跡象表明，下一次真正的躍遷需要一種全新的架構(gòu)。隨著模型開始持續(xù)與世界互動，如何避免災(zāi)難性遺忘成為關(guān)鍵挑戰(zhàn)，而依賴全局參數(shù)更新的深度網(wǎng)絡(luò)，在持續(xù)學(xué)習(xí)和知識分化上先天受限，很難像大腦那樣形成相對獨(dú)立、可專門化的知識區(qū)域。

與此同時，訓(xùn)練算力「scaling 退潮」并不等于 AI 的環(huán)境影響會隨之減輕。需要區(qū)分的是，算力與性能關(guān)系的變化，并不等同于整個 AI 系統(tǒng)的計算開銷下降。即便模型本身變得更小、更高效，AI 也會被部署到越來越多的場景中。真正的能耗大頭，往往不在訓(xùn)練，而在模型上線后的生產(chǎn)化與大規(guī)模服務(wù)階段。當(dāng)數(shù)十億用戶同時使用 AI 時，即使單個模型更輕量，總體能耗仍可能持續(xù)上升，這依然是一個不容忽視的現(xiàn)實(shí)問題。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.