![]()
機(jī)器之心編輯部
過去十年,我們幾乎把 AI 領(lǐng)域的創(chuàng)新簡化成一條公式:更多參數(shù)、更多數(shù)據(jù)、更多算力。可未來的突破,是否仍然只能從訓(xùn)練算力中產(chǎn)生,其實(shí)并不清楚。
這個問題之所以重要,是因?yàn)椤杆懔︱?qū)動進(jìn)步」的信念,已經(jīng)深刻改變了整個領(lǐng)域的研究文化。學(xué)術(shù)界因缺乏算力逐漸被邊緣化,研究參與在地域上高度集中;巨額資本投入也讓原本開放的發(fā)表傳統(tǒng)變得愈發(fā)封閉。
在過去的一段時間,前谷歌大腦研究員、Cohere 前 AI 研究負(fù)責(zé)人 Sara Hooker 一直在呼吁大家重視這個問題。最近,她還把自己之前的演講內(nèi)容寫成了文章。
![]()
- 文章標(biāo)題:On the slow death of scaling.
- 文章鏈接:https://papers.ssrn.com/sol3/papers.cfm?abstract_id=5877662
文章中提到,對于深度神經(jīng)網(wǎng)絡(luò)而言,持續(xù)擴(kuò)展訓(xùn)練計算資源效率極低。我們花費(fèi)大量資源來學(xué)習(xí)那些低頻特征的長尾部分,而所有跡象都表明,我們正處于收益遞減的時期。在模型規(guī)模不再逐年翻倍的世界里,模型如何從環(huán)境中學(xué)習(xí)并有效地從新知識中適應(yīng),就顯得尤為重要。在文章中,她探討了一些未來有價值的方向。
以下是文章內(nèi)容節(jié)選。
一個不容忽視的趨勢:小模型的崛起
聲稱 scaling 正在走向終結(jié),這在許多領(lǐng)域都存在爭議。因?yàn)檫^去十年的所有證據(jù)都表明,擴(kuò)展計算能力能夠解鎖更大的模型規(guī)模或數(shù)據(jù)集。增加計算能力也恰好符合行業(yè)季度規(guī)劃的節(jié)奏,相比提出一種替代的優(yōu)化技術(shù),提議訓(xùn)練更大的模型風(fēng)險更小。
但僅僅依靠計算資源會忽略規(guī)模與性能之間的關(guān)系正在發(fā)生的一個關(guān)鍵轉(zhuǎn)變。更大的模型并不總能帶來更好的性能。最近幾年出現(xiàn)了很多大模型被規(guī)模小得多的小模型超越的案例。如下圖 3b 所示,隨著時間推移,這類小模型數(shù)量激增。
![]()
要理解為什么會出現(xiàn)這種情況,我們必須弄清楚在過去十年中,哪些關(guān)鍵變量一直在推動性能的提升。在計算資源回報遞減的時代,優(yōu)化和架構(gòu)上的突破決定了單位計算資源的回報率。而正是這種回報率,對發(fā)展速度以及額外計算資源所帶來的風(fēng)險水平最為關(guān)鍵。
![]()
哪些因素會影響算力回報率?
在復(fù)雜系統(tǒng)中,孤立地操控一個變量并預(yù)見所有影響是極具挑戰(zhàn)性的,人們對計算量的推崇也是如此。
增大模型規(guī)模正面臨收益遞減
過去十年,模型參數(shù)量從早期 Inception 的 2300 萬暴增至 Qwen3-235B 的 2350 億。盡管更大模型確實(shí)帶來了性能提升,但額外的參數(shù)數(shù)量與泛化能力之間的關(guān)系仍不清楚。
令人困惑的是:訓(xùn)練結(jié)束后,我們可以刪除大部分權(quán)重而幾乎不損失性能;但若一開始就不啟用這些權(quán)重,則無法達(dá)到相同效果。研究發(fā)現(xiàn),僅用一小部分權(quán)重就能預(yù)測網(wǎng)絡(luò)中 95% 的權(quán)重,說明存在大量冗余。這可能反映的是深度學(xué)習(xí)技術(shù)本身的低效 —— 如果有更好的學(xué)習(xí)方法,我們可能根本不需要這么大的網(wǎng)絡(luò)。
增大模型規(guī)模是學(xué)習(xí)長尾分布的一種成本極高的方式。深度神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)效率極低。它們能快速學(xué)會常見特征,卻需要大量算力和時間來學(xué)習(xí)罕見特征。這是因?yàn)橛?xùn)練基于平均誤差最小化,所有樣本被同等對待,導(dǎo)致低頻特征的信號在批量更新中被稀釋。而現(xiàn)實(shí)世界中,大多數(shù)屬性恰恰是低頻的 —— 人類智能的獨(dú)特之處正是能高效處理這類長尾數(shù)據(jù)。深度網(wǎng)絡(luò)在這方面最為吃力,訓(xùn)練的大部分算力都被消耗在以極高代價記憶長尾數(shù)據(jù)上,如同「搭梯子登月」般低效。
數(shù)據(jù)質(zhì)量降低了對計算資源的依賴
在質(zhì)量更高的數(shù)據(jù)上訓(xùn)練的模型不需要那么多計算資源。大量研究表明,改進(jìn)訓(xùn)練語料庫的一些工作,包括去重、數(shù)據(jù)修剪或數(shù)據(jù)優(yōu)先級排序,可以彌補(bǔ)模型規(guī)模的不足。這表明,可學(xué)習(xí)參數(shù)的數(shù)量并非提升性能的絕對限制因素;對更高數(shù)據(jù)質(zhì)量的投入能夠減少對更多(計算資源等)的需求。
新的算法技術(shù)彌補(bǔ)了計算量的不足
過去幾年的進(jìn)展,既得益于算法的改進(jìn),也得益于計算能力的提升。這包括通過指令微調(diào)擴(kuò)展預(yù)訓(xùn)練,以教會模型遵循指令;利用更大、性能更強(qiáng)的「教師」模型生成的合成數(shù)據(jù)進(jìn)行模型蒸餾,來訓(xùn)練能力強(qiáng)、規(guī)模小的「學(xué)生」模型;思維鏈推理;增加上下文長度;檢索增強(qiáng)生成;以及通過偏好訓(xùn)練使模型與人類反饋保持一致等。
所有這些技術(shù)都彌補(bǔ)了對大量權(quán)重或昂貴的長時間訓(xùn)練的需求。在所有條件相同的情況下,與未使用這些優(yōu)化技巧且在相同計算量下訓(xùn)練的模型相比,這些技術(shù)已被證明能顯著提升模型性能。我們正用相同數(shù)量的資源做著多得多的事情。
架構(gòu)在決定可擴(kuò)展性方面起著重要作用
架構(gòu)在確定單位計算量下的整體性能回報率方面起著巨大作用。它在決定進(jìn)步上限方面也至關(guān)重要。新架構(gòu)設(shè)計的引入可以從根本上改變計算量與性能之間的關(guān)系,并使任何現(xiàn)有的 scaling law 變得無關(guān)緊要。
Scaling Law 的局限性
巴菲特曾說過一句話:「別問理發(fā)師你需不需要理發(fā)。」同樣的道理,也別去問計算機(jī)科學(xué)家或經(jīng)濟(jì)學(xué)家能不能預(yù)測未來。人們往往會被「我能預(yù)測」的誘惑牽著走,而忽視了對預(yù)測邊界應(yīng)有的謙遜。關(guān)于模型規(guī)模與性能關(guān)系的 scaling law 正是這種自信膨脹的體現(xiàn)。它試圖用算力規(guī)模去推斷預(yù)訓(xùn)練損失的變化,或預(yù)測下游能力如何隨規(guī)模出現(xiàn),但現(xiàn)實(shí)遠(yuǎn)比公式復(fù)雜。
Scaling Law 之所以流行,很大程度上源于人們過度相信算力是推動進(jìn)步的核心變量。它逐漸成了一個萬能說法,被用來為巨額投資甚至政策決策背書。其吸引力也不難理解,如果能力真的能隨算力精確預(yù)測,資本配置就會顯得異常清晰。但問題在于,我們幾乎從未準(zhǔn)確預(yù)測過性能究竟會提升多少,這讓「算力投入的回報率」在科學(xué)上難以站得住腳。
更關(guān)鍵的是,Scaling Law 真正被反復(fù)驗(yàn)證的,只是對預(yù)訓(xùn)練測試損失的預(yù)測,也就是模型補(bǔ)全文本的能力。一旦換成真實(shí)的下游任務(wù)表現(xiàn),結(jié)果往往混亂且不一致。所謂的「涌現(xiàn)能力」,常被用來解釋這種落差,看似是能力突然出現(xiàn),實(shí)際上等于承認(rèn) Scaling Law 并不能告訴我們未來會發(fā)生什么。即便只預(yù)測測試損失,在數(shù)據(jù)分布假設(shè)略有變化時,結(jié)果的可復(fù)現(xiàn)性也會出現(xiàn)問題。越來越多研究發(fā)現(xiàn),許多能力的提升曲線并不平滑,甚至根本不符合冪律。
對于需要向未來外推的復(fù)雜系統(tǒng)來說,小誤差會不斷累積,而樣本數(shù)量又極其有限。每一個數(shù)據(jù)點(diǎn)都是一整個模型,高昂的計算成本意味著很多 scaling 結(jié)論建立在不到百個樣本之上,統(tǒng)計支撐本身就很脆弱。因此,不同領(lǐng)域中 Scaling Law 的可靠性差異巨大。比如代碼生成在極大算力跨度內(nèi)表現(xiàn)出相對穩(wěn)定的冪律關(guān)系,而其他能力則顯得更加不可預(yù)測。
在架構(gòu)、優(yōu)化方法和數(shù)據(jù)質(zhì)量保持不變的短期受控環(huán)境下,Scaling Law 對規(guī)劃訓(xùn)練規(guī)模仍有一定價值。但一旦拉長時間尺度,它們就很難經(jīng)得起檢驗(yàn)。Scaling Law 的頻繁失效提醒我們,單純堆算力并不是一條直線式的進(jìn)步路徑。那些過度依賴 Scaling Law 的前沿 AI 公司,可能正在低估其他創(chuàng)新方向的價值,而真正的突破,往往正藏在這些被忽視的地方。
未來前進(jìn)方向
在計算機(jī)科學(xué)中,我們長期把算力當(dāng)成銀彈。
但現(xiàn)實(shí)正在發(fā)生分化。一方面,至少在短期內(nèi),人們?nèi)詴^續(xù)把模型做得更大,試圖從逐漸老化的架構(gòu)中榨取最后的性能;另一方面,算力與性能之間的關(guān)系卻越來越緊繃,也越來越難以預(yù)測。單純依賴算力,正在變成一條不穩(wěn)定的道路。
真正有可能引領(lǐng)下一輪創(chuàng)新的前沿實(shí)驗(yàn)室,不會把賭注只壓在算力上。更有價值的進(jìn)展,來自對優(yōu)化空間的根本性重塑,也就是范式層面的轉(zhuǎn)變。與以往不同的是,計算機(jī)科學(xué)家如今需要同時優(yōu)化的「工具箱」大幅擴(kuò)展,這不僅會決定他們把時間花在哪里,也會影響「發(fā)現(xiàn)」本身是如何發(fā)生的。
新的優(yōu)化空間
如今,越來越多的計算并不是花在訓(xùn)練階段,而是花在訓(xùn)練之外、推理之中。過去,模型性能的提升幾乎等同于更多數(shù)據(jù)、更長訓(xùn)練或更大參數(shù)規(guī)模,而現(xiàn)在,一個明顯的轉(zhuǎn)向正在發(fā)生:通過在推理時投入更多算力,用搜索、工具調(diào)用、多智能體協(xié)作或自適應(yīng)計算來提升表現(xiàn),而不必改動模型本身。更重要的是,這些方法大多不依賴梯度更新,徹底偏離了過去三十年以訓(xùn)練為中心的進(jìn)步路徑。已有研究表明,僅靠推理階段的計算放大,就可能帶來數(shù)倍甚至一個數(shù)量級的性能提升,而所需算力遠(yuǎn)低于重新預(yù)訓(xùn)練的成本。
![]()
與此同時,數(shù)據(jù)也不再是不可觸碰的「靜態(tài)背景」。長期以來,高質(zhì)量標(biāo)注數(shù)據(jù)稀缺且昂貴,訓(xùn)練集往往被視為對世界的固定快照,從 MNIST、ImageNet 到 SQuAD,AI 的進(jìn)步建立在這些凍結(jié)的數(shù)據(jù)之上。但現(xiàn)實(shí)使用中,模型最擅長的始終是訓(xùn)練分布,而推理時真正重要的場景卻常常數(shù)據(jù)不足,訓(xùn)練與使用之間由此產(chǎn)生結(jié)構(gòu)性錯位。隨著合成數(shù)據(jù)成本大幅下降,數(shù)據(jù)空間本身開始變得可塑,我們可以有意識地生成、引導(dǎo)和放大那些原本稀少卻關(guān)鍵的分布區(qū)域,這也動搖了機(jī)器學(xué)習(xí)中關(guān)于 IID 樣本的基礎(chǔ)假設(shè)。
最后,智能系統(tǒng)的核心正在從「更強(qiáng)的模型」轉(zhuǎn)向「更會與世界互動的系統(tǒng)」。算法本身不再是全部,交互方式、界面設(shè)計以及多組件系統(tǒng)的協(xié)同,正在成為決定智能上限的重要因素。曾經(jīng)屬于 UX 或人機(jī)交互的小眾問題,正在走到計算機(jī)科學(xué)研究的正中央。
只要還用 Transformer,scaling 就會變得沒有意義
在以 Transformer 為核心架構(gòu)的前提下,只要我們?nèi)跃窒抻?Transformer 這種架構(gòu),繼續(xù)擴(kuò)大計算規(guī)模就沒有意義。現(xiàn)有架構(gòu)已經(jīng)明顯出現(xiàn)邊際收益遞減,再投入算力也難以換來成比例的進(jìn)步。深度神經(jīng)網(wǎng)絡(luò)主導(dǎo)了過去十年的發(fā)展,但越來越多跡象表明,下一次真正的躍遷需要一種全新的架構(gòu)。隨著模型開始持續(xù)與世界互動,如何避免災(zāi)難性遺忘成為關(guān)鍵挑戰(zhàn),而依賴全局參數(shù)更新的深度網(wǎng)絡(luò),在持續(xù)學(xué)習(xí)和知識分化上先天受限,很難像大腦那樣形成相對獨(dú)立、可專門化的知識區(qū)域。
與此同時,訓(xùn)練算力「scaling 退潮」并不等于 AI 的環(huán)境影響會隨之減輕。需要區(qū)分的是,算力與性能關(guān)系的變化,并不等同于整個 AI 系統(tǒng)的計算開銷下降。即便模型本身變得更小、更高效,AI 也會被部署到越來越多的場景中。真正的能耗大頭,往往不在訓(xùn)練,而在模型上線后的生產(chǎn)化與大規(guī)模服務(wù)階段。當(dāng)數(shù)十億用戶同時使用 AI 時,即使單個模型更輕量,總體能耗仍可能持續(xù)上升,這依然是一個不容忽視的現(xiàn)實(shí)問題。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.