<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      前谷歌研究員發(fā)文:算力崇拜時代該結(jié)束了

      0
      分享至



      機(jī)器之心編輯部

      過去十年,我們幾乎把 AI 領(lǐng)域的創(chuàng)新簡化成一條公式:更多參數(shù)、更多數(shù)據(jù)、更多算力。可未來的突破,是否仍然只能從訓(xùn)練算力中產(chǎn)生,其實(shí)并不清楚。

      這個問題之所以重要,是因?yàn)椤杆懔︱?qū)動進(jìn)步」的信念,已經(jīng)深刻改變了整個領(lǐng)域的研究文化。學(xué)術(shù)界因缺乏算力逐漸被邊緣化,研究參與在地域上高度集中;巨額資本投入也讓原本開放的發(fā)表傳統(tǒng)變得愈發(fā)封閉。

      在過去的一段時間,前谷歌大腦研究員、Cohere 前 AI 研究負(fù)責(zé)人 Sara Hooker 一直在呼吁大家重視這個問題。最近,她還把自己之前的演講內(nèi)容寫成了文章。



      • 文章標(biāo)題:On the slow death of scaling.
      • 文章鏈接:https://papers.ssrn.com/sol3/papers.cfm?abstract_id=5877662

      文章中提到,對于深度神經(jīng)網(wǎng)絡(luò)而言,持續(xù)擴(kuò)展訓(xùn)練計算資源效率極低。我們花費(fèi)大量資源來學(xué)習(xí)那些低頻特征的長尾部分,而所有跡象都表明,我們正處于收益遞減的時期。在模型規(guī)模不再逐年翻倍的世界里,模型如何從環(huán)境中學(xué)習(xí)并有效地從新知識中適應(yīng),就顯得尤為重要。在文章中,她探討了一些未來有價值的方向。

      以下是文章內(nèi)容節(jié)選。

      一個不容忽視的趨勢:小模型的崛起

      聲稱 scaling 正在走向終結(jié),這在許多領(lǐng)域都存在爭議。因?yàn)檫^去十年的所有證據(jù)都表明,擴(kuò)展計算能力能夠解鎖更大的模型規(guī)模或數(shù)據(jù)集。增加計算能力也恰好符合行業(yè)季度規(guī)劃的節(jié)奏,相比提出一種替代的優(yōu)化技術(shù),提議訓(xùn)練更大的模型風(fēng)險更小。

      但僅僅依靠計算資源會忽略規(guī)模與性能之間的關(guān)系正在發(fā)生的一個關(guān)鍵轉(zhuǎn)變。更大的模型并不總能帶來更好的性能。最近幾年出現(xiàn)了很多大模型被規(guī)模小得多的小模型超越的案例。如下圖 3b 所示,隨著時間推移,這類小模型數(shù)量激增。



      要理解為什么會出現(xiàn)這種情況,我們必須弄清楚在過去十年中,哪些關(guān)鍵變量一直在推動性能的提升。在計算資源回報遞減的時代,優(yōu)化和架構(gòu)上的突破決定了單位計算資源的回報率。而正是這種回報率,對發(fā)展速度以及額外計算資源所帶來的風(fēng)險水平最為關(guān)鍵。



      哪些因素會影響算力回報率?

      在復(fù)雜系統(tǒng)中,孤立地操控一個變量并預(yù)見所有影響是極具挑戰(zhàn)性的,人們對計算量的推崇也是如此。

      增大模型規(guī)模正面臨收益遞減

      過去十年,模型參數(shù)量從早期 Inception 的 2300 萬暴增至 Qwen3-235B 的 2350 億。盡管更大模型確實(shí)帶來了性能提升,但額外的參數(shù)數(shù)量與泛化能力之間的關(guān)系仍不清楚。

      令人困惑的是:訓(xùn)練結(jié)束后,我們可以刪除大部分權(quán)重而幾乎不損失性能;但若一開始就不啟用這些權(quán)重,則無法達(dá)到相同效果。研究發(fā)現(xiàn),僅用一小部分權(quán)重就能預(yù)測網(wǎng)絡(luò)中 95% 的權(quán)重,說明存在大量冗余。這可能反映的是深度學(xué)習(xí)技術(shù)本身的低效 —— 如果有更好的學(xué)習(xí)方法,我們可能根本不需要這么大的網(wǎng)絡(luò)。

      增大模型規(guī)模是學(xué)習(xí)長尾分布的一種成本極高的方式。深度神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)效率極低。它們能快速學(xué)會常見特征,卻需要大量算力和時間來學(xué)習(xí)罕見特征。這是因?yàn)橛?xùn)練基于平均誤差最小化,所有樣本被同等對待,導(dǎo)致低頻特征的信號在批量更新中被稀釋。而現(xiàn)實(shí)世界中,大多數(shù)屬性恰恰是低頻的 —— 人類智能的獨(dú)特之處正是能高效處理這類長尾數(shù)據(jù)。深度網(wǎng)絡(luò)在這方面最為吃力,訓(xùn)練的大部分算力都被消耗在以極高代價記憶長尾數(shù)據(jù)上,如同「搭梯子登月」般低效。

      數(shù)據(jù)質(zhì)量降低了對計算資源的依賴

      在質(zhì)量更高的數(shù)據(jù)上訓(xùn)練的模型不需要那么多計算資源。大量研究表明,改進(jìn)訓(xùn)練語料庫的一些工作,包括去重、數(shù)據(jù)修剪或數(shù)據(jù)優(yōu)先級排序,可以彌補(bǔ)模型規(guī)模的不足。這表明,可學(xué)習(xí)參數(shù)的數(shù)量并非提升性能的絕對限制因素;對更高數(shù)據(jù)質(zhì)量的投入能夠減少對更多(計算資源等)的需求。

      新的算法技術(shù)彌補(bǔ)了計算量的不足

      過去幾年的進(jìn)展,既得益于算法的改進(jìn),也得益于計算能力的提升。這包括通過指令微調(diào)擴(kuò)展預(yù)訓(xùn)練,以教會模型遵循指令;利用更大、性能更強(qiáng)的「教師」模型生成的合成數(shù)據(jù)進(jìn)行模型蒸餾,來訓(xùn)練能力強(qiáng)、規(guī)模小的「學(xué)生」模型;思維鏈推理;增加上下文長度;檢索增強(qiáng)生成;以及通過偏好訓(xùn)練使模型與人類反饋保持一致等。

      所有這些技術(shù)都彌補(bǔ)了對大量權(quán)重或昂貴的長時間訓(xùn)練的需求。在所有條件相同的情況下,與未使用這些優(yōu)化技巧且在相同計算量下訓(xùn)練的模型相比,這些技術(shù)已被證明能顯著提升模型性能。我們正用相同數(shù)量的資源做著多得多的事情。

      架構(gòu)在決定可擴(kuò)展性方面起著重要作用

      架構(gòu)在確定單位計算量下的整體性能回報率方面起著巨大作用。它在決定進(jìn)步上限方面也至關(guān)重要。新架構(gòu)設(shè)計的引入可以從根本上改變計算量與性能之間的關(guān)系,并使任何現(xiàn)有的 scaling law 變得無關(guān)緊要。

      Scaling Law 的局限性

      巴菲特曾說過一句話:「別問理發(fā)師你需不需要理發(fā)。」同樣的道理,也別去問計算機(jī)科學(xué)家或經(jīng)濟(jì)學(xué)家能不能預(yù)測未來。人們往往會被「我能預(yù)測」的誘惑牽著走,而忽視了對預(yù)測邊界應(yīng)有的謙遜。關(guān)于模型規(guī)模與性能關(guān)系的 scaling law 正是這種自信膨脹的體現(xiàn)。它試圖用算力規(guī)模去推斷預(yù)訓(xùn)練損失的變化,或預(yù)測下游能力如何隨規(guī)模出現(xiàn),但現(xiàn)實(shí)遠(yuǎn)比公式復(fù)雜。

      Scaling Law 之所以流行,很大程度上源于人們過度相信算力是推動進(jìn)步的核心變量。它逐漸成了一個萬能說法,被用來為巨額投資甚至政策決策背書。其吸引力也不難理解,如果能力真的能隨算力精確預(yù)測,資本配置就會顯得異常清晰。但問題在于,我們幾乎從未準(zhǔn)確預(yù)測過性能究竟會提升多少,這讓「算力投入的回報率」在科學(xué)上難以站得住腳。

      更關(guān)鍵的是,Scaling Law 真正被反復(fù)驗(yàn)證的,只是對預(yù)訓(xùn)練測試損失的預(yù)測,也就是模型補(bǔ)全文本的能力。一旦換成真實(shí)的下游任務(wù)表現(xiàn),結(jié)果往往混亂且不一致。所謂的「涌現(xiàn)能力」,常被用來解釋這種落差,看似是能力突然出現(xiàn),實(shí)際上等于承認(rèn) Scaling Law 并不能告訴我們未來會發(fā)生什么。即便只預(yù)測測試損失,在數(shù)據(jù)分布假設(shè)略有變化時,結(jié)果的可復(fù)現(xiàn)性也會出現(xiàn)問題。越來越多研究發(fā)現(xiàn),許多能力的提升曲線并不平滑,甚至根本不符合冪律。

      對于需要向未來外推的復(fù)雜系統(tǒng)來說,小誤差會不斷累積,而樣本數(shù)量又極其有限。每一個數(shù)據(jù)點(diǎn)都是一整個模型,高昂的計算成本意味著很多 scaling 結(jié)論建立在不到百個樣本之上,統(tǒng)計支撐本身就很脆弱。因此,不同領(lǐng)域中 Scaling Law 的可靠性差異巨大。比如代碼生成在極大算力跨度內(nèi)表現(xiàn)出相對穩(wěn)定的冪律關(guān)系,而其他能力則顯得更加不可預(yù)測。

      在架構(gòu)、優(yōu)化方法和數(shù)據(jù)質(zhì)量保持不變的短期受控環(huán)境下,Scaling Law 對規(guī)劃訓(xùn)練規(guī)模仍有一定價值。但一旦拉長時間尺度,它們就很難經(jīng)得起檢驗(yàn)。Scaling Law 的頻繁失效提醒我們,單純堆算力并不是一條直線式的進(jìn)步路徑。那些過度依賴 Scaling Law 的前沿 AI 公司,可能正在低估其他創(chuàng)新方向的價值,而真正的突破,往往正藏在這些被忽視的地方。

      未來前進(jìn)方向

      在計算機(jī)科學(xué)中,我們長期把算力當(dāng)成銀彈。

      但現(xiàn)實(shí)正在發(fā)生分化。一方面,至少在短期內(nèi),人們?nèi)詴^續(xù)把模型做得更大,試圖從逐漸老化的架構(gòu)中榨取最后的性能;另一方面,算力與性能之間的關(guān)系卻越來越緊繃,也越來越難以預(yù)測。單純依賴算力,正在變成一條不穩(wěn)定的道路。

      真正有可能引領(lǐng)下一輪創(chuàng)新的前沿實(shí)驗(yàn)室,不會把賭注只壓在算力上。更有價值的進(jìn)展,來自對優(yōu)化空間的根本性重塑,也就是范式層面的轉(zhuǎn)變。與以往不同的是,計算機(jī)科學(xué)家如今需要同時優(yōu)化的「工具箱」大幅擴(kuò)展,這不僅會決定他們把時間花在哪里,也會影響「發(fā)現(xiàn)」本身是如何發(fā)生的。

      新的優(yōu)化空間

      如今,越來越多的計算并不是花在訓(xùn)練階段,而是花在訓(xùn)練之外、推理之中。過去,模型性能的提升幾乎等同于更多數(shù)據(jù)、更長訓(xùn)練或更大參數(shù)規(guī)模,而現(xiàn)在,一個明顯的轉(zhuǎn)向正在發(fā)生:通過在推理時投入更多算力,用搜索、工具調(diào)用、多智能體協(xié)作或自適應(yīng)計算來提升表現(xiàn),而不必改動模型本身。更重要的是,這些方法大多不依賴梯度更新,徹底偏離了過去三十年以訓(xùn)練為中心的進(jìn)步路徑。已有研究表明,僅靠推理階段的計算放大,就可能帶來數(shù)倍甚至一個數(shù)量級的性能提升,而所需算力遠(yuǎn)低于重新預(yù)訓(xùn)練的成本。



      與此同時,數(shù)據(jù)也不再是不可觸碰的「靜態(tài)背景」。長期以來,高質(zhì)量標(biāo)注數(shù)據(jù)稀缺且昂貴,訓(xùn)練集往往被視為對世界的固定快照,從 MNIST、ImageNet 到 SQuAD,AI 的進(jìn)步建立在這些凍結(jié)的數(shù)據(jù)之上。但現(xiàn)實(shí)使用中,模型最擅長的始終是訓(xùn)練分布,而推理時真正重要的場景卻常常數(shù)據(jù)不足,訓(xùn)練與使用之間由此產(chǎn)生結(jié)構(gòu)性錯位。隨著合成數(shù)據(jù)成本大幅下降,數(shù)據(jù)空間本身開始變得可塑,我們可以有意識地生成、引導(dǎo)和放大那些原本稀少卻關(guān)鍵的分布區(qū)域,這也動搖了機(jī)器學(xué)習(xí)中關(guān)于 IID 樣本的基礎(chǔ)假設(shè)。

      最后,智能系統(tǒng)的核心正在從「更強(qiáng)的模型」轉(zhuǎn)向「更會與世界互動的系統(tǒng)」。算法本身不再是全部,交互方式、界面設(shè)計以及多組件系統(tǒng)的協(xié)同,正在成為決定智能上限的重要因素。曾經(jīng)屬于 UX 或人機(jī)交互的小眾問題,正在走到計算機(jī)科學(xué)研究的正中央。

      只要還用 Transformer,scaling 就會變得沒有意義

      在以 Transformer 為核心架構(gòu)的前提下,只要我們?nèi)跃窒抻?Transformer 這種架構(gòu),繼續(xù)擴(kuò)大計算規(guī)模就沒有意義。現(xiàn)有架構(gòu)已經(jīng)明顯出現(xiàn)邊際收益遞減,再投入算力也難以換來成比例的進(jìn)步。深度神經(jīng)網(wǎng)絡(luò)主導(dǎo)了過去十年的發(fā)展,但越來越多跡象表明,下一次真正的躍遷需要一種全新的架構(gòu)。隨著模型開始持續(xù)與世界互動,如何避免災(zāi)難性遺忘成為關(guān)鍵挑戰(zhàn),而依賴全局參數(shù)更新的深度網(wǎng)絡(luò),在持續(xù)學(xué)習(xí)和知識分化上先天受限,很難像大腦那樣形成相對獨(dú)立、可專門化的知識區(qū)域。

      與此同時,訓(xùn)練算力「scaling 退潮」并不等于 AI 的環(huán)境影響會隨之減輕。需要區(qū)分的是,算力與性能關(guān)系的變化,并不等同于整個 AI 系統(tǒng)的計算開銷下降。即便模型本身變得更小、更高效,AI 也會被部署到越來越多的場景中。真正的能耗大頭,往往不在訓(xùn)練,而在模型上線后的生產(chǎn)化與大規(guī)模服務(wù)階段。當(dāng)數(shù)十億用戶同時使用 AI 時,即使單個模型更輕量,總體能耗仍可能持續(xù)上升,這依然是一個不容忽視的現(xiàn)實(shí)問題。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      有哪些說話給人下套的例子?網(wǎng)友:偏僻叫不到代駕,都給安排明白

      有哪些說話給人下套的例子?網(wǎng)友:偏僻叫不到代駕,都給安排明白

      夜深愛雜談
      2026-01-21 20:01:54
      未來兩周觸底反彈!3大生肖喜事臨門,貴人相助,好日子開始

      未來兩周觸底反彈!3大生肖喜事臨門,貴人相助,好日子開始

      人閒情事
      2026-01-22 12:21:54
      徐州市委書記回應(yīng)“為何不急著官宣萬億”

      徐州市委書記回應(yīng)“為何不急著官宣萬億”

      極目新聞
      2026-01-21 21:29:39
      《楚喬傳2》林更新從冰湖出來變成了李昀銳,兩個人差距太大了!

      《楚喬傳2》林更新從冰湖出來變成了李昀銳,兩個人差距太大了!

      小娛樂悠悠
      2026-01-21 11:01:51
      開始行動!勇士拉動三方交易,想吃回頭草帶回狀元?但科爾或離隊(duì)

      開始行動!勇士拉動三方交易,想吃回頭草帶回狀元?但科爾或離隊(duì)

      你的籃球頻道
      2026-01-22 08:38:07
      武統(tǒng)、和統(tǒng)都沒戲了?臺軍事專家:中國大陸已經(jīng)在走第三條路

      武統(tǒng)、和統(tǒng)都沒戲了?臺軍事專家:中國大陸已經(jīng)在走第三條路

      近史博覽
      2026-01-18 16:23:54
      第7艘!中國香港油輪突發(fā)被美軍扣押,對華海上封鎖預(yù)演已經(jīng)打響

      第7艘!中國香港油輪突發(fā)被美軍扣押,對華海上封鎖預(yù)演已經(jīng)打響

      阿傖說事
      2026-01-22 11:20:54
      中美默契淋漓盡致,中方拒絕日本入常,特朗普一句話直戳高市痛點(diǎn)

      中美默契淋漓盡致,中方拒絕日本入常,特朗普一句話直戳高市痛點(diǎn)

      史料布籍
      2026-01-22 12:41:48
      貝森特放狠話:無懼美債遭拋售,“丹麥本身都無足輕重”

      貝森特放狠話:無懼美債遭拋售,“丹麥本身都無足輕重”

      財聯(lián)社
      2026-01-21 18:10:41
      美媒很感慨:要不是中國還在反抗特朗普,幾乎全世界都向他投降了

      美媒很感慨:要不是中國還在反抗特朗普,幾乎全世界都向他投降了

      南宗歷史
      2026-01-21 11:21:54
      王勵勤出手了!國乒大洗牌重點(diǎn)培養(yǎng)5位選手 孫穎莎王楚欽陷入兩難

      王勵勤出手了!國乒大洗牌重點(diǎn)培養(yǎng)5位選手 孫穎莎王楚欽陷入兩難

      做一個合格的吃瓜群眾
      2026-01-17 16:38:59
      梁洛施罕見談離開李澤楷原因:他很富有,是一生摯愛,也不后悔

      梁洛施罕見談離開李澤楷原因:他很富有,是一生摯愛,也不后悔

      阿代說事
      2026-01-21 16:09:15
      為何一艘美航母上,都要帶足大量女兵,她們在航母上有什么作用?

      為何一艘美航母上,都要帶足大量女兵,她們在航母上有什么作用?

      大千世界觀
      2025-12-19 21:58:37
      馬克龍涉華表態(tài),中方回應(yīng)

      馬克龍涉華表態(tài),中方回應(yīng)

      環(huán)球時報國際
      2026-01-21 16:20:45
      4-2!亞馬爾缺席,萊萬搶戲,弗里克神換人,巴薩輕取歐冠弱旅

      4-2!亞馬爾缺席,萊萬搶戲,弗里克神換人,巴薩輕取歐冠弱旅

      我的護(hù)球最獨(dú)特
      2026-01-22 06:09:57
      趙露思新劇《戀人》狂刪10集,播出時間曝光!3大隱憂被唱衰

      趙露思新劇《戀人》狂刪10集,播出時間曝光!3大隱憂被唱衰

      一盅情懷
      2026-01-22 13:00:23
      特大地磁暴爆發(fā)!星鏈衛(wèi)星大量墜落地球,空間站航天員該怎么應(yīng)對

      特大地磁暴爆發(fā)!星鏈衛(wèi)星大量墜落地球,空間站航天員該怎么應(yīng)對

      三農(nóng)老歷
      2026-01-22 00:17:52
      “美商務(wù)部長發(fā)表暴論,歐洲央行行長直接離場”

      “美商務(wù)部長發(fā)表暴論,歐洲央行行長直接離場”

      觀察者網(wǎng)
      2026-01-21 22:11:04
      小面罩引爆TikTok市場,一周狂銷80萬,賣家發(fā)財了

      小面罩引爆TikTok市場,一周狂銷80萬,賣家發(fā)財了

      跨境派Pro
      2026-01-19 14:12:10
      新四軍剛沖出日軍包圍圈,旅長卻下令:打回去,日軍人數(shù)不對勁!

      新四軍剛沖出日軍包圍圈,旅長卻下令:打回去,日軍人數(shù)不對勁!

      史之銘
      2026-01-22 06:29:44
      2026-01-22 13:43:00
      機(jī)器之心Pro incentive-icons
      機(jī)器之心Pro
      專業(yè)的人工智能媒體
      12163文章數(shù) 142546關(guān)注度
      往期回顧 全部

      科技要聞

      幾千億只是開胃菜,AI基建還得再砸?guī)兹f億

      頭條要聞

      小伙騎車撞特斯拉后貸款賠1.5萬修車費(fèi) 發(fā)票只開9千元

      頭條要聞

      小伙騎車撞特斯拉后貸款賠1.5萬修車費(fèi) 發(fā)票只開9千元

      體育要聞

      珍妮回應(yīng)爆料:湖人不感激詹姆斯付出絕非事實(shí)

      娛樂要聞

      鐘麗緹土耳其高空落淚 與張倫碩擁吻

      財經(jīng)要聞

      申通快遞創(chuàng)始人被前夫索要股份

      汽車要聞

      今年集中上市 旅行車的春天可能真要來了

      態(tài)度原創(chuàng)

      健康
      手機(jī)
      游戲
      公開課
      軍事航空

      打工人年終總結(jié)!健康通關(guān)=贏麻了

      手機(jī)要聞

      REDMI Pad 2 Pro官宣搭載12000mAh電池:69天超長待機(jī)

      威世智竊喜?萬智牌新卡包混入3月預(yù)定的珍稀卡

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      特朗普:對美國的真正威脅是聯(lián)合國和北約

      無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 丰满少妇人妻无码专区| 日本高清一区| 欧美劲爆第一页| 国产黄色精品高潮播放| 把插八插露脸对白内射| 亚洲AV成人片不卡无码| 欧美激情肉欲高潮视频| 人妻妺妺窝人体色WWW聚色窝| 人妻第一页| 色哟哟AV| 国产小视频一区二区三区| 天堂中文8资源在线8| 熟女中文字幕| 日韩AV无码中文无码AV| 中文国产成人精品久久不卡| 大屁股肥熟女流白浆| 在线无码| 中文字幕亚洲亚洲精品| 国产精品久久久| 无码视频一区二区三区在线观看| 亚洲韩国精品无码一区二区三区| 久久精品免视看国产成人| 成人免费看黄网站yyy456| 国产精品视频流白浆免费视频| 18禁裸体女免费观看| 成av免费大片黄在线观看| 91乱子伦国产乱子伦www.sz-sd.cn| 色翁荡熄又大又硬又粗又视频| 亚洲色一区二区三区四区| 91精品国产91| 亚洲熟妇久久国产精品| 亚洲av优女天堂熟女| 精品人妻一区二区三区浪潮在线 | 国产AV一区二区三区| 久久国产免费福利永久| 日本熟妇色xxxxx日本免费看| 美女少妇高潮一区二区| 夜夜躁狠狠躁2021| 巩留县| 国产果冻豆传媒麻婆| 精品人妻V|