網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

遙遙無期的AGI是畫大餅嗎？兩位教授「吵起來了」

2025-12-22 14:48:14　來源: 機器之心Pro

北京舉報

分享至

編輯｜冷貓

大模型的通用性和泛化性越來越強大了。

雖說一些新模型，比如說「差評如潮」的 GPT-5.2，在專業(yè)任務和智能水平已經(jīng)達到了非常出色的水平，但離我們所認知的 AGI 依舊十分遙遠。

不過，這也說明了大家對 AGI 仍然充滿熱情和信心，說不定下一款重磅的大模型就能夠初步實現(xiàn) AGI 的構(gòu)想呢？

但是，近期卡耐基梅隆大學教授，AI2 研究科學家 Tim Dettmers發(fā)布了一篇長文博客，標題為《Why AGI Will Not Happen》，認為由于物理原因，我們無法實現(xiàn) AGI，也無法實現(xiàn)任何有意義的超級智能

這篇文章著實給大家對 AGI 的熱情潑上了一盆冰水，引發(fā)了廣泛嘩然。

為什么 AGI 不會發(fā)生

這篇文章涉及到了硬件改進、通用人工智能（AGI）、超級智能、規(guī)模法則、人工智能泡沫以及相關話題。

博客鏈接：https://timdettmers.com/2025/12/10/why-agi-will-not-happen/

計算是物理的

許多思考 AGI、超級智能、縮放定律以及硬件進步的人，往往把這些概念當作抽象理念來看待，像哲學思想實驗一樣加以討論。這一切都建立在對 AI 與規(guī)模化的一個根本性誤解之上：計算是物理的。

要實現(xiàn)高效計算，你需要在兩件事情之間取得平衡：其一，把全局信息移動到局部鄰域；其二，將多份局部信息匯聚起來，把舊信息轉(zhuǎn)化為新信息。雖然局部計算的復雜性幾乎保持恒定 —— 更小的晶體管能夠大大加速這一過程，但移動到局部計算單元的距離呈平方級增長 —— 雖然也受益于更小的晶體管，但由于內(nèi)存訪問模式的平方特性，改進效果很快變得次線性。

有兩個要點需要記住：第一，緩存越大，速度越慢。第二，隨著晶體管尺寸不斷縮小，計算變得越來越便宜，而內(nèi)存在相對意義上卻變得越來越昂貴

如今計算單元在芯片中的占比已經(jīng)微不足道，幾乎所有面積都被用來做內(nèi)存。若在一塊芯片上實現(xiàn) 10 exaflops 的算力，但無法為它提供足夠的內(nèi)存服務，于是這些 FLOPS 就成了「無效算力」。

正因如此，像 Transformer 這樣的 AI 架構(gòu)在本質(zhì)上是物理的。我們的架構(gòu)并非可以隨意構(gòu)思、隨意拋出的抽象想法，而是對信息處理單元進行的物理層面的優(yōu)化。

要有意義地處理信息，你需要做兩件事：一是計算局部關聯(lián)（MLP），二是將更遠處的關聯(lián)匯聚到局部鄰域中（注意力機制）。這是因為，僅靠局部信息只能幫助你區(qū)分高度相近的內(nèi)容，而匯聚遠程信息則能讓你形成更復雜的關聯(lián)，用以對比或補充局部細節(jié)。

Transformer 架構(gòu)以最簡單的方式結(jié)合了局部計算與全局信息匯聚，已經(jīng)非常接近物理最優(yōu)

計算是物理的，這一點對生物系統(tǒng)同樣成立。所有動物的計算能力都受限于其生態(tài)位中可獲得的熱量攝入。若大腦再大，人類將無法繁衍，因為無法提供足夠的能量。這使得我們當前的智能水平成為一個由于能量限制而無法跨越的物理邊界。

我們接近了數(shù)字計算的邊界。

線性進步需要指數(shù)級資源

這里同時存在兩種現(xiàn)實：一種是物理現(xiàn)實，另一種是觀念空間中的現(xiàn)實。

在物理現(xiàn)實中，如果你需要在時間和空間上聚集資源來產(chǎn)生某種結(jié)果，那么出于物流和組織的原因，想要在線性尺度上產(chǎn)出效果，往往就需要線性規(guī)模的資源投入。但由于物理性的限制，這些資源在空間或時間上會產(chǎn)生競爭，使得資源的匯聚速度必然越來越慢。

在觀念空間中，也存在著類似但不那么顯而易見的現(xiàn)象。如果兩個想法彼此完全獨立，它們疊加后的效果可能比任何一個單獨想法大上十倍。但如果這些想法彼此相關，那么由于邊際收益遞減，其總體影響就會受到限制。如果一個想法建立在另一個之上，它所能帶來的改進幅度是有限的。很多時候，只要存在依賴關系，其中一個想法就只是對另一個的細化或打磨。而這種「精修式」的想法，即便極富創(chuàng)造性，也只能帶來漸進式的改進。

當一個領域足夠龐大時，即便你刻意去研究看起來非常不同的思路，它們?nèi)匀慌c既有想法高度相關。比如，狀態(tài)模型和 Transformer 看似是兩種非常不同的注意力機制路線，但它們其實都在解決同一個問題。通過以這種方式改造注意力機制，所能獲得的收益都非常有限。

這種關系在物理學中表現(xiàn)得尤為明顯。曾經(jīng)，物理學的進展可以由個體完成 —— 如今基本不再可能。

觀念空間的核心困境在于：如果你的想法仍然處在同一個子領域中，那么幾乎不可能產(chǎn)生有意義的創(chuàng)新，因為大多數(shù)東西早已被思考過了。因此，理論物理學家實際上只剩下兩條有意義的路可走：要么對現(xiàn)有思想進行漸進式的修補與細化，其結(jié)果是影響微乎其微；要么嘗試打破規(guī)則、提出非傳統(tǒng)的想法，這些想法或許很有趣，但卻很難對物理理論產(chǎn)生明確影響。

實驗物理則直觀地展示了物理層面的限制。為了檢驗越來越基礎的物理定律和基本粒子 —— 也就是標準模型 —— 實驗的成本正變得越來越高。標準模型并不完整，但我們并不知道該如何修補它。大型強子對撞機在更高能量下的實驗，只帶來了更多不確定的結(jié)果，以及對更多理論的否定。盡管我們建造了耗資數(shù)十億美元、日益復雜的實驗裝置，但我們依然不知道暗能量和暗物質(zhì)究竟是什么。

如果你想獲得線性的改進，就必須付出指數(shù)級的資源。

GPU 不再進步了

我看到的最常見誤解之一是：人們默認硬件會一直不斷進步。幾乎所有 AI 的創(chuàng)新，都由 GPU 的效率提升所驅(qū)動。

AlexNet 之所以成為可能，是因為人們開發(fā)了最早的一批 CUDA 實現(xiàn)，使得卷積能夠在多張 GPU 上并行計算。此后的大多數(shù)創(chuàng)新，也主要依賴于更強的 GPU 以及更多 GPU 的使用。幾乎所有人都觀察到了這種模式 ——GPU 變強，AI 性能提升 —— 于是很自然地認為 GPU 還會繼續(xù)變強，并持續(xù)推動 AI 的進步。

實際上，GPU 已經(jīng)不會再有實質(zhì)性的提升了。我們基本已經(jīng)見證了最后一代真正重要的 GPU 改進。GPU 在「性能 / 成本」這一指標上大約在 2018 年左右達到了峰值，此后加入的只是一些很快就會被消耗殆盡的一次性特性。

這些一次性特性包括：16 位精度、Tensor Core（或等價方案）、高帶寬內(nèi)存（HBM）、TMA（或等價機制）、8 位精度、4 位精度。而現(xiàn)在，無論是在物理層面還是在觀念空間中，我們都已經(jīng)走到了盡頭。我在論文中已經(jīng)展示過 k-bit 推理縮放定律：在特定塊大小和計算布局下，哪些數(shù)據(jù)類型是最優(yōu)的。這些結(jié)論已經(jīng)被硬件廠商采納。

任何進一步的改進，都不再是「純收益」，而只會變成權衡：要么用更低的計算效率換取更好的內(nèi)存占用，要么用更高的內(nèi)存占用換取更高的計算吞吐。即便還能繼續(xù)創(chuàng)新 —— 而因為線性進步需要指數(shù)級資源 —— 這些改進也將是微不足道的，無法帶來任何有意義的躍遷。

雖然 GPU 本身已經(jīng)無法再顯著改進，但機架級（rack-level）的優(yōu)化依然至關重要。

高效地搬運 KV cache 是當前 AI 基礎設施中最重要的問題之一。不過，這個問題的現(xiàn)有解決方案其實也相當直接。因為在這個問題上，基本只存在一種最優(yōu)架構(gòu)。實現(xiàn)起來當然復雜，但更多依賴的是清晰的思路，以及大量艱苦、耗時的工程工作，而不是新穎的系統(tǒng)設計。

無論是 OpenAI 還是其他前沿實驗室，在推理和基礎設施棧上都不存在根本性的優(yōu)勢。唯一可能形成優(yōu)勢的方式，是在機架級硬件優(yōu)化或數(shù)據(jù)中心級硬件優(yōu)化上略勝一籌。但這些紅利同樣會很快耗盡 —— 也許是 2026 年，也許是 2027 年。

為什么「規(guī)模化」并不足夠

我相信縮放定律，我也相信規(guī)模化確實能夠提升性能，像 Gemini 這樣的模型顯然是優(yōu)秀的模型。

問題在于：過去，為了獲得線性改進，我們恰好擁有 GPU 指數(shù)級增長這一「對沖因素」，它抵消了規(guī)模化所需的指數(shù)級資源成本。換句話說，以前我們投入大致線性的成本，就能獲得線性的回報；而現(xiàn)在，這已經(jīng)變成了指數(shù)級成本

它意味著一個清晰且迅速逼近的物理極限。我們可能只剩下一年，最多兩年的規(guī)模化空間，因為再往后，改進將變得在物理上不可行。2025 年的規(guī)模化收益并不亮眼；2026 年和 2027 年的規(guī)模化，最好能真正奏效。

盡管成本呈指數(shù)級增長，目前的基礎設施建設在一定程度上仍然是合理的，尤其是在推理需求不斷增長的背景下。但這依然形成了一種非常脆弱的平衡。最大的問題在于：如果規(guī)模化帶來的收益不明顯優(yōu)于研究或軟件層面的創(chuàng)新，那么硬件就會從「資產(chǎn)」變成「負債」。

像 MoonshotAI、Z.ai 這樣的中小型玩家已經(jīng)證明，他們并不需要大量資源就能達到前沿性能。如果這些公司在「超越規(guī)模化」的方向上持續(xù)創(chuàng)新，它們完全有可能做出最好的模型。

規(guī)模化基礎設施面臨的另一個重大威脅在于：目前，大模型推理效率與龐大的用戶基數(shù)高度相關，這源于網(wǎng)絡層面的規(guī)模效應。要實現(xiàn)高效的大模型部署，需要足夠多的 GPU，才能在計算、網(wǎng)絡通信以及 KV-cache 分段之間實現(xiàn)有效重疊。這類部署在技術上極其高效，但必須依賴龐大的用戶規(guī)模才能實現(xiàn)充分利用，從而具備成本優(yōu)勢。這也是為什么開源權重模型至今沒有產(chǎn)生人們預期中的影響 —— 因為大規(guī)模部署的基礎設施成本，要求必須有足夠大的用戶群體。

目前，vLLM 和 SGLang 主要在優(yōu)化大規(guī)模部署，但它們并不能在小規(guī)模場景下提供同樣的效率。如果有一套超越 vLLM / SGLang 的推理棧，人們就可以用與 OpenAI 或 Anthropic 部署前沿模型幾乎相同的效率，來部署一個約 3000 億參數(shù)的模型。一旦較小模型變得更強（我們已經(jīng)在 GLM 4.6 上看到了這一趨勢），或者 AI 應用變得更加垂直和專用，前沿實驗室的基礎設施優(yōu)勢可能會在一夜之間消失。軟件復雜性會迅速蒸發(fā)，而開源、開權重的部署方案，可能在計算效率和信息處理效率上都接近物理最優(yōu)。這對前沿玩家而言，是一個巨大的風險。

在規(guī)模化放緩的背景下，以下三種因素中的任何一個，都可能迅速而顯著地削弱 AI 基礎設施的價值：

（1）研究與軟件層面的創(chuàng)新；

（2）強大的開源權重推理棧；

（3）向其他硬件平臺的遷移。

從當前趨勢來看，這對前沿實驗室并不是一個樂觀的局面。

前沿 AI 路徑與理念

美國和中國在 AI 上采取了兩種截然不同的路徑。美國遵循的是一種「贏家通吃」的思路 —— 誰先構(gòu)建出超級智能，誰就贏了。其核心信念是：把模型做到最大、最強，人自然會來。

中國的理念則不同。他們認為，模型能力本身并沒有應用重要。真正重要的是你如何使用 AI，這個模型是否實用、是否能以合理的成本帶來生產(chǎn)力提升。如果一種新方案比舊方案更高效，它就會被采用；但為了略微更好的效果而進行極端優(yōu)化，往往并不劃算。在絕大多數(shù)情況下，「足夠好」反而能帶來最大的生產(chǎn)力提升。

我認為，美國的這種理念是短視且問題重重的—— 尤其是在模型能力增速放緩的情況下。相比之下，中國的思路更加長期、更加務實。

AI 的核心價值在于：它是否有用，是否提升生產(chǎn)力。正因如此，它才是有益的。就像計算機和互聯(lián)網(wǎng)一樣，AI 顯然會被用到各個角落。這使得 AI 在全社會范圍內(nèi)的經(jīng)濟整合對其有效性至關重要。

AGI 不會發(fā)生，超級智能是一種幻想

我注意到一個反復出現(xiàn)的模式：當你問硅谷的人 AGI 什么時候會到來，他們總會說「再過幾年」，而且會帶來巨大沖擊。但當你進一步問他們 AGI 到底是什么，他們的定義里既不包含任何物理任務，也不考慮資源投入。

真正的 AGI—— 能夠做人類能做的一切 —— 必須具備執(zhí)行物理任務的能力。簡而言之，AGI 必須包括能夠在現(xiàn)實世界中完成具有經(jīng)濟意義工作的實體機器人或機器。

然而，盡管家用機器人或許能幫你把洗碗機里的碗拿出來，但你不會看到它們?nèi)〈S里的專用系統(tǒng)。工廠中的專用機器人效率更高、精度更強。中國已經(jīng)證明，「黑燈工廠」—— 完全自動化的工廠 —— 是可行的。在受控環(huán)境中，大多數(shù)機器人問題其實已經(jīng)被解決。而那些尚未解決的機器人問題，往往在經(jīng)濟上也并不劃算。比如，把 T 恤的袖子縫上去仍是一個未完全解決的機器人問題，但在大多數(shù)情境下，這件事并沒有多大的經(jīng)濟意義。

機器人領域的根本問題在于：學習同樣遵循與語言模型相似的縮放定律。而物理世界的數(shù)據(jù)收集成本極其高昂，且現(xiàn)實世界的細節(jié)復雜到難以處理。

超級智能的根本謬誤

超級智能這一概念建立在一個錯誤前提之上：一旦出現(xiàn)與人類同等甚至更強的智能（即 AGI），這種智能就可以自我改進，從而引發(fā)失控式的爆炸增長。我認為這是一個對整個領域有害的、根本性錯誤的觀念。

其核心問題在于：它把智能視為一種純抽象的東西，而不是扎根于物理現(xiàn)實的系統(tǒng)。要改進任何系統(tǒng)，都需要資源。即便超級智能在利用資源方面比人類高效，它依然受制于我前面提到的縮放規(guī)律 —— 線性改進需要指數(shù)級資源。

因此，所謂超級智能，更像是在填補能力空白，而不是推動能力邊界外擴。填補空白是有用的，但它不會引發(fā)失控式增長，只會帶來漸進式改進

在我看來，任何以「追求超級智能」為主要目標的組織，最終都會遭遇巨大困難，并被那些真正推動 AI 經(jīng)濟擴散的參與者所取代。

是的，AGI 完全能夠發(fā)生

看了 Tim Dettmers 的博客心涼了半截，雖說有理有據(jù)，Dettmers 認為將 AGI 的發(fā)展建立在物理和成本限制的基礎上的觀點自然是正確的，規(guī)模擴大并不是魔法，智能的進化仍需要高昂的成本。

但我總覺得這個觀點有些偏激和悲觀。或許 AGI 并不等同于指數(shù)增加的算力，軟硬件發(fā)展或許仍有空間。

加州大學圣地亞哥分校助理教授 Dan Fu 對于 Dettmers 的博客持反對意見，他認為 Tim Dettmers 的分析遺漏了關于目前效率以及如何充分利用系統(tǒng)的關鍵信息，現(xiàn)在的系統(tǒng)仍有巨大的發(fā)展空間，目前還不存在實際意義上的限制。

這篇博客將論證當今的人工智能系統(tǒng)在軟件和硬件效率方面還有很大的提升空間，并概述幾條前進的道路。并將論證我們目前擁有的人工智能系統(tǒng)已經(jīng)非常實用，即使它們不符合每個人對 AGI 的定義。

博客鏈接：https://danfu.org/notes/agi/

當今的人工智能系統(tǒng)被嚴重低估

Tim 的文章中一個核心論點是：當今的 AI 系統(tǒng)正在接近「數(shù)字計算的極限」。這一論點隱含了兩個前提假設：其一，當下的模型（主要是 Transformer）已經(jīng)極其高效；其二，GPU 的進步正在停滯 —— 因此，我們不應再期待通往 AGI 的進展能夠以同樣的方式繼續(xù)下去。

但如果你更仔細地審視實際的數(shù)據(jù)，就會發(fā)現(xiàn)情況并非如此。我們可以從訓練和推理兩個角度更深入地分析，這將揭示出截然不同的前景和潛在的前進方向。

訓練：當前的訓練效率遠未達到上限

今天最先進模型的訓練效率，其實比它「本可以做到的」要低得多 —— 我們之所以知道這一點，是因為它甚至比幾年前的效率還要低。一個觀察這一問題的方式，是看訓練過程中的 MFU（Mean FLOP Utilization，平均 FLOP 利用率）。這個指標衡量的是計算效率：你到底用了 GPU 理論算力的多少。

舉例來說，DeepSeek-V3 和 Llama-4 的訓練在 FP8 精度下只達到了大約 20% 的 MFU（。相比之下，像 BLOOM 這樣的開源訓練項目，早在 2022 年就已經(jīng)達到了 50% 的 MFU。

這種效率差距主要來自幾個因素，其中一個重要原因是：DeepSeek-V3 和 Llama-4 都是混合專家（MoE）模型。MoE 層在算術強度上不如稠密 GEMM（矩陣乘）—— 它們需要更多權重加載的 I/O、更小規(guī)模的矩陣乘操作，因此更難達到高 FLOP 利用率。結(jié)果就是：相對于計算量，它們需要更多通信。換句話說，當下的模型設計并不是為了在 GPU 上實現(xiàn)最高的訓練 FLOP 利用率。

此外，這些訓練本身也已經(jīng)是在上一代硬件上完成的。Blackwell 架構(gòu)芯片的 FP8 吞吐量是 Hopper 的 2.2 倍，并且還支持原生 FP4 Tensor Core。再加上像 GB200 這樣的機架級方案，以及通過 kernel 設計來實現(xiàn)計算與通信重疊，都可以緩解當前模型中的通信瓶頸。如果我們能實現(xiàn)高效、高質(zhì)量、且 MFU 很高的 FP4 訓練，理論上可用的 FLOPs 將提升到最多 9 倍。

推理：效率問題甚至更嚴重

在推理階段，情況實際上更糟。最優(yōu)化的推理實現(xiàn)（例如 megakernel）甚至不再使用 MFU 作為指標，而是關注 MBU（Maximum Bandwidth Utilization，最大帶寬利用率）。

原因在于：自回歸語言模型的瓶頸通常并不在計算，而在于從 GPU 內(nèi)存（HBM）把權重加載到片上存儲（SRAM / 寄存器 / 張量內(nèi)存）。最頂級的優(yōu)化實現(xiàn)，目標是盡可能隱藏這種延遲，目前大約能做到～70% 的 MBU。

但如果你把視角切換回 MFU，你會發(fā)現(xiàn) FLOP 利用率往往是個位數(shù)（<5%）。

這并不是物理或硬件層面的根本極限。僅僅因為我們最早規(guī)模化的是自回歸架構(gòu)（因此遇到了這些限制），并不意味著它們是唯一可行、也必須用來構(gòu)建通用 AI 的架構(gòu)。這個領域還很新，而我們幾乎可以控制所有變量 —— 無論是軟件（模型架構(gòu)、kernel 設計等），還是硬件。

前進方向：還有大量可挖掘的空間

一旦你真正理解了當前所處的位置，就會發(fā)現(xiàn)有幾條非常清晰的前進路徑，可以讓我們更充分地利用硬件。這些方向并不輕松，但也并非天方夜譚 —— 事實上，每一條路徑上都已經(jīng)有實際進展正在發(fā)生：

1. 訓練高效的架構(gòu)協(xié)同設計（co-design）

設計能更好利用硬件的機器學習架構(gòu)。這方面已經(jīng)有大量優(yōu)秀工作。例如，Simran Arora 關于硬件感知架構(gòu)的研究，以及 Songlin Yang 關于高效注意力機制的工作，它們表明：

Transformer 并非只有一種形態(tài)，很多變體都能保持高質(zhì)量；
我們完全可以設計出在硬件利用率上更高、且能良好擴展的架構(gòu)。

2. 高質(zhì)量、高效率的 FP4 訓練

如果能夠在 FP4 下完成訓練，我們就能獲得 2 倍的可用 FLOPs（推理側(cè)已經(jīng)開始看到 FP4 帶來的加速）。目前已經(jīng)有論文沿著這一方向展開探索，其中包括 Albert Tseng 和 NVIDIA 的一些非常出色的工作。

3. 推理高效的模型設計

如果我們能設計出在推理階段使用更多 FLOPs 的模型架構(gòu)，就有可能顯著提升硬件利用率。這里值得關注的方向包括：

Inception Labs 和 Radical Numerics 的擴散式語言模型（diffusion LMs）；
Ted Zadouri 關于「推理感知注意力機制」的研究。
巨大但尚未被充分利用的算力來源：分布在全國乃至全球的手機和筆記本電腦上的計算資源 —— 能否找到辦法，把這些算力用于推理？

當下的 AI 訓練和推理范式中，仍然存在大量未被利用的余量。上述每一條研究方向，都是在嘗試填補這些空隙，讓我們用更高的硬件利用率訓練出高質(zhì)量模型。

模型是硬件的滯后指標

第二個重要觀點是：模型的發(fā)布與能力水平，本質(zhì)上是已經(jīng)啟動的硬件建設以及新硬件特性的滯后反映。

這一點從第一性原理出發(fā)其實并不難理解 —— 從一個新集群上線，到有人在其上完成預訓練，再到后訓練結(jié)束、模型真正能夠通過 API 被使用，中間必然存在時間滯后。

集群規(guī)模（Cluster Size）

這里我再次以 DeepSeek-V3 為例 —— 我們非常清楚它使用了多少硬件、訓練了多長時間。DeepSeek-V3 的預訓練發(fā)生在 2024 年末，只使用了 2048 張 H800 GPU。即便在一年之后，它依然是開源模型生態(tài)中的重要參與者。

而我們也清楚，今天正在進行的集群建設規(guī)模要大得多：從初創(chuàng)公司部署的 4 萬卡集群，到前沿實驗室正在建設的 10 萬卡以上集群。僅從純粹的集群規(guī)模來看，這意味著高達 50 倍的算力建設正在發(fā)生。

新的硬件特性（New Hardware Features）

我們今天使用的大多數(shù)模型，在某種意義上也都是老模型，因為它們是在上一代硬件上訓練的。而新一代硬件帶來了新的特性，模型需要圍繞這些特性進行（重新）設計。

FP4 訓練，如果可行，是一個非常明確的突破方向；

GB200 的機架級通信域（NVL72 通過高速 NVLink 將 72 張 GPU 連接在一起）也是另一個極其清晰的突破點 —— 它們既能緩解第一點中提到的低 FLOP 利用率問題，也為探索全新的模型設計提供了杠桿。

我們目前仍然處在 Blackwell 硬件周期的非常早期階段。就在最近發(fā)布的 GPT-5.2，是最早一批使用 GB200 訓練的模型之一（盡管它似乎也同時使用了 H100 和 H200）。

此外，還有一些不那么顯眼、但同樣關鍵的硬件改進。一個例子是：在 B200 上，注意力計算是受限的，但瓶頸并不在 Tensor Core，而是在指數(shù)運算上。原因其實很簡單 ——Tensor Core 在代際升級中快了 2.2 倍，但超越函數(shù)單元（transcendental units）的數(shù)量或速度卻沒有同比增長。好消息是，這類問題相對容易解決。B300 將超越函數(shù)單元數(shù)量翻倍，這在一定程度上可以緩解這一瓶頸。

這些硬件改進當然需要工程投入，但再次強調(diào) —— 這并不是什么火箭科學。這里存在大量唾手可得的低垂果實。

前進路徑

在理解了上述背景之后，我們可以給出一些具體且現(xiàn)實的前進方向，來進一步提升驅(qū)動頂級模型的有效算力：

1. 「加速等待」

在很大程度上，我們當前仍然是在觀察那些基于上一代集群預訓練的模型表現(xiàn)。而一些團隊已經(jīng)完成或正在完成新一代超大規(guī)模集群的建設。這很可能只是一個等待模型發(fā)布的階段性問題。

2. 面向硬件的專項優(yōu)化

還有大量工作可以圍繞新一代硬件特性展開：例如我們前面提到的 FP4；再如圍繞完整的機架級通信域來設計模型；或者針對 B200 / B300 上指數(shù)運算瓶頸的特性，對注意力機制進行適配和重構(gòu)。

3. 新硬件與新的算力來源

最后，還有大量新硬件平臺正在涌現(xiàn)，以及配套的軟件棧，使它們能夠被 AI 所使用。如今的新硬件平臺幾乎層出不窮，許多都專注于推理場景，這里我不點名任何具體方案。但只要其中任何一個真正產(chǎn)生重大影響，整個局面都會被徹底改寫。

距離有用的 AGI 到底還有多遠？

最后一個觀點，關注點已經(jīng)不再主要是系統(tǒng)層面或算力層面的 AI，而是 AGI 究竟意味著什么，以及要產(chǎn)生真實、可觀的影響究竟需要什么。

理解這一部分的一個角度是：即便世界上所有系統(tǒng)層面和效率層面的進步都突然停滯，那么距離「有用的、類似 AGI 的能力」真正落地，我們還差多遠？

如果你把 AGI 理解為一種「魔法棒」—— 可以揮一揮就完成地球上任何一個人能做的任何事情 —— 那顯然我們還遠遠沒有到達那個階段。

但如果換一種更務實的定義：一套在某些任務上比大多數(shù)人做得更好、并能產(chǎn)生巨大經(jīng)濟影響的通用工具體系，那我們或許并沒有想象中那么遙遠。

在這里，我認為有必要回頭看看僅僅兩三年前的狀態(tài)。無論是開源模型還是前沿模型，今天所能做到的許多事情，在當時幾乎都像是魔法。就我個人而言，像 Claude Code、Cursor Composer 這樣的工具，已經(jīng)越過了一個關鍵閾值 —— 我寫的大多數(shù)代碼，已經(jīng)是由模型生成的（這篇博客本身我倒還是用「傳統(tǒng)方式」寫的）。

在 GPU 內(nèi)核工程這個領域，大模型帶來的影響，有幾點尤其讓我感到驚訝：

在人類參與的前提下，這些模型已經(jīng)非常擅長編寫 GPU 內(nèi)核代碼。它們還沒到完全零樣本（zero-shot）的程度，但只要提供足夠的上下文和引導，就可以實現(xiàn)跨越棧中多個部分的復雜功能。這本身就是一種極具挑戰(zhàn)性、且在現(xiàn)實中非常稀缺的工程能力，即便對資深程序員來說也是如此。
這些模型在編寫工具鏈和構(gòu)建可視化方面表現(xiàn)極佳，幫助我們理解下一步性能優(yōu)化該往哪里推進 —— 從日志系統(tǒng)，到工作負載模擬，再到性能瓶頸的可視化分析。
即便只在現(xiàn)有能力基礎上小幅前進，也不難想象模型能接管更大比例的技術棧，尤其是在人類參與的控制模式下。事實上，這一代模型已經(jīng)好用得離譜了。

即使假設我們無法獲得任何更高效的新算法或新硬件，我們可能已經(jīng)掌握了一種方法，可以構(gòu)建在特定領域中解決或加速 95% 問題的通用 AI 智能體或模型

至少可以肯定的是，我們已經(jīng)擁有了一整套工具，只要配合合適的數(shù)據(jù)收集方式（例如 RLHF、構(gòu)建強化學習環(huán)境）以及領域?qū)＜抑R，就能被遷移到各種不同問題中。編程之所以最先被攻克，一個很自然的原因是：幾乎所有 AI 研究者都會寫代碼，而它本身又具有極高的經(jīng)濟價值。

當然，這里也正是 AI 研究的「主戰(zhàn)場」。在上述約束條件下，我們?nèi)匀豢梢栽O想多種推進「有用 AI 工具」的方式：

1. 新的后訓練范式（Post-training formulas）

今天我們所說的后訓練，既新也舊 —— 新在具體實踐方式（大規(guī)模 RLHF、構(gòu)建環(huán)境測試模型等），舊在其核心思想本身。市面上之所以會出現(xiàn)諸如 Tinker 以及各種微調(diào) API 平臺，并非偶然。

2. 更好的樣本效率（Sample complexity）

構(gòu)建在更少數(shù)據(jù)、更少樣本下也能學得更好的訓練系統(tǒng)，或者設計更優(yōu)的數(shù)據(jù)篩選算法，以提升樣本效率。總體而言，「以數(shù)據(jù)為中心的 AI（data-centric AI）」這一研究群體，正持續(xù)在改善這一局面。

3. 傳統(tǒng)意義上的「硬功夫」和領域經(jīng)驗

最后，即便我們自縛雙手，假設模型能力完全不再提升 —— 仍然有大量應用場景和垂直領域，今天的 AI 模型就已經(jīng)可以產(chǎn)生巨大影響。即使模型質(zhì)量被凍結(jié)，系統(tǒng)層面的效率改進，也足以讓許多高影響力應用真正落地。

我們?nèi)匀惶幵诶斫夂蜆?gòu)建這項新技術的非常早期階段。從如何將其用于真實世界的影響，到如何讓它更好地為人類服務，還有大量工作要做。這是一個令人興奮的時代。

結(jié)論：通往 AGI 的多條道路

這篇博客的核心觀點是：當前的 AI 系統(tǒng)仍然存在巨大的提升空間，而通往更強 AI 的道路也遠不止一條。只要仔細觀察，你會發(fā)現(xiàn)通向至少一個數(shù)量級（10×）算力提升的具體路徑和研究議程。

回到這篇文章最初的動機：我非常欣賞 Tim 那篇博客的一點在于，它愿意直面從今天走向未來所必須跨越的具體障礙。我們可以共同設計更好地利用現(xiàn)有和未來硬件的新模型，也可以沿著多條路徑推進，構(gòu)建更強、更有用的模型。而將潛在路障如此清晰地攤開討論，本身就為「接下來該做什么、如何去做」提供了一張路線圖。

三點總結(jié)

1. 當前 AI 系統(tǒng)對硬件的利用率極低。通過更好的模型–硬件協(xié)同設計，我們可以實現(xiàn)更高的 FLOP 利用率，獲得更多「有用的 FLOPs」。

2. 當前模型是硬件建設的滯后指標 —— 無論是 GPU 的絕對數(shù)量，還是新硬件特性的利用程度。

3. 即便不依賴系統(tǒng)層面的進一步改進，我們?nèi)匀豢梢酝ㄟ^更好的算法，讓今天的模型在更廣泛的領域中變得極其有用。事實上，今天的模型已經(jīng)非常有價值了。

當然，前方一定會有技術挑戰(zhàn)。但我個人非常歡迎這些挑戰(zhàn)，也期待看到研究者和工程師們接下來會給出怎樣的答案。從事 AI 與系統(tǒng)研究，從未有過比現(xiàn)在更好的時代，也從未如此令人興奮。

完整內(nèi)容，請參閱原始博客。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.