全文 3,000字 | 閱讀約 8 分鐘
![]()
(Jeff Dean與Geoffrey Hinton爐邊對話精彩片段)
2025 年 12 月初,圣地亞哥 NeurIPS 大會。
Geoffrey Hinton(神經網絡奠基人、2024年諾貝爾物理學獎得主)與Jeff Dean(Google首席科學家、Gemini模型聯合負責人、TPU架構師)的爐邊對談,成為這場大會的重要時刻。
對話聚焦一個關鍵問題:
現代 AI 為什么能從實驗室走向數十億用戶?
從 AlexNet 在學生臥室的兩塊 GPU 上訓練,到 Google 在餐巾紙上算出TPU需求;從學術圈的小眾實驗,到支撐全球億級應用的基礎設施。
這是一次對 AI 工業化進程的系統性復盤。
他們給出的答案是:現代 AI 的突破從來不是單點奇跡,而是算法、硬件、工程同時成熟后的系統性涌現。強算法必須與強基礎設施結合,才能真正走向規模化。
沿著時間線,我們梳理三個關鍵階段:
起點突破:硬件如何讓 AI 從想法變成現實
系統成熟:算法、組織、工具如何協同推進
未來門檻:規模化之后要突破的三道關卡
看清這條路徑,你就能理解AI為什么是今天這個樣子。
第一節|AI的突破,起于一塊GPU板
Geoffrey Hinton 說,現代 AI 真正的轉折,不在某篇論文里,而是在他學生 Alex 的臥室里:兩塊 NVIDIA GPU 板,插在父母家電腦上,訓練圖像識別模型。電費,還是家里人掏的。
那是 2012年 ,ImageNet 比賽。
別人用的是手工特征提取,他和學生團隊用的是深度神經網絡。參數比別人多十倍,算力也超出好幾倍,準確率遠超對手。AlexNet 由此奠定了深度學習的地位。
而這場勝利證明了一件事:沒有足夠算力,什么結構都只是想象。
Jeff Dean 的回憶更早:1990 年他還在做本科論文,就開始琢磨怎么用并行算法訓練神經網絡。他做了兩個方向,一個現在叫數據并行,一個叫模型并行,但當時沒人用這些詞。他用的是一臺 32 處理器的超立方體計算機。
問題是:他分了 32 份算力,卻只用了 10 個神經元。
“我犯了個很大的錯誤。”
這次失敗的經驗,讓他在二十多年后設計TPU 時,從一開始就考慮如何讓算力和模型規模真正匹配。
二十多年后,類似的算力問題再次出現,但這次是在推理端。
2013 年,Jeff Dean 在餐巾紙做了一次計算:如果未來全球有 1 億人每天用語音助手,每人說 3 分鐘話,要用現在的模型上線,僅這一個應用就需要讓谷歌的服務器總量翻倍。
這是真實的物理成本。
他沒有等預算開會。他攔下了谷歌當時的 CFO Patrick Pichette,說:我們得自己造硬件,現在就要。
TPU 項目就此啟動。2015 年,第一代 TPU 專注于推理,而非訓練。它比同期 CPU 和 GPU 的推理能效高出 30-80 倍。直到 2017 年的 TPU v2,Google 才開始在自研硬件上大規模訓練模型。
這是一條垂直整合的路線。十年之后,TPU 已經進化到第七代。Pathways系統讓一個Python進程能統一調度分布在跨城市數據中心的數萬顆TPU芯片,就像操作一臺超大型計算機。
與此同時,NVIDIA GPU 路線也在持續演進。
從 AlexNet 的兩塊 GPU 板卡,到 2023 年的 H100、2024年的 H200,以及2025年開始交付的 B200,NVIDIA GPU 仍然支撐著 OpenAI、Meta 等公司的大規模訓練。值得注意的是,AI 基礎設施已經呈現多元化:Anthropic 在 AWS 的Trainium 芯片和 Google TPU 之間分配訓練任務,各家都在尋找最適合自己的路線。。
兩條路線各有優勢:
NVIDIA GPU生態開放、適配性強,讓創業者和研究者都能用上 AI 算力;
定制芯片如TPU、Trainium則為特定需求深度優化,在能效和成本上有獨特價值。
從臥室里的兩塊 GPU 板,到遍布全球的 AI 算力網絡,AI 的突破第一步不是理解語言,也不是創造內容,而是擁有足夠算力完成訓練。
第二節|從 AlexNet 到 Gemini,三條曲線如何交匯
現代 AI 能大規模應用,不是靠某一個天才靈感,而是三條技術曲線在 2017-2023 年間密集交匯:
1、算法架構找到了可擴展的形態
從AlexNet 到Transformer,核心變化不是更聰明,而是更易規模化。
卷積神經網絡擅長圖像,但參數量和層數成正比,很難做大;
循環神經網絡能處理序列,但必須一個字一個字處理,算不快。
Transformer 的突破在于:它把順序處理變成了并行處理。所有token同時計算,既快,又能充分利用GPU/TPU的并行能力。
在 Jeff Dean 看來,同樣的準確率,Transformer 用的計算量可以比LSTM少10-100倍。這不是小優化,而是讓大規模訓練從理論可能變成“工程可行”。
Geoffrey Hinton 起初并不看好。他覺得這種“保存所有狀態”的設計不像大腦。
但他后來意識到:不用管像不像人腦,重要是它真的讓 Scaling law 成立了。
2、組織方式從分散變成集中
2022 年 ChatGPT 發布前,Google 內部已經有一個聊天機器人,8萬員工在用。技術上已經可行,為什么沒推向市場?
Jeff Dean說 ,他們被搜索業務的思維限制住了,太過糾結準確性和幻覺問題,反而忘了它可以做很多不是搜索的事情。
更關鍵的問題是:當時Google有三個團隊在各自訓練模型:Brain、Research、DeepMind。每個團隊的算力都不夠大,也各自為戰。ChatGPT 上線一周后,Dean 寫了一頁紙的備忘錄:我們其實早就能做出這個,但我們沒把資源合起來。
Gemini 團隊就此誕生。算力、模型、人才第一次真正集中到一個目標上。
技術突破往往不是技術問題,而是組織問題。
3、工程工具棧形成了閉環
AI 不只是模型,還需要一整套讓它能運行、能調試、能復用的基礎設施:
JAX:讓研究員能用數學語言直接寫代碼
Pathways:讓 2 萬顆 TPU 能被一個Python 進程調度
蒸餾技術:把千億參數模型壓縮到能跑在手機上
這些工具的價值,不只是提升效率,而是降低了AI 的準入門檻。有了 JAX,研究員不需要成為系統工程師;有了 Pathways,不需要手動管理上萬個設備;有了蒸餾,不需要每個應用都依賴云端算力。
為什么是這三條?因為它們形成了一個閉環:
Transformer 讓模型能規模化,但需要更大算力支撐;
更大算力需要組織資源集中,同時催生了更好的工具;
更好的工具提升訓練效率,反過來支撐了更大模型的訓練。
缺任何一條,AI 都不會從實驗室走到 10 億用戶手里。
第三節|能效、記憶、創造:AI規模化后的三道門檻
模型已經能運行起來,也能用在現實中。那接下來要突破什么?
Jeff Dean 和 Hinton在這場對話中,不約而同指出了三個還未解決的方向。這不是更大模型的問題,而是三道看不見的門檻:
01|能效:規模化的物理極限
AI 模型越來越大,帶來的直接后果是越來越貴、越來越耗電。
Gemini的訓練動用了上萬顆 TPU 芯片。每一次模型升級,意味著消耗更多電力、更多時間、更多預算。
Dean 指出,雖然 Google 在2013年就通過自研TPU把推理能效提升了30-80倍,但今天這個問題變得更嚴峻了:要讓 AI 真正普及,不能靠繼續疊加計算,而是要換一種方式訓練和部署。
Google 現在把最常用的模型推理控制在FP4這種超低精度格式上運行。 背后的邏輯很簡單:只要結果對,過程可以模糊。
但這還不夠。Dean 認為下一代推理硬件需要在能效上再提升一個數量級。
02|記憶:上下文的深度限制
現在的模型上下文窗口,最強的也不過幾百萬個token。
Dean 認為:現在的模型理解力,仍然受限于一次能看到多少信息。就像人一次只能翻 5 頁書,AI 也只能看一段、忘一段。
Hinton 也強調,它們還不能真正像人一樣長期記住事物。
想要讓 AI 真正幫助科學研究、復雜決策,必須能一次處理更深、更長的信息,比如整本教科書、整年財報、或一百篇相互關聯的論文。
Dean 的思路是:讓模型能覆蓋數十億甚至萬億個token。這背后的挑戰不是如何算得更快,而是如何讓模型記得更深、理解得更遠。
而要實現這一點,不只是算法層面的優化,芯片本身的注意力計算架構也需要重新設計。
03|創造:從模仿到聯想
Hinton 最關注的是另一個維度:AI 會不會聯想。
他說,人類大腦最厲害的地方,不是記憶,不是推理,而是能把看似無關的東西聯系起來。
“訓練這些大模型,實際上是把海量知識壓進一個相對有限的空間里。你必須找到不同事物之間的共同點,才能壓得進去。”
這意味著,AI 在訓練過程中會自動學到很多人類沒意識到的類比。
Hinton 說
“也許某個模型發現了希臘文學和量子力學之間的共同結構。人類專家可能永遠都不會把它們放在一起看。”
很多人說 AI 只是模仿,不具創造力。
Hinton 不同意:把遙遠的事物聯系起來,本身就是創造。Dean 也認同這一點,并指出這將是 AI 下個階段的關鍵應用方向:讓 AI 在科學研究中發現跨領域的聯系,加速突破的發生。
這三道門檻分別卡在不同層面:能效是物理成本問題,記憶是架構能力問題,創造是認知邊界問題。
但它們不是孤立的:
能效不突破,長上下文訓不起
長上下文做不到,深度聯想沒有基礎
聯想能力不行,AI 就永遠只是個更快的搜索引擎
突破這些門檻,需要的不只是工程優化,更是長周期的技術積累。
Dean 在對話中反復提到一個事實:Google 今天依賴的大部分技術,從互聯網協議到芯片架構,本質上都來自早年的學術研究。深度學習的爆發,不是因為某一天突然有了新想法,而是很多 30 年前沒人重視的研究,一起開始發揮作用。。
AI 的未來不能只靠燒錢建數據中心,同樣需要對基礎研究的持續投入。
結語|不是一瞬間成了,是很多事同時準備好了
從臥室里的 GPU,到谷歌數萬顆 TPU 的算力網絡;從被拒稿的蒸餾論文,到今天壓縮部署的標配;從研究型實驗室,到能服務 10 億用戶的產品。
現代 AI 能成,不靠某個爆點,而是長期對準了幾件關鍵事:算法能落地、算力能支撐、研究環境能留住人。
不是哪個時刻決定一切,而是很多件事情共同推動,讓 AI 真正從想法變成了能用的產品。
Hinton 說,大模型的本質,是在訓練中把海量知識壓進有限空間,而要做到這種壓縮,就得找到看似不相關的事物之間的共同規律。
Dean 則表示,AI 下一步要突破的,不是答案,而是理解的范圍。
真正重要的,不是模型的大小,而是能否把技術突破轉化為人人可用的產品。
識自AI
本文由AI深度研究院出品,內容整理自Jeff Dean與Geoffrey Hinton在NeurIPS 2025的爐邊對話(由Radical Ventures主辦)等網上公開素材,屬評論分析性質。內容為觀點提煉與合理引述,未逐字復制原對話材料。未經授權,不得轉載。
星標公眾號, 點這里 1. 點擊右上角 2. 點擊"設為星標" ← AI深度研究員 ? ← 設為星標
參考資料:
https://www.youtube.com/watch?v=ue9MWfvMylE&t=1483s
https://www.youtube.com/watch?v=9u21oWjI7Xk
https://sdtechscene.org/event/jeff-dean-geoff-hinton-in-conversation-with-jordan-jacobs-of-radical-ventures/
https://www.linkedin.com/posts/radicalventures_the-next-episode-of-radical-talks-drops-this-activity-7406799924111220737-Fph0
https://x.com/JeffDean/status/1997125635626639556?referrer=grok-com
來源:官方媒體/網絡新聞
排版:Atlas
編輯:深思
主編: 圖靈
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.