網易首頁 > 網易號 > 正文申請入駐

Jeff Dean萬字訪談：我們正在殺死割裂AI應用，2026是大一統元年

2026-02-18 20:02:25　來源: DeepTech深科技

河南舉報

分享至

谷歌最資深的傳奇人物之一杰夫·迪恩（Jeff Dean）的開年訪談來了。自 1999 年加入谷歌至今，他堪稱是谷歌穩若磐石般的存在，不僅是打下谷歌技術基石的奠基者，也是谷歌 AI 的核心推動者之一。

圖 | 杰夫·迪恩（Jeff Dean）（來源：Google）

從早期的 MapReduce、BigTable 等谷歌基礎設施，到引領深度學習的規模化革命，再到如今主導 Gemini 系列模型的研發，他的技術事業貫穿了谷歌的整個發展歷史。

在 2026 年 2 月的這場開年訪談中，他談到了人類未來可能會擁有自己的個人專屬 Gemini，能在經允許后訪問個人郵件和照片在內的你的所有網絡內容。

他還提到了 AI 能力的演進：“最終肯定個不是 10,000 tokens 的代碼，而是 1,000 tokens 的代碼，背后帶著 9,000 tokens 的推理過程。這實際上可能是更好讀的代碼。”這句話揭示了 AI 發展的新方向之一，那就是讓模型在思考上花費更多時間，而非單純地追求輸出規模。

在這場橫跨硬件、模型與未來預言的深度對話中，Jeff Dean 用他貫穿谷歌四分之一個世紀的技術視野，為我們勾勒出 AI 發展的清晰脈絡。從蒸餾到稀疏，從 TPU 到萬億 tokens 的幻覺，最終指向那個樸素而深刻的真理，未來的代碼或許更短，但藏在背后的思考將更長。

以下為 DeepTech 基于采訪原文做的訪談整理。

訪談全文：

關于帕累托前沿

主持人：能請到你來演播室，感覺有點不太真實。我看過你太多的演講，你的職業生涯堪稱傳奇。我想首先必須得說，恭喜你登上了帕累托前沿。（編者注：帕累托前沿指在資源有限的情況下，無法在不損害另一目標的前提下讓某個目標變得更好。Jeff Dean 團隊在模型性能和效率上都做到了極致，占據了這片前沿地帶。）

Jeff Dean：謝謝。帕累托前沿是個好東西，能站在上面感覺很好。

主持人：我認為這是兩方面的結合。你既要站在能力的前沿，也要兼顧效率，然后提供人們喜歡使用的那個模型系列。這其中的一部分始于你們的硬件工作，一部分是你們的模型工作。我相信你們累積研究了很多秘訣，但看到所有這些匯聚在一起，不斷推動前沿向前發展，真的很令人印象深刻。

Jeff Dean：是的，這不僅僅是單一的一件事。而是整個技術棧從上到下的一整套東西。你知道，所有這些結合在一起，讓我們能夠訓練出能力超強的大模型。同時，也通過軟件技術，將那些大模型的能力提煉到更小、更輕量的模型中，這些模型成本效益更高、延遲更低，但就其規模而言，仍然相當有能力。

主持人：在保持帕累托前沿的底線方面，你們有多大壓力？我認為初創公司總是試圖沖擊最高性能的前沿，因為他們需要籌集更多資金之類的。而你們擁有數十億的用戶。我想，最初你們在打造數據中心時，會考慮到如果每個使用谷歌的人，每天用我們的語音模型三分鐘，那你們需要的算力數量就要翻倍。如今在谷歌內部，這種討論是怎樣的呢？比如，你們如何權衡追求前沿與“如果我們造出來了，就得實際部署它”這二者之間的關系？

Jeff Dean：我認為我們總是希望擁有處于前沿或能夠推動前沿的模型，因為這樣你才能看到，與去年、與六個月前能力稍遜的版本相比，現在出現了哪些以前不存在的新能力。這些前沿模型對很多應用場景會非常有用，但對于其他更廣泛的應用場景來說，它們可能會有點慢，也有點貴。所以，我認為我們想做的，是始終擁有一種能力很強、價格又親民的模型，它能夠支持大量低延遲的應用場景。人們可以更自如地用它來做智能體編程，同時我們也有高端的、處于前沿的模型，它對于深度推理、解決極其復雜的數學問題這類事情非常有用。

并不是說這一個或那一個才有用，它們都有用。所以，我認為我們兩者都要做。蒸餾是讓小型模型能力更強的一個關鍵技術，你必須先有前沿模型，然后才能把它蒸餾到你的小型模型里。所以這不是一個二選一的問題。為了真正獲得一個能力強大但規模適中的模型，你某種程度上需要那個前沿模型。

關于蒸餾

主持人：你和杰弗里·辛頓（Geoffrey Hinton）、還有 Oriol 在 2014 年就提出了這個方案。（編者注：奧里奧爾·維尼亞爾斯（Oriol Vinyals）是 Google DeepMind 的研究副總裁，也是 Gemini 項目的聯合技術負責人。他于 2013 年加入 Google，是序列到序列學習（seq2seq）和知識蒸餾技術的開創者之一。）

Jeff Dean：還有 Andrew 也是。（編者注： Andrew Dai 是谷歌 DeepMind 的資深研究員，2012 年就已加入谷歌。他曾與 Jeff Dean 等人合著多篇論文，并擔任過 Gemini 模型預訓練數據工作的聯合負責人。）

主持人：我很好奇，你怎么看待這些想法的循環周期？比如，稀疏模型也是。你怎么評估它們？在開發下一代模型時，你怎么考慮哪些東西值得重新審視？你研究過那么多想法，它們都很有影響力，但在當時，感覺可能并非如此。

Jeff Dean：我認為蒸餾最初的動機是因為當時我們有一個非常大的圖像數據集，大概三億張圖像，我們可以用來訓練，我記得大概有兩萬個類別，比 ImageNet 大多了。我們當時發現，如果你為這些圖像類別的不同子集創建專家模型，比如這個模型特別擅長識別哺乳動物，那個模型特別擅長識別室內場景之類的，你可以將這些類別聚類，在更廣泛的圖像集上進行預訓練后，再用增強的數據流進行訓練。如果你把訓練好的那幾十個模型當作一個大的集成模型，性能會好很多。

但這對于服務部署來說，不太現實，對吧？所以，蒸餾的想法就來源于：如果我們真想部署這個東西，訓練所有這些獨立的專家模型，然后把它們壓縮成一個實際能部署的形式，該怎么辦？這和我們現在做的也沒什么不同。如今，我們往往不是用 50 個模型的集成，而是有一個規模大得多的模型，然后把它蒸餾成一個規模小得多的模型。

主持人：我有時也在想，蒸餾是否也與強化學習革命有關聯。讓我試著闡述一下我的意思：你可以通過強化學習在分布的某個特定部分提升模型能力。你可以針對模型進行強化，但這通常可能會在其他領域造成損失。這是一種不太均衡的技術，但你也許可以再把它蒸餾回來。我認為，一個普遍的夢想是，能夠在不導致其他任何方面退步的情況下提升能力。這種能力合并而不損失的過程。我感覺，某種程度上，這應該是一個蒸餾過程，但我沒法完全說清楚。我沒看到太多相關的論文。

Jeff Dean：我傾向于認為蒸餾的一個關鍵優勢在于，你可以有一個小得多的模型，同時擁有一個非常大的訓練數據集。你可以從多次遍歷這個數據集中獲得效用，因為你現在從大模型中獲得了 logits，這有助于引導小模型表現出正確的行為，而僅僅使用硬標簽是做不到這一點的。

所以我認為我們觀察到的是，通過蒸餾方法你可以獲得與大模型性能“非常接近”的結果。對很多人來說，這似乎是一個很好的平衡點，在 Gemini 的好幾代模型中都是如此。我們已經能夠讓下一代模型的 Flash 版本，達到甚至遠超上一代 Pro 版本的水平。我認為我們會繼續努力這樣做，因為這似乎是個值得遵循的好趨勢。（編者注：“logits”是指模型在最終通過 softmax 層輸出概率之前，那一層的原始輸出向量包含了比“是/否”硬標簽更豐富的軟信息。）

主持人：原來你們的產品線是 Flash、Pro 和 Ultra。你們是直接把 Ultra 放在那里，作為教師模型去蒸餾出其他模型的嗎？它就相當于旗艦或者說母艦一樣的存在？

Jeff Dean：我們有很多不同類型的模型。有些是內部的，不一定發布或提供服務。有些是我們的 Pro 規模模型，我們也可以從它蒸餾出我們的 Flash 規模模型。所以我認為，這是一套很重要的能力。而且，推理時擴展也可以是一種提高模型能力的有用方法。

主持人：我認為 Flash 的量大管飽讓它占據了統治地位。我聽到的最新數字是 50 萬億 tokens。我不知道，顯然每天都在變。但你知道，按市場份額算。

Jeff Dean：希望是往上漲。

主持人：不，我的意思是，從經濟學角度看，因為 Flash 非常經濟，你可以把它用在所有地方。它現在就在 Gmail 里，在 YouTube 里，無處不在。

Jeff Dean：我們在搜索產品中也更多地使用它，比如 AI 模式、AI 摘要。

主持人：是的，Flash 驅動了 AI 模式。是的，我之前就該想到的。

Jeff Dean：我的意思是，我認為 Flash 模型一個非常好的地方，不僅是它更實惠，而且延遲也更低。我認為延遲實際上是這些模型一個非常重要的特性，因為我們希望模型能做更復雜的事情，這涉及到從你要求模型做事到它實際完成之間，需要生成更多的 tokens。因為你現在要求的，不只是“給我寫個 for 循環”，而是“給我寫一整個軟件包來做某某事”。所以，擁有能夠做到這一點的低延遲系統，看起來至關重要。Flash 是實現這一點的一個方向和一種方式。顯然，我們的硬件平臺也為我們服務棧的許多有趣方面提供了可能，比如 TPU 芯片間的互連性能非常高，非常有利于例如長上下文的注意力操作。擁有包含大量專家的稀疏模型，這些東西對于如何讓模型在大規模下可服務真的、真的很重要。（編者注：“for 循環”是編程中的基礎概念，指一段重復執行特定次數的代碼結構。）

主持人：對于像 Flash 蒸餾這種差不多晚一代的模式，會不會感覺存在某個突破點？我經常在想，差不多就像某些任務上的能力漸近線。今天的 Pro 模型在某種任務上可能已經飽和了。那么下一代，同樣的任務會在 Flash 的價格點上飽和。而且我認為，對于人們使用模型的大部分事情來說，到某個時候，兩代之后的 Flash 模型基本上就能做所有事了。那么，當大部分用戶都對 Flash 模型感到滿意時，你如何讓繼續推動 Pro 前沿這件事在經濟上劃算呢？我很好奇你怎么看這個問題。

Jeff Dean：如果人們要求模型做的事情分布不變，那確實如此。但我認為，通常情況下，隨著模型能力變得更強，人們會要求它們做更多的事情。所以，我認為這在我自己的使用中也發生了。一年前，我會用我們的模型來做一些編程任務。它在一些簡單的事情上還行，但在更復雜的事情上就效果不佳。從那以后，我們在更復雜的編程任務上取得了巨大的進步。現在我會讓它做復雜得多的事情。

而且我認為，這不僅限于編程。比如，現在你可以問：“你能分析一下全球所有的可再生能源部署情況，給我一份關于太陽能電池板部署的報告嗎？” 這是一個非常復雜的任務，比一年前人們通常會問的任務要復雜得多。所以，在某種意義上，你會需要能力更強的模型，來拓展人們要求模型去完成的任務的邊界。這也反過來給了我們靈感：模型在哪些地方會失效？我們如何在這些特定領域改進模型，以便讓下一代變得更好。

（來源：Gemini 生成）

關于 benchmark

主持人：你們內部會用什么 benchmarks 或測試集嗎？因為幾乎每次報道的都是同樣的 benchmarks。就像從 90 分變成了 97 分。你如何持續推動團隊內部，告訴他們“這就是我們要努力的方向”？

Jeff Dean：我認為 benchmarks 尤其是那些公開的外部 benchmarks 有其用處，但它們往往有一個效用生命周期。它們被引入時，可能對當時的模型來說相當難。我喜歡這么想：最好的 benchmarks 是那些初始得分在 10% 到 20% 或 30% 左右的，而不是更高的。

然后你可以致力于提高該 benchmark 旨在評估的某種能力，把它提升到 80%、90% 或其他任何水平。我認為一旦它達到 95% 左右，如果真的一門心思撲在這個 benchmark 上，能得到的回報會越來越少。因為這要么意味著你已經具備了那種能力，要么就存在公開數據泄露或者非常相關的數據混入了訓練數據的問題。

所以我們有一整套保密的內部 benchmarks 來真正評估模型。我們知道這些數據完全不在訓練集中，它們代表了我們希望模型擁有但目前還不具備的能力。然后我們就可以著手評估：我們如何讓模型在這些方面變得更好？是我們需要不同類型、更專門針對這類任務的數據來訓練？還是我們需要一些架構上的改進，或者某種模型能力的提升？什么會幫助改進它？

主持人：有沒有這樣一個例子，某個 benchmark 激發了一個架構上的改進？

Jeff Dean：Gemini 模型的一些長上下文能力，其實最早大概是在 1.5 版本就開始布局了。

主持人：我當時就在想，大家怎么能在同一時間都練成這個的？

Jeff Dean：正如你所說，那個考察細顆粒度的 benchmark，至少在 128K 左右的上下文長度上，現在已經飽和了。我認為如今大多數人實際上并沒有用到遠超 128K 或 256K 的上下文。而我們正試圖將前沿推進到 100 萬或 200 萬上下文。

主持人：我覺得谷歌仍然是這方面的領先者。

Jeff Dean：這很好，因為我認為有很多應用場景，比如把上千頁的文本，或者多個長達一小時的視頻放到上下文中，然后能夠實際利用起來，這非常有用。但那個簡單的考察細顆粒度的 benchmark 已經飽和了。所以你真正想要的是更復雜、更貼近現實的場景：讀完所有內容，最后給出答案。這樣才能更好地評估人們真正想用長上下文做什么，而不僅僅是“你能告訴我這個特定東西的產品編號嗎？” 那樣只是檢索。

主持人：沒錯，是在機器學習中進行檢索。我想探討的更深一層的問題是：當你手握一個 benchmark ，發現了一個能搞定它的架構技巧，這時你會怎么做？因為有時候你知道那本質上是在引入一個歸納偏置。就像以前在谷歌工作的 Jason 會說的那樣，差不多就是這個意思。短期內你會贏，但長期來看，我不知道這是否能擴展，你可能之后得推翻重來。（編者注：Jason 指曾在谷歌大腦工作的著名 AI 科學家 Jason Wei。他最為人所知的貢獻是提出了思維鏈概念，是大模型推理領域的開創性人物，后來加入 OpenAI 成為 o1 模型的關鍵奠基人之一。）

Jeff Dean：我傾向于不拘泥于具體的解決方案，而是聚焦于我們到底想要什么能力。而且我深信長上下文非常有用，但今天它的長度還遠遠不夠，對吧？我認為你真正想要的是，能不能在我回答問題的時候，關注整個互聯網？但這無法通過單純擴展現有的（復雜度是二次的）方案來解決。所以，100 萬 tokens 已經接近現有方案的極限了。你不可能做到 1 萬億 tokens，更別說 10 億 tokens 了，更別提一萬億。

但我認為，如果你能營造出可以關注萬億 tokens 的幻覺，那就太棒了。你會為它找到各種用途。你就能關注整個互聯網。你可以關注 YouTube 的像素，以及我們可以為單個視頻形成的更深層表示，并且是跨越許多視頻的。在個人 Gemini 層面，在你許可的情況下，你可以關注你所有的個人狀態。比如你的郵件、你的照片、你的文檔、你的機票。我認為那真的、真的會非常有用。問題在于，你如何通過算法層面的改進和系統層面的改進來打造一些方法，讓你能夠真正以有意義的方式關注萬億級別的 tokens。

主持人：順便提一下，我算過，如果你每天說八小時的話，每天不停地說，最多也只能產生大約 10 萬 tokens。這應該能很舒服地放進上下文了。

Jeff Dean：對啊，那要是再加上一個要求：我想理解大家上傳到視頻里的每一幀畫面呢？

（來源：Gemini 生成）

關于多模態

主持人：還有一個經典的例子是，當谷歌開始超越語言，進入蛋白質或者其他信息密度極高的領域。

Jeff Dean：我認為 Gemini 的多模態特性之一，就是我們從一開始就希望它是多模態的。所以，有時這對人們來說意味著文本、圖像和視頻，以及音頻這些人類相關的模態。但我認為，讓 Gemini 了解非人類模態也非常有用。比如來自 Waymo 車輛的激光雷達傳感器數據，或者來自機器人的數據，或者各種健康模態的數據，比如 X 光片、核磁共振成像、基因組信息。

我認為可能有上百種數據模態，你會希望模型能夠至少接觸到這樣一個事實：這是一個有趣的模態，在世界上有特定的含義。這樣，即使你沒有在所有激光雷達數據或核磁共振成像數據上訓練過，因為也許從你在主要預訓練數據混合中的權衡來看，包含這些數據不合理，但至少包含一點點實際上是非常有用的，因為它能提示模型，世界上有這個東西存在。

主持人：既然我們聊到這個話題了。有些問題我正好可以問問你，是否存在某些王炸模態，凌駕于所有其他模態之上？舉個簡單的例子，視覺可以在像素層面編碼文本，DeepMind 有篇論文就是這么做的。視覺也被證明可能可以融合音頻，因為你可以做音頻的語譜圖，這也可以被視為一種視覺能力。所以也許視覺就是那個關鍵模態？

Jeff Dean：我的意思是，視覺和運動是相當重要的東西。我們選擇視頻，而非靜態圖像。生命進化之所以把眼睛這個器官獨立發明了 23 次，不是沒有原因的。因為感知你周圍的世界是如此有用的能力。這正是我們希望這些模型能夠做到的：解讀我們看到或關注的事物，然后利用這些信息幫助我們做事。

主持人：我認為 Gemini 仍然是目前唯一原生具備視頻理解能力的模型，所以我一直在 YouTube 上用它。

Jeff Dean：實際上，我覺得人們不一定意識到 Gemini 模型在處理視頻方面能做什么。我在一次演講中用過一個例子。那是一個 YouTube 精彩集錦視頻，匯集了過去 20 年里 18 個難忘的體育時刻之類的。里面有邁克爾·喬丹（Michael Jordan）在總決賽最后時刻的跳投，還有一些足球進球等等。你可以直接把視頻給它，然后說：“你能幫我做個表格嗎？列出所有這些不同的事件，發生的時間，以及簡短描述。”然后你就會得到一個 18 行的表格，里面是從視頻中提取出來的信息。你知道嗎，這種把視頻直接變成表格的能力，一般人根本想不到。

（來源：Gemini 生成）

關于 AI 搜索

主持人：谷歌內部有沒有討論過，就像你提到的，要關注整個互聯網？谷歌的存在，很大程度上就是因為人類無法關注整個互聯網，需要某種排序來找到需要的東西。這種排序對于大模型來說會大不相同，因為你可以期望用戶查看谷歌搜索結果中排名前五六的鏈接。而對于大模型，你是否應該期望它有 20 個高度相關的鏈接？你們內部是如何思考，如何構建 AI 模式的？那種模式，可能需要比面向人類的搜索更廣泛、跨度更大。

Jeff Dean：我認為即使在語言模型出現之前，我們的排序系統也是從一個巨大的網頁索引庫開始的。其中很多網頁是不相關的。所以你會用非常輕量級的方法，先識別出一個相關的子集，比如篩選到 3 萬個文檔左右。然后你逐步細化，應用越來越復雜的算法和各種信號，最終得到你展示給用戶的東西，也就是最終的 10 條結果，或者 10 條結果加上其他信息。我認為一個基于大模型的系統也不會有什么不同，你會去關注萬億級別的 tokens，但你會想先識別出，大概哪 3 萬個左右的文檔（或許有 3,000 萬感興趣的 tokens）是相關的？然后你如何從這 3 萬縮小到那 117 個我應該真正關注的文檔，以便完成用戶要求我做的任務？

我認為，你可以想象這樣一個系統：你有大量高度并行的處理，可能用非常輕量級的模型來識別最初的 3 萬個候選。然后你有一些系統，可能用稍微復雜一點的模型或模型集，幫你從 3 萬縮小到 117 個。最后，最終的模型可能是你能力最強的模型，它來審視這 117 個東西。所以我認為會是這樣的系統。這種系統讓你能夠營造出關注萬億 tokens 的“幻覺”，就像你用谷歌搜索，并不是產生了什么幻覺，而是你真的在檢索整個互聯網，只不過最終看到的只是一個極小的相關子集。

主持人：我經常告訴很多不熟悉谷歌搜索歷史的人，你看，BERT 幾乎立刻就被用到了谷歌搜索里，它極大地提升了搜索結果的質量。我手頭沒有具體數字，但我敢肯定，這對谷歌來說顯然是最重要的數字。

Jeff Dean：是的，我認為采用基于大模型的文本和詞匯表示，能夠讓你擺脫“特定詞匯必須出現”這種顯式硬性要求，真正深入到“這個頁面或這段落的主題與這個查詢高度相關”的層面。

主持人：我認為人們沒有意識到大模型已經占據了所有高流量系統。所有這些非常高流量的系統，比如谷歌搜索，比如 YouTube。YouTube 有個語義 ID 系統，它用一個碼本（codebook）來預測視頻，詞匯表中的每個條目對應一個 YouTube 視頻。這對于 YouTube 的規模來說簡直是不可思議的。最近，xAI 的 Grok 也用了類似的東西。

Jeff Dean：我想指出的是，甚至在語言模型被廣泛用于搜索之前，我們就已經非常重視軟化用戶實際輸入查詢的概念。我實際上在 2009 年的網絡搜索與數據挖掘會議上做過一個演講。我們從未真正發表過關于谷歌搜索起源的論文，但我們回顧了從 1999 年到 2004 或 2005 年，大約四到五代、五六代搜索檢索系統的重新設計。

那個演講講的就是這段演變，其中一件真正發生在 2001 年的事情是，我們正努力在多個維度上擴展系統。一個是我們想擴大索引，這樣就能從更大的索引庫中檢索，這通常總能提升質量，因為如果你的索引里沒有這個頁面，你肯定沒法處理得好。然后我們也需要擴展我們的容量，因為我們的流量增長得非常快。

所以我們有了一個分片系統：隨著索引增長，你需要更多的分片。比如你有 30 個分片，如果你想將索引大小翻倍，就做成 60 個分片，這樣就能限制任何用戶查詢的響應延遲。然后隨著流量增長，你為每個分片添加更多的副本。

我們最終做了一個計算，發現如果我們有一個數據中心，里面有比如 60 個分片，每個分片 20 個副本，那我們現在就有了 12,200 臺帶硬盤的機器。我們一算，心想：這個索引的一份副本，其實可以放在這 12,200 臺機器的內存里。所以在 2001 年，我們把整個索引放到了內存里。從質量角度來看，這帶來的好處是驚人的。因為在此之前，你必須非常小心地控制對一個查詢要考察多少個不同的詞項，因為每一個詞項都意味著要在 60 個分片中的每一個上進行一次磁盤尋道。

所以，當你擴大索引時，這變得更加低效。但一旦你把整個索引都放進了內存，即使對用戶原始的三四個詞的查詢，你拋出 50 個詞項也完全沒問題。因為你現在可以添加同義詞，比如 restaurant 和 restaurants 和 cafe 和 bistro 等等。突然間，你可以真正開始理解詞的含義，而不僅僅是用戶輸入的精確語義形式。那是 2001 年，遠在大模型出現之前。但這確實是在軟化用戶輸入的嚴格定義，以便觸及意義本身。

主持人：你在設計系統時，尤其是考慮到在 2001 年互聯網的規模每年翻兩三倍，使用什么原則？不是像現在這樣。而且我認為今天在大模型領域也是如此，每年規模都在跳躍，能力增長如此之快。你在思考這些問題時，有什么原則嗎？

Jeff Dean：首先，任何時候設計系統，你都要理解哪些設計參數對于設計來說最重要。所以你要知道，你需要處理每秒多少查詢？你需要處理多大的索引？你需要為索引中的每個文檔保留多少數據？當你檢索時，如何查看它們？如果流量翻倍或翻三倍，系統還能正常工作嗎？我認為一個好的設計原則是，你希望設計一個系統，使得最重要的特性能夠擴展 5 到 10 倍，但可能不超過這個范圍。

因為經常發生的情況是，如果你為一個規模 x 設計系統，而某些東西突然變成了 100x，那就會開啟一個完全不同的設計空間點。這個點在 x 規模下沒有意義，但突然到了 100x 就完全合理了。比如，從基于磁盤的索引轉向內存索引，一旦你有足夠的流量，就非常有意義了。因為現在，你在磁盤上有足夠多的狀態副本，這些機器現在實際上可以把一份完整的索引放到內存里了。是的，這突然間開啟了一個以前不切實際的完全不同的設計。

所以，我的意思是，我非常喜歡在腦子里過一遍設計，在實際寫大量代碼之前，稍微在設計空間里探索一下。但是，正如你所說，在谷歌早期，我們大幅擴展索引，我們也大幅擴展索引的更新率。令人驚訝的是，更新率實際上變成了變化最大的參數。過去是每月更新一次。是的，后來我們變成了一個系統，可以在不到一分鐘內更新任何一個特定的頁面。

主持人：這是競爭優勢。

Jeff Dean：因為對新聞搜索來說，索引上個月的老新聞，對新問題根本沒用。

主持人：有沒有想過，你可以把它拆分到另一個獨立系統上？

Jeff Dean：嗯，我們確實推出了谷歌新聞產品，但你也希望人們輸入主搜索框的新聞相關查詢也能及時更新。

主持人：然后你還得判斷頁面的重要性，決定哪些頁面值得被優先更新。

Jeff Dean：是的，幕后有一套完整的系統，試圖決定頁面的更新速率和重要性。所以即使某個頁面的更新速率看起來很低，你可能仍然希望經常重新抓取重要的頁面，因為它們改變的可能性可能很低，但擁有更新版本的價值很高。

（來源：Gemini 生成）

關于延遲

主持人：你提到了延遲，這讓我想起你的一個經典之作，我不得不提，那就是“每個程序員都應該知道的延遲數字”，當時有什么背景故事嗎？（編者注：“每個程序員都應該知道的延遲數字”是 Jeff Dean 在系統設計演講中列出的一張經典表格，用于幫助工程師在設計系統時進行粗略估算。這些數字展示了計算機各類操作的典型耗時，核心在于理解不同操作之間的數量級差距，而不是糾結于絕對數值。）

Jeff Dean：“每個程序員都應該知道的延遲數字”表格里面列出了大概 8 到 10 種不同的指標，比如一次緩存未命中需要多長時間？一次分支預測錯誤需要多長時間？一次主內存訪問需要多長時間？把一個數據包從美國發送到荷蘭（或者荷蘭的某個地方）需要多長時間？

主持人：順便問一下，是因為 Chrome 嗎？

Jeff Dean：我們在那邊有數據中心。所以，我的意思是，我認為這歸根結底是為了能夠進行粗略的心算。這些就是心算的基本素材。你可以用它們來推算：好吧，如果我需要設計一個做圖片搜索和結果頁縮略圖生成的系統，我該怎么做？我可以預計算圖片縮略圖，也可以嘗試從大圖上實時生成縮略圖。那樣做會有什么后果？需要多少磁盤帶寬？會產生多少次磁盤 I/O？你可以用這些基本數字，在 30 秒或一分鐘內，在心里做做思想實驗。然后，當你使用更高級的庫構建軟件時，你也想培養類似的直覺。比如，在我用的這種特定哈希表里查找一個東西需要多長時間？或者，對一百萬個數字進行排序需要多長時間之類的。

主持人：我提起這個其實是因為大概兩年來我一直在嘗試總結出“每個 AI 程序員都應該知道的數字”。好吧，我還沒有一個很好的版本，因為這不是物理常數，像你這里列出的都是物理常數，但我覺得確實應該有。舉個簡單的例子，參數數量到磁盤大小的換算，不過是簡單的字節轉換，沒什么意思。我想知道的是，如果要更新你的那份延遲數字列表，你會怎么做？

Jeff Dean：我認為，要好好思考一下你在模型中進行的計算，無論是訓練還是推理，都非常有用。通常一個很好的思考角度是：你需要從內存中加載多少狀態？是從芯片上的 SRAM、加速器附帶的 HBM、DRAM，還是通過網絡加載？這些數據移動的成本，與比如在矩陣乘法單元中進行一次實際乘法運算的成本相比，有多高？而乘法運算的成本實際上非常、非常低，對吧？因為，根據你的精度，大概是亞皮焦、1 皮焦耳左右。

主持人：你用能量來衡量？

Jeff Dean：這最終都會歸結為能量。以及你如何讓一個系統的能效最高。然后，將數據從芯片另一端的 SRAM 移過來，甚至不是片外，只是同一芯片的另一端，可能就需要，一千皮焦耳？所以這就解釋了為什么加速器需要批處理，因為如果你把一個模型的參數比如說從芯片上的 SRAM 移到乘法器單元里，這要花掉你一千皮焦耳。

所以你最好能多次利用你移動過來的那個東西。這就是 batch 維度發揮作用的地方。因為突然間，如果你有一個 250 的 batch 之類的那還好，但如果 batch size 是 1 那就真的很糟糕了。因為你花了一千皮焦耳，卻只做了一次一皮焦耳的乘法。

主持人：我從未聽過基于能量的批處理分析。

Jeff Dean：這就是人們做批處理的原因。理想情況下，你會希望使用 batch size 1，因為延遲會很棒，但能量成本和計算成本的低效會非常大。

（來源：Gemini 生成）

關于 TPU

主持人：就像你當年把所有東西放進內存一樣，現在也有很多類似的計算。我認為，顯然英偉達通過大力押注 SRAM（比如他們的 H200 芯片）取得了很大成功。我想知道，這是否是你在 TPU 上已經看到的東西？因為你們必須在自己規模上提供服務。你可能某種程度上預見到了這一點。有哪些硬件創新或見解，是因為你們看到的這些需求而形成的？

Jeff Dean：TPU 采用規整的 2D 或 3D 網格拓撲結構，將大量芯片互聯在一起，每個芯片都配備了 HBM。對于服務某些類型的模型，從 HBM 加載東西的成本和時間延遲，遠比從芯片上的 SRAM 加載要高。所以，如果你的模型足夠小，你實際上可以對其進行模型并行，分布到許多芯片上，你會從中獲得相當好的吞吐量提升和延遲改善。你現在相當于把你的小型模型條帶化到比如 16 或 64 個芯片上。但如果你這樣做，并且模型全部能放進 SRAM，那可能是個巨大的勝利。所以這不是意外，但確實是個好技術。

主持人：再談到 TPU 的設計，你們如何確定架構改進的優先級？比如，將一次數據移動的能耗從 1,000 皮焦耳降至 50 皮焦耳，這樣的優化目標是否足以驅動一款新芯片的研發？極端情況下，當人們說“你應該把模型燒錄到 ASIC 上”，那差不多是最極端的思路。當事物變化如此之快時，在硬件上投入多少是值得的？谷歌內部的討論是怎樣的？

Jeff Dean：我們內部有非常緊密的協作，比如 TPU 芯片架構團隊與高級建模專家之間就保持著高頻互動。因為我們真的想利用協同設計的能力，根據我們對機器學習研究未來發展方向的預判，來決定未來的 TPU 應該是什么樣子。因為，作為一名特別是專注于機器學習的硬件設計師，你試圖從今天開始設計一款芯片。這個設計可能需要兩年時間才能最終部署到數據中心。然后它還需要有一個合理的生命周期，可能再用三、四、五年。所以，我們需要預測未來兩到六年，在這個瞬息萬變的領域里，人們會想用機器學習做什么。而擁有那些具備前瞻性研究想法的人才，能幫助我們判斷哪些技術趨勢將在未來變得重要，從而把這些有趣的硬件特性提前布局到，比如說，我們的下一代產品 TPU n+2 中。

主持人：周期是 n+2。

Jeff Dean：大致如此。我的意思是，有時你可以把一些改動塞進 n+1，但更大的改動就需要芯片設計處于其生命周期設計的更早期階段。所以只要有可能，我們就會這樣做。有時你也可以加入一些探索性的特性，這些特性可能不會占用太多芯片面積，但如果成功了，它能讓某些事情快上 10 倍。如果沒成功，你也就浪費了一點點微不足道的芯片面積在那上面，不是什么大事。但有時候這會是一個非常大的改動，我們需要非常確信這會成功。所以我們會做大量仔細的機器學習實驗來證明，這確實是我們想走的路。

主持人：有沒有反向的情況？比如，“芯片設計方案已經定稿，因此模型架構無法再向那個方向演進，因為兼容性存在問題。”

Jeff Dean：肯定會有這樣的情況：你需要調整模型架構，使其能高效適配未來一代芯片的訓練和推理，所以我認為這是雙向的。有時你可以利用未來一代芯片中即將出現的低精度特性。所以你可能會用那種低精度來訓練，即使當前一代芯片還不太支持。

主持人：精度能降到多低？因為有人提到三值網絡之類的。

Jeff Dean：我非常喜歡極低精度，因為我認為這能節省大量的能量。因為數據傳輸是按皮焦耳每 bit 來算的，減少 bit 數是降低這個成本的好方法。極低比特精度帶來了顯著的收益，但代價是需要在整組權重上施加縮放因子。

主持人：說到這個，我覺得有個話題很有意思。當我們在做采樣時，精度的概念本身就有點奇怪。最終我們會有所有這些能做非常精確數學運算的芯片，然后我們在開頭扔進去一個隨機數生成器。感覺現在大家都在往基于能量的模型和處理器那個方向走，你肯定也琢磨過這事兒吧？想聽聽你的看法。

Jeff Dean：是的，我認為有一些有趣的趨勢。比如基于能量的模型、擴散模型，它們不是那種順序解碼 token 的方式還有一種投機性解碼技術，可以在不降低生成質量的前提下，獲得等效的加速效果。

主持人：非常小的 draft batch。（編者注：draft batch 指的是投機性解碼中，由小模型一次性生成的、等待大模型驗證的候選詞元組。）

Jeff Dean：例如，你可以一次預測出八個 tokens。這讓你能把正在做的事情的有效 batch size 增加八倍。然后你可能接受其中的五六個 tokens。所以你通過攤銷將權重移入乘法器進行 tokens 預測的成本，獲得了五倍的改進。

這些都是非常好的技術，我認為從能量（不是指基于能量的模型）、延遲和吞吐量的角度來看它們真的很好。如果你從這個角度看問題，它會引導你找到更好的解決方案，比如能夠更便宜、更低延遲地服務更大的模型，或者同等規模的模型。

主持人：這很有吸引力，但還沒看到它在主流中真正流行起來。我確實覺得有種詩意在里面，如果我們從根本上把它設計進硬件里，就不用搞那么多花樣了。

Jeff Dean：我認為還有更奇特的東西，比如基于模擬的計算基板，而不是數字的。我對那些非常感興趣，因為它們的功耗有望做到很低。但我認為，你最終往往需要將其與數字系統接口，而你在系統邊界和外圍進行的數模、模數轉換可能會損失很多功耗優勢。我仍然認為，從我們今天所處的位置，通過為我們在意的模型制造更好、更專用的硬件，在能效方面還有巨大的提升空間。

（來源：Gemini 生成）

關于新想法

主持人：除了這些，還有哪些你覺得有趣的研究方向？或者有什么想法，是谷歌內部不方便做，但你希望看到學界去探索的？

Jeff Dean：我認為我們最近的研究組合相當廣泛。從研究方向來看，有一大堆開放問題。如何讓這些模型更可靠，能夠完成更長的、更復雜的、包含許多子任務的任務？如何編排？可能是一個模型使用其他模型作為工具，來構建能夠共同完成比單個模型所能做的更重大的工作。如何讓模型更可驗證？如何讓強化學習在不可驗證的領域工作？

我認為這是一個非常有趣的開放問題，因為我認為這會拓寬模型的能力范圍，你會看到數學和編程方面都在進步。如果我們能通過開發出真正有效的強化學習技術，將其應用到其他不那么可驗證的領域，那將真正讓模型提升很多。

主持人：我很好奇。當諾姆·布朗（Noam Brown）上我們播客時，他說他們已經證明你可以通過深度研究做到這一點。你在 AI 模式中某種程度上也做到了，雖然它本身并不可驗證。我很好奇，有沒有你認為有趣的線索？兩者都是在做信息檢索追蹤。

所以我在想，是否檢索本身就是那個可驗證的部分，可以用來作為評分依據？或者說，你會如何為這個問題建模？（編者注：諾姆·布朗（Noam Brown）是 OpenAI 的研究員，專注于 AI 推理和多智能體系統。他因開發在德州撲克中擊敗人類專家的 Libratus 和 Pluribus 而聞名，后加入 OpenAI 參與 o1 推理模型的研發。）

Jeff Dean：是的，我認為有些方法可以讓其他模型來評估第一個模型所做的結果，也許甚至可以檢索。你可以讓另一個模型問：“你檢索到的這些東西相關嗎？” 或者你能對你檢索到的這 2,000 樣東西進行評分，以評估哪 50 個最相關嗎？我認為這類技術實際上非常有效。有時甚至可以是同一個模型，只是通過不同的提示詞，讓它扮演評論家的角色，而不是實際的檢索系統。

主持人：確實，我總覺得我們好像永遠在跨越一個又一個懸崖：每次都覺得簡單的事做完了，然后集體卡在下一個難題面前，年年如此。“哦，這個我們搞定了，接下來那個肯定難到沒人能解。”為什么偏偏強化學習驗證就成了那個坎兒？所有人都在問同一個問題：“沒有明確判斷標準的下一個階段，到底要怎么走？”

Jeff Dean：我覺得這個領域的好處是，有許許多多聰明的人在想創造性的解決方案來解決我們都能看到的難題。因為我認為大家都看到了，這些模型在某些方面很棒，但在這些方面的邊緣地帶會失效，能力達不到我們的期望。然后想出好的技術和嘗試它們，看看哪些真正能帶來改變，這正是這個領域整個研究方面向前推進的方式。我認為這就是為什么它超級有趣。

想想兩年前，我們還在為 GSM8K 的問題掙扎，對吧？弗雷德有兩只兔子，他又得到了三只兔子，他總共有多少只兔子？這與現在模型能做的數學題相比差遠了。現在已經是純語言的天下。短短一年半時間，模型能力就實現了驚人的飛躍。如果在其他領域也能復制這種成功，那就太棒了。雖然有些領域我們還沒找到門路，但既然在其他領域已經看到了可行的方法，我們就會全力以赴，讓它變得更好。

主持人：沒錯，比如 YouTube 縮略圖生成，我們就需要這個能力。如果能實現，那將是觸及 YouTube 核心業務的一次突破。

Jeff Dean：是的，我不是 YouTube 創作者，所以我不太關心那個問題，但我想很多人關心。

（來源：Gemini 生成）

關于模型大一統

主持人：扯回 IMO，我還是挺唏噓的。去年還是 AlphaProof、AlphaGeometry 各顯神通，今年就直接扔給 Gemini 了。我在想，以前大家不都覺得符號系統和大模型融合是條正路嗎？怎么突然就變成“別折騰了，全讓大模型自己來”了？

Jeff Dean：我覺得這對我來說很有意義，因為你知道人類操縱符號，但我們腦子里可能沒有一個符號化的表征，對吧？我們有某種分布式表征，從某種意義上說，是神經網絡式的，由許多不同的神經元和激活模式組成，當我們看到某些東西時會觸發。這使我們能夠推理、規劃、進行思維鏈以及回溯，“這個方法看來行不通，我試試那個”。

在許多的方面，我們正在神經網絡模型里模擬我們直覺上認為真實大腦內部發生的事情。所以，對我來說，擁有完全分離的、離散的符號化事物，以及一套完全不同的方式來思考這些東西，從來就沒有意義。

主持人：我的意思是，對你來說可能顯而易見，但一年前對我來說并不明顯。

Jeff Dean：我確實認為，去年 IMO 競賽用到了翻譯成 Lean 語言并使用 Lean，以及使用了一個專門的幾何模型。然后今年，切換到一個單一的統一模型，這基本上是生產級模型，只是多給了點推理預算，這實際上非常棒。因為它表明那個通用模型的能力已經大大提高了。現在你不再需要這些專門的模型了。這實際上與 2013 到 2016 年時期的機器學習非常相似，對吧？

過去，人們會針對許多不同的問題訓練不同的模型，對吧？我想識別街道標志，所以我訓練一個街道標志識別模型。或者我想做語音識別解碼，我就去訓練一個語音模型。我認為現在，做所有事情的統一模型時代真的來臨了。問題在于，這些模型在面對它們從未被要求做的事情時，泛化能力有多好？它們正變得越來越好。

主持人：你都不需要領域專家了。我采訪過 Ete，他就是那個團隊的成員。他說：“我真的不知道它們是怎么工作的，不知道 IMO 在哪里辦，也不知道比賽規則。我只是在訓練模型，我做的就是訓練模型。”

這很有意思，擁有這種通用技能的人，只需要機器學習能力，拿到數據和算力，就能處理任何任務。這大概就是所謂的“苦澀的教訓”吧。（編者注：1、Ete 是指愛德華·格列芬斯特（Edward Grefenstette），一位 Google DeepMind 的研究科學家，他參與過多項與推理、語言模型相關的研究。2、“苦澀的教訓”是“強化學習之父”理查德·薩頓（Richard Sutton）提出的AI核心理念：研究者總想把人類知識編入 AI，短期有效但長期看，依靠大規模算力和通用算法的方法最終會勝出。它之所以“苦澀”，是因為 AI 的成功往往不是因為它模仿了人類，而是靠大力出奇跡走出自己的路。）

Jeff Dean：在大多數情況下，通用模型會勝過專用模型。

主持人：我想在這里稍微深入探討一下。我覺得這里有一個漏洞，就是關于模型容量的概念。抽象地說，一個模型能容納的比特數是有限的。所以，誰會知道 Gemini Pro 可能有一萬億到十萬億參數？我們不知道。

但以 Gemma 模型為例。很多人想要開源、能在本地運行的模型，它們擁有一些并不必要的知識，對吧？它們不可能知道所有事。你們有優勢，你們有大模型，大模型應該什么都能做。但是，當你進行蒸餾，把它縮小到小模型時，你實際上是在記憶一些沒用的東西。所以，我們能否將知識與推理分離開？

Jeff Dean：我認為你確實希望模型在能夠檢索東西時最有效地進行推理，對吧？因為讓模型把寶貴的參數空間用來記憶那些可以查到的、晦澀的事實，實際上并不是對該參數空間的最佳利用，對吧？你可能會更喜歡那些在更多場景下更有用的東西，而不是它記住的某個晦澀事實。

所以我認為這個權衡一直存在。同時，你也不希望你的模型完全脫離對世界的了解。比如，知道金門大橋有多長可能很有用，能對“橋一般有多長”有個大致概念。它應該有那種知識，它可能不需要知道世界上某個更偏遠角落的一座小橋有多長，但是擁有相當多的世界知識確實有幫助。你的模型越大，你能容納的知識就越多。

但我確實認為，將檢索與推理結合起來，讓模型真正擅長進行多輪檢索并通過中間檢索結果進行推理，這將是讓模型看起來能力更強的一個非常有效的方法。我們不會在 Gemini 上訓練我的電子郵件，我們可能更希望有一個單一的模型，然后我們可以使用它，并能夠使用從我的電子郵件中檢索作為工具，讓模型推理它，從我的照片中檢索，然后利用這些信息進行多輪交互。

主持人：你怎么看垂直領域模型這個方向？比如有人說“我們在打造最好的醫療大模型”“我們在做最牛的法律大模型”。這些是短期的過渡方案，還是真的有長遠價值？

Jeff Dean：我認為垂直領域模型很有趣。你想讓它們從一個相當好的基礎模型開始，然后你可以，我有點把它們看作是豐富那個特定垂直領域的數據分布。比如醫療保健。比如，對于機器人技術，我們可能不會在所有可能的機器人數據上訓練 Gemini。你可以用它訓練，因為我們希望它擁有一套平衡的能力。

所以我們會讓它接觸一些機器人數據。但如果你想構建一個真正、真正好的機器人模型，你會希望從那個基礎開始，然后在更多的機器人數據上訓練它。這可能會損害它的多語言翻譯能力，但會提高它的機器人能力。

我們在訓練基礎 Gemini 模型時，總是在數據混合中做這種權衡。我們很樂意包含另外 200 種語言的數據，并且有和這些語言一樣多的數據。但這會擠占模型的其他一些能力。它在 Perl 編程上可能沒那么好了。它在 Python 編程上仍然會很好，因為我們會包含足夠多的 Python 數據。但在其他長尾計算機語言或編程能力上，它可能會受影響。或者多模態推理能力可能會受影響，因為我們沒有機會讓它接觸那么多相關數據，但它在多語言方面會非常出色。

所以我認為，某種組合是合適的：專門的模型，也許更多是模塊化的模型。如果能有能力將這 200 種語言，加上這個超棒的機器人模型，加上這個超棒的醫療保健模塊，所有這些可以組合在一起協同工作，在不同情況下被調用那將非常棒。比如，如果我有一個與健康相關的問題，那么它應該能夠啟用這個健康模塊，與主基礎模型一起，在這些事情上做得更好。

主持人：可安裝的知識？

Jeff Dean：是的，只需要下載就行。部分可安裝的東西可以來自檢索。但有些可能應該來自預先加載的訓練，比如在 1,000 億或一萬億 tokens 的健康數據上訓練。

主持人：你需要多少億的 tokens 才能超過前沿模型的改進速度？如果我想讓這個模型在醫療保健方面更好，而主 Gemini 模型仍在改進，那么需要 500 億 tokens 嗎？如果我需要一萬億，我能用 1,000 億做到嗎？醫療保健的 tokens，你可能手頭沒有那么多。

Jeff Dean：我認為醫療保健是一個特別有挑戰性的領域。所以有很多醫療保健數據，我們無法適當地獲取。但也有許多醫療保健組織希望在自己的數據上訓練模型，這些數據不是公共醫療數據，是私有的醫療數據。所以我認為有機會與大型醫療保健組織合作，為他們訓練更定制化的模型，這些模型可能比在公共數據上訓練的通用模型更好。

主持人：這有點類似于語言方面的討論。我記得你最喜歡的一個例子是，你可以把一種低資源語言放在上下文中，它就能在上下文中學習。

Jeff Dean：我記得我們用的例子是卡爾梅克-衛拉特語，那是真正的低資源語言，因為世界上只有大約 120 人使用，而且沒有書面文本。所以你可以直接把它放在上下文里。

主持人：但我覺得你整個數據集都在上下文里。

Jeff Dean：如果你拿一種語言，比如索馬里語之類的，世界上確實有相當數量的索馬里語文本，或者埃塞俄比亞的阿姆哈拉語之類的。我們可能不會把所有那些語言的數據都放進 Gemini 的基礎訓練里。我們會放一部分進去，但如果你放更多進去，你會提高模型在這些語言上的能力。

主持人：我對語言學有點興趣。大學時上過幾節課。我有時想，如果我是一名語言學家，并且可以使用所有這些模型，我會問一些關于語言本身的非常基本的問題。比如，一個非常明顯的問題是“沃爾夫假說”：你說的語言在多大程度上影響你的思維？還有一些語言中有些概念在其他語言中沒有體現，但很多其他概念則是重復的。

還有一篇人們很喜歡的論文叫《柏拉圖式表征》，講的是比如一張杯子的圖片，如果你在上面訓練一個模型，并且有大量帶有“杯子”這個詞的文本，它們最終會映射到潛在空間中大致相同的位置。所以，這應該適用于語言，除了那些不適用的地方。而這正是人類發現的一些有趣的概念差異，可能英語里沒有。

Jeff Dean：是的，我做過一個早期模型的工作，它將一個基于語言的模型（有很好的基于詞的表示）和一個在 ImageNet 之類東西上訓練的圖像模型融合在一起。是的，然后你把它們的頂層融合起來。再做一點額外的訓練來融合這些表征。

我們發現如果你給模型一張全新的、不在圖像模型訓練類別中的圖像，它常常能給那張圖像分配出正確的標簽。例如，我認為望遠鏡和雙筒望遠鏡都在圖像模型的訓練類別中，但顯微鏡不在。所以如果你給它一張顯微鏡的圖像，它實際上能想出帶有“顯微鏡”這個詞的標簽，即使它從未見過標記為“顯微鏡”的圖像。

（來源：Gemini 生成）

關于神經網絡

主持人：聊了這么多，從硬件到模型研究，你覺得還有什么是人們應該多問問你的？

Jeff Dean：有一件挺有意思的事是，我在 1990 年做本科畢業論文時，做的就是并行神經網絡訓練。那時我第一次接觸到神經網絡，我一直覺得它們是正確的抽象，只是我們需要比當時多得多的算力。學校計算機系里那臺有 32 個處理器的并行計算機，能幫你做出稍微有趣一點的模型，但不足以解決真正的問題。

所以從 2008、2009 年開始，人們通過摩爾定律擁有了足夠的算力。以及更大、更有趣的數據集可以用于訓練，實際上開始訓練能夠解決人們關心的實際問題的神經網絡，比如語音識別、視覺，最終是語言。所以當我在 2011 年底開始在谷歌做神經網絡時，我真的覺得我們應該利用大量的并行計算來擴大神經網絡的規模。所以我實際上重拾了我本科論文中的一些想法，我當時既做了模型并行，也做了數據并行訓練，并對它們進行了比較。我當時給它們取了不同的名字，比如模式劃分和模型劃分之類的。

主持人：那個論文是公開的嗎？

Jeff Dean：好像網上能找到。但是，我認為結合這些技術，并且在過去十五年里真正致力于推動規模化，一直非常重要。這意味著硬件上的改進。因此，我們一方面推動專用硬件的研發，比如 TPU；另一方面也著力于軟件抽象層的建設，讓人們能夠更高效地表達機器學習想法。與此同時，像稀疏模型這樣的前沿方向也在持續推進中。

長期以來我一直覺得，稀疏激活的模型是一件非常重要的事情，因為你希望模型有很大的容量，就像我們之前討論的記憶很多東西那樣。但你也希望模型的激活極其高效，所以你希望有數萬億的參數，但只激活其中的 1%、5% 或 10%。我們在 2017 年的一篇早期論文中做了這方面的工作，真正實現了超大規模神經網絡的規模化擴展。那篇論文的標題里有個很吸引眼球的詞。我記得標題里有“outrageously large”。

主持人：你那時就在談論萬億參數的模型。

Jeff Dean：是的，因為與非稀疏模型相比，它在達到給定質量水平所需的時間或計算成本上，帶來了 10 倍的改進。同樣，相比當年的 LSTM，Transformer 在達到同等質量水平時，計算成本降低了 10 到 100 倍。所有這些因素乘在一起讓我認為這些事情都很重要，需要去研究。

從硬件到系統基礎設施，從模型架構的算法優化，到數據質量的提升，再到強化學習方法的改進，所有這些因素疊加在一起，產生了乘數效應。這才讓 2026 年的模型，不僅遠超 2025 年，更將 2023、2022 年的版本遠遠甩在身后。

主持人：這是一個巨大的組織挑戰，這涉及上千人，也許更多。我知道，當 Gemini 的論文出來時，我看到有上千位合著者。

Jeff Dean：那篇論文有 10 頁的合著者名單。我認為有這么多合著者是完全合理的。而且我確實認為，組織這么多人，讓他們有效地朝著共同的方向努力，讓他們所有的工作最終在最終的產出（也就是下一代模型）上形成乘數效應，實際上相當棘手。我們在整個 Gemini 團隊中擁有出色的人來幫助協調這一切。所以，你知道，我自己、Noam 和 Oriol 在幫忙指引方向。

然后我們有團隊在思考，預訓練設置是什么樣的？基礎設施是什么樣的？后訓練方案是什么樣的？數據準備是什么樣的？還有多模態能力、長上下文能力？有很多不同的領域，編程能力。所有這些領域都超級重要，有專人密切關注這些事情是很好的。同時也要密切關注所有其他事情。

主持人：是的，我聽說謝爾蓋非常積極地回來了。（編者注：“謝爾蓋”指的是謝爾蓋·布林（Sergey Brin），他是谷歌的聯合創始人之一。）

Jeff Dean：是的，非常積極。

主持人：參與編程方面的工作。

Jeff Dean：是的，我們都用同一個微型廚房。（編者注：“用同一個微型廚房”，是指大家共用一個小型茶水間/休息區，暗示了謝爾蓋深入一線、和團隊打成一片的狀態。）

主持人：你可能講過幾次，顯然 Google Brain 也是在一個微型廚房里起步的。

Jeff Dean：是的。

主持人：看來你們的微型廚房非常重要。

Jeff Dean：是的，我偶然碰到了當時在美國斯坦福大學任教的吳恩達。我之前因為去斯坦福做過幾次演講而認識他，所以算是認識。我問他，你在這里做什么？他說：“哦，我還不確定，我幾周前剛開始在這里兼職，每周來一天做顧問。我還不確定做什么，但我的斯坦福學生們在用神經網絡做語音識別，開始取得一些好結果。”我心想，哦，神經網絡，我喜歡神經網絡，這讓我想起了我 90 年代的本科論文。我對他說：“哦，聽起來很有趣。我們應該訓練真正、真正大的神經網絡。當時就是這么開始的。”

主持人：你的第一反應很有意思，就是“我們應該把它大規模擴展”。

Jeff Dean：嗯，我的意思是，我覺得谷歌有大量的計算能力。所以如果他們在單 GPU 模型上看到了好結果，你知道，如果當時我們的數據中心里沒有 GPU，沒有任何加速器。我們有很多 CPU，但我們可以構建一個軟件系統，讓你能夠通過模型并行和數據并行，分布到大量計算機上。

我們最終訓練了一個相當大的模型，據我們所知，比之前的任何神經網絡都大 50 倍。那是一個有 20 億參數的視覺模型，在 16,000 個數據中心算力核心上訓練了數周。這讓我們得到了很好的結果。它在 ImageNet 22K（那個 22,000 類別的數據集）上帶來了 70% 的相對錯誤率改進。

這也讓我們真正看到了規模化的重要性。我們沒有寫一個復雜的規模化分析，但我們看到了：更大的模型、更多的數據，帶來更好的結果。這成了接下來六七年里我們不斷擴展的信條。每次當我們這樣做，都在語音、語言和視覺上看到了更好的結果。

（來源：Gemini 生成）

關于 Gemini 命名來源

主持人：我們之前的嘉賓 David Juan，他曾經為你工作。他有點把谷歌在語言模型上投入不足歸咎于 Google Brain 的內部計算資源市場。我想知道，你是否同意當時的這種看法？（編者注：戴維·欒（David Luan），是 AI 領域知名的技術專家，曾任職于 Google Brain 和 OpenAI，后來創辦了 AI 初創公司 Adept。）

Jeff Dean：是那個給計算配額定價的內部市場嗎？

主持人：是的，計算配額市場。基本上他說的是，David 在 OpenAI 的 VP 引擎團隊工作過，也在谷歌工作過。他說，從根本上講，OpenAI 愿意全情投入，把全部賭注押在一件事上，而谷歌則更民主，每個人都有自己的一畝三分地。我當時想，如果你相信規模化是一件重要的事，那這其實是一個需要在整個組織層面做出的重要決策。

Jeff Dean：我認為我某種程度上同意這個說法。我記得我實際上寫過一份一頁紙的備忘錄，說我們分散資源是很愚蠢的。具體來說，當時在谷歌研究院內部，尤其是在 Brain 團隊，我們有多個大模型的工作。在 Brain 和谷歌研究院的其他部分，我們也有多模態模型的工作。

然后原來的 DeepMind 也有像 Chinchilla 和 Flamingo 這樣的模型。所以我們不僅把計算資源分散到了這些不同的工作中，也分散了我們最優秀的人才和最好的想法。所以我說，這太蠢了。我們為什么不聯合起來，集中力量做一件事？

主持人：這就是合并的起源。

Jeff Dean：去訓練一個從一開始就是多模態的、厲害的、統一的、在所有方面都很出色的模型，這就是 Gemini 努力的起源。我那頁紙的備忘錄奏效了，這很好。

主持人：名字也是你取的嗎？

Jeff Dean：是的，當時我還提議了另一個名字。我說，這兩個組織走到一起，某種程度上就像雙胞胎（twins）。所以我有點喜歡這個名字。而且，NASA 早期的雙子座計劃（Gemini project）也是通往阿波羅計劃的重要一步。所以這看起來是個好名字。雙胞胎走到一起。

（來源：Gemini）

關于 AI 編程

主持人：我很好奇，你現在是怎么用 AI 來編程的？你可能是計算機科學史上最多產的工程師之一。我在讀一篇文章時，看到關于你和 Sanjay 的友誼，以及你們如何一起工作。有一句話提到，你需要找到一個能和你一起結對編程的人，他的思維方式與你兼容，這樣你們倆合在一起就能形成互補的力量。

我在想，你怎么看待編程智能體？你如何塑造一個編程智能體，使其與你的思維方式兼容？你覺得今天的工具怎么樣？有什么看法？（編者注： Sanjay 指的是桑杰·格瑪沃特（Sanjay Ghemawat），他是谷歌系統基礎設施部門的高級研究員，也是 Jeff Dean 長達二十多年的黃金搭檔。）

Jeff Dean：我認為編程工具與一兩年前相比，正在變得非常、非常強大。所以現在，你可以真正依賴它們來完成更復雜的任務，那些你作為軟件工程師想要完成的任務。你可以把相當復雜的事情委托給這些工具。我認為，人類軟件工程師和他們正在使用的編程模型之間互動的一個非常好的方面是，你與那個編程模型對話的方式，實際上決定了它如何與你互動，對吧？

你可以讓它“請為這個寫一堆好的測試”。你可以讓它“請幫我 brainstorm 一些性能方面的想法”。你的提問方式會塑造模型的回應方式，它會處理什么樣的問題。你希望模型多大程度上去獨立完成更大的事情，還是更多地與你互動，以確保你在塑造正確的方向？

我認為，并不是某一種風格適合所有情況。對于某些問題，你可能實際上希望與模型有更頻繁的互動。而對于另一些問題，你可能就直接說，“好的，請去把這個寫了，因為我知道我需要這個東西。我能夠清晰地說明它，你就去做吧，做完回來。”所以我確實認為，未來會有更多獨立的軟件智能體代表你行事，我們需要找出合適的人機交互模型和用戶界面來決定它什么時候應該打斷你。

比如，它會說：“嘿，我需要一點指導”，或者“我已經完成了這件事，下一步做什么？” 我認為我們還沒有這個問題的最終答案。隨著模型變得更好，你在決定互動應該如何進行時所做的決策也可能會改變。就像如果你有一個由 50 名實習生組成的團隊，如果他們是人類，你會如何管理？我想，如果他們是真正優秀的 50 名實習生，情況可能不同。

主持人：管理量很大。

Jeff Dean：管理量確實很大。我認為很有可能，很多人將來都會擁有 50 名實習生。那么作為一個人，你實際上會如何應對呢？你可能希望他們組成小型的子團隊，這樣你就不用和 50 個人都直接互動。你可以和其中五個團隊互動，他們都在代表你做事。但我不完全確定這會如何展開。

主持人：你如何看待引入他人，比如結對編程？結對編程總是有助于帶來新的想法。感覺隨著我們有更多的編程引擎來編寫代碼，將其他人引入問題就變得困難了。比如說，你有了 50 個實習生，對吧？然后你想去找 Noam 或 Sanjay，說，“嘿，我想跟你結對做這個事”。但是現在有大量的并行工作已經完成了，你需要讓他們先跟上這些，對吧？我很好奇，人們在團隊中會不會變得更加孤立？因為會有太多這 50 個實習生帶來的上下文，很難全部同步給你。

Jeff Dean：也許吧。但另一方面，想象一個沒有任何 AI 輔助工具的經典軟件組織，你會有 50 個人在做事情。他們的互動方式自然會是高度層級化的，因為這 50 個人會在系統的這一部分工作，不會和那邊的那些人互動那么多。但如果你有五個人，每個人管理著 50 個虛擬智能體，他們之間可能會有高得多的溝通帶寬。然后這五個人再相互溝通協調，這比五個人同時還要協調各自管理的 50 人團隊要高效。

主持人：我很好奇你是如何改變自己的工作節奏的？比如，你花了更多時間在腦子里和人們一起 review 代碼和設計目標嗎？

Jeff Dean：我覺得有意思的是，每當人們被教導如何寫軟件時，他們都被教導清晰地編寫規格說明非常重要，但沒人真正相信這一點。人們只會覺得：“嗯，知道了，沒必要那么較真。”然后繼續我行我素。

主持人：真的嗎？

Jeff Dean：我的意思是，用英語寫的規格說明，從來都不是一個真正被高度重視的產物。它很重要，但它不像現在這樣，如果這是你要求智能體為你編寫軟件的依據，那你最好在如何說明上非常、非常小心，因為那將決定輸出的質量，對吧？就像如果你沒有涵蓋到它需要處理這類情況，或者這是一個超級重要的邊界情況，或者你特別關心這一部分的性能，它可能就不會按你想要的方式工作。我覺得人進步的一個方法，就是學會把事兒說明白，別模棱兩可的。這真不是壞事。不管你是寫程序的，還是干別的，能把需求講清楚，這個本事到哪兒都吃香。

主持人：是的，好的提示詞工程與足夠高級的管理層溝通沒什么區別。就像寫內部備忘錄一樣，非常仔細地斟酌你的用詞。而且，我認為，能夠做到多模態非常重要。我覺得，谷歌的 NotebookLM 做得很好的一點就是，直接涌現出了非常、非常強大的多模態能力，包括視頻。那是你能給模型提供的最高帶寬的溝通提示。

那么，你如何收集那些你腦海中經常有的東西？比如你寫過那些關于如何尋找性能改進的驚人技巧。人們把這些通用的東西寫下來，以便以后可以把它作為檢索的素材給模型，這樣是不是更有價值？拿邊界情況來說吧，你心里門兒清，但每次都得跟人掰扯一遍。那你會不會讓大家多花點功夫，把這些東西寫成通用的，以后直接甩出來就能用？

Jeff Dean：我認為那些寫得好的軟件工程指南會很有用，因為它們可以作為模型的輸入，或者被其他開發者閱讀，這樣它們就能像提示詞一樣，讓底層軟件系統應該做什么更清晰。我認為可能不需要為每種情況都創建定制化的指南。如果你有通用的指南，把它們放到編程智能體的上下文里，那會很有幫助。

你可以想象一份針對分布式系統的指南。你可以告訴它：“這類故障可以這么處理。”比如 Paxos 協議，或者雙路發送、單路返回的容錯機制。把 20 種類似的技巧寫成一個“分布式系統避坑指南”，編程智能體就能借鑒這些經驗，搭出更靠譜的系統。

主持人：Gemini 能寫出 Spanner 嗎？也許已經可以了，畢竟代碼就擺在那兒。CAP 定理是個好例子，人人都當它是鐵律，結果你們硬是把它打破了。我好奇的是，模型會不會也這樣？在某些前提下，你會說它“推翻了 CAP 定理”嗎？（編者注：1、Spanner 是谷歌開發的全球分布式數據庫，被譽為數據庫領域的“登月計劃”。2、CAP 定理是分布式系統設計的核心基石，由計算機科學家埃里克·布魯爾（Eric Brewer）在 2000 年提出。）

Jeff Dean：是的，在某些假設下。

主持人：你給模型灌輸什么，它就容易信什么。所以我就老在想一個問題，就是關于你剛才說的延遲。我一直特別想做這么個實驗：一邊是快速跑幾輪、人隨時糾正，另一邊是憋一個大招、寫個巨詳細的提示詞讓模型一次搞定。這兩種方式，到底誰更牛？性能問題到底是因為你沒說明白，還是因為你根本沒法說明白？

Jeff Dean：它說明不足，所以我可以產生 10 種不同的東西，但只有一個是你要的。

主持人：那么，用 Flash 模型進行多輪交互就足夠了。

Jeff Dean：我非常信奉推動低延遲，因為我認為能夠與你使用的系統進行真正低延遲的互動，比慢 10 倍或 20 倍的東西要令人愉悅得多。而且我認為，未來我們會看到模型，以及底層的軟件和硬件系統，其延遲比我們今天擁有的低 20 倍、低 50 倍。這對于需要在你的交互之間做大量事情的系統來說，將非常、非常重要。

主持人：有兩個極端，你還有 DeepThink，它一直在另一端，對吧？

Jeff Dean：但如果不是因為成本和延遲，你會一直使用 DeepThink。如果你能在模型中擁有那種能力，同時底層硬件系統的延遲改善了 20 倍，成本也降下來了，你沒有任何理由不想要那個。但與此同時，你可能會有更好的模型，即使在新硬件上，也需要花 20 倍的時間。

主持人：你知道，帕累托曲線一直在上升。

Jeff Dean：是的，向前，向上。

關于個性化模型

主持人：有沒有一些你現在就可以做、未來也能驗證的預測？比如說，每次新模型發布，你都會用一些測試來衡量，那么眼下還有哪些讓你不太滿意、但你預感很快就會被攻克的難題？

Jeff Dean：讓我做兩個預測，可能不完全是你說的那種。首先，我認為一個了解你、了解你所有狀態、并且能夠在你選擇加入的情況下檢索你能訪問的所有狀態的個性化模型，將比一個無法訪問這些的通用模型有用得多。比如，可以關注我見過的所有東西的模型。每一封郵件，每一張照片，我看過的每一個視頻。我認為，越來越多專用硬件將能夠以比現狀更實惠的價格，實現延遲低得多的模型和性能更強的模型。

主持人：你提到低得多的延遲，業內常用每秒 tokens 數來衡量。現在如果是 100，未來能到幾千甚至 10,000，這有意義嗎？

Jeff Dean：太有意義了，思維鏈推理就指著這個呢。你可以想象多得多的 tokens，你可以做多得多的并行推演，你可以生成更多的代碼，并用思維鏈推理檢查代碼是否正確。所以我認為，能夠以每秒 10,000 tokens 的速度做到這些，那就太棒了。

主持人：每秒 10,000 tokens 時，你就不再是閱讀代碼了。

Jeff Dean：最終可能不是 10,000 tokens 的代碼，而是 1,000 tokens 的代碼，背后帶著 9,000 tokens 的推理過程。這實際上可能會是更好讀的代碼。

主持人：就像那句名言：給我更多時間，我能寫出更短的句子。（編者注：這句話通常被歸功于法國數學家、哲學家布萊茲·帕斯卡（Blaise Pascal），他在 1657 年出版的《致外省人信札》中寫過一句類似的話：“我沒有時間寫得短些，所以只好寫得長些。”）

Jeff Dean：是的。

主持人：太棒了，Jeff，這次訪談太精彩了。

Jeff Dean：謝謝你們，非常有趣，感謝邀請。

參考資料：

原視頻

https://www.youtube.com/watch?v=F_1oDPWxpFQ

排版：胡巍巍Jeff Dean萬字訪談：我們正在殺死割裂AI應用，2026年是大一統元年

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.