網易首頁 > 網易號 > 正文申請入駐

LSTM之父勸不動Altman，但Transformer“親爹”已跑路：一個賽道里卷沒意思，無腦scaling也不行

2025-11-29 10:19:09　來源: InfoQ

北京舉報

分享至

編譯 | 褚杏娟

“Transformer 架構可能正把整個行業困在一個局部的瓶頸中，阻礙我們找到真正的智能推理方法”這是該架構的共同發明者之一 Llion Jones 的觀點。

盡管 Llion 是著名論文《Attention Is All You Need》的原始作者之一，但他在很大程度上已經停止了對 Transformer 的研究。他認為，由于 Transformer 本身表現出色，所有人都專注于對同一架構進行小幅改進，而非去探索下一個重大突破。

Llion 出生于英國威爾士，從小就對計算機充滿興趣，他在 14 歲時學會編程，其中嘗試的第一批項目之一就是編寫聊天機器人，而如今他正從事聊天機器人技術的前沿工作。

2011 年，Llion 獲得 Google 軟件工程師職位，開始在 YouTube 工作。他最初申請的是倫敦辦公室的職位，但在通過電話面試后，他才發現自己申請的工作實際上是在加利福尼亞。為了得到這次工作機會，Llion 同意搬到舊金山，并在那里生活了 7 年，之后搬到了東京。

期間，在 YouTube 工作幾年后，Llion 希望再次追求人工智能的興趣。2015 年，他調入 Google Research 從事自然語言處理研究。正值“深度學習”革命時期，這是一個非常不錯的契機。工作一年后，他參與了《Attention is All You Need》的研究。

在 Transformers 的研究工作之后，Llion 在著名未來學家 Ray Kurzweil 手下繼續推動 Transformers 和語言建模技術的發展。工作 12 年后，他在 2023 年離開 Google 并創立了自己的公司 Sakana AI。

Sakana AI 最近剛獲 200 億日元（1.35 億美元）的 B 輪融資，投資方包括三菱 UFJ 金融集團（MUFG）等。融資完成后，企業估值約為 4000 億日元（26.35 億美元）。

Sakana AI 表示，盡管全球 AI 模型的研發競爭日益激烈，“但其巨額成本所對應的經濟回報與在社會中的應用路徑仍不夠明確”。同時指出，“相較于美中兩國，日本作為后來者，在計算資源投入規模上直接競爭并不現實”。因此，公司將致力于開發不依賴龐大算力的高效 AI 技術，以及推動 AI 在社會中的實際應用。

他們最新的成果就是在 NeurIPS 2025 上發布了《Continuous Thought Machine（連續思考機器）》。業內之所以關注，是因為它具有原生的自適應計算能力。這是一種構建遞歸模型的新方法，它為神經元引入了更高層次的概念，并使用“同步”作為表征手段，讓我們能夠以更像人類的方式解決問題。

近期，Llion 和 Sakana AI 研究實驗室科學家 Luke Darlow 在“Machine Learning Street Talk”節目中討論了當前的研究現狀。節目中，Llion 直言“規模化效果太好也是一種不幸”。Luke 則詳細解釋了為什么他們認為新推出的 CTM 架構會顯著優于 Transformer。

我們翻譯并整理了這次采訪，在不改變原意基礎上進行了刪改，以饗讀者。

1 從不再研究 Transformer 說起

Llion：雖然我當年參與發明了 Transformer，但幸運的是，可能除了另外七位共同作者外，沒有人像我一樣在這個領域深耕了這么久。所以我在今年早些時候做了一個決定：大幅減少我在 Transformer 上的研究投入。原因是我強烈感覺到這個領域已經過度飽和了。并不是說 Transformer 已經無事可做，而是我想趁這個機會去做一些完全不同的事情，讓自己在研究方向上擁有更多的探索空間。

其實在 Transformer 剛出現那幾年，AI 研究的氛圍和現在完全不同。現在這種事情已經很難發生了，最大的原因是：我們擁有的研究自由度比過去少了很多。

Transformer 的誕生完全是“自下而上”的。并不是有人制定了一個宏大的計劃，讓大家按圖索驥；而是一群人吃午飯時討論：當前的問題是什么、我們能不能換一種辦法解決，然后真的有自由花上幾個月去驗證想法，最終才碰撞出全新的架構。

如今我們已經在大模型上花了數億美元，而最大的那類“基于進化的搜索”實驗大概也就做到數萬級別而已。我們現在擁有如此巨大的算力，如果真的把這些進化式搜索算法徹底放大，會發生什么？我敢肯定，一旦有人真正下定決心，把這些“演化—生命”類實驗規模化，一定會發現非常有趣的東西。

但當時我提出這類方向時，整個環境都在一頭扎進同一種技術路線里，沒有人對我的建議感興趣，完全沒有。所以現在我創立了自己的公司，可以真正追求那些讓我興奮的技術方向。

主持人：很多人知道我是 Kenneth Stanley 的忠實粉絲，他的那本《為什么偉大不能被計劃》徹底改變了我的人生。他想表達的是，我們要允許大家順著自己的“興趣梯度”去探索，別被各種 KPI 或者委員會給框住了，只有這樣，我們才能真正去“覓食”新知識。如果摻雜了太多的目的性，最后只會搞出一堆毫無生氣的平庸“漿糊”，根本沒法發現那些有趣的新東西。這也正是你們 Sakana AI 這家公司的核心理念，對吧？

Llion：沒錯，正是這樣。我們全公司都是那本書的鐵粉，實際上我們還打算請作者來公司做分享。這確實是我們內部經常討論的哲學問題。

作為聯合創始人，我的核心任務之一就是捍衛研究員現有的自由。說實話，能擁有這種資源去折騰，本身就是一種特權。我見過太多例子了，隨著公司規模擴大，壓力接踵而至，自由空間就會被壓縮。但正因為我們堅信這套哲學，因此我希望盡可能長久地讓大家保持這種研究自由。

主持人：那你覺得，隨著公司慢慢成熟，具體是哪些東西在一點點蠶食這種自由呢？你會怎么形容這個過程？

Llion：現在的 AI 行業，關注度、人才、資金都前所未有得多，這當然是好事。但遺憾的是，這也加劇了競爭壓力。大家都想從技術里榨出價值、變現……

做初創公司，起步時你充滿激情，而且還有資金助跑，所以你有資本去試錯。但不可避免地，大家開始要投資回報、要有產出，你需要趕著出產品，這不可避免地扼殺了研究員的創造力。因為你要發論文，或者要搞出能直接落地的技術，這種壓力一上來，那種“當家作主”的感覺就下去了。

但我真的是這么跟新入職的同事說的：“我就想讓你做你覺得有趣、重要的事情”，我是認真的。

2 要替代 Transformer，必須是碾壓式的好

主持人：YouTube 上有個概念叫“受眾俘獲”（Audience Capture）。我覺得可能也存在一種“技術俘獲”。你看 Google 早期也是非常開放探索的，而現在 Transformer 已經成了所有 AI 技術的基石，這是你的巨大成就。

但類似的故事也在 OpenAI 上演，他們現在滿眼都是商業化機會，他們可能會變成下一個 LinkedIn，變成應用平臺、搜索平臺，甚至社交網絡。我想這也可能發生在你們身上，特別是考慮到今天要聊的這篇新論文——“連續思維機器”（Continuous Thought Machines，簡稱 CTM）。這可能是一項革命性的技術，但一旦大家看清了它的商業潛力，那種變現的壓力也會隨之而來。

Llion：我很喜歡“受眾俘獲”這個類比。現在的確可以說，我們都被大語言模型（LLM）給“俘獲”了。它們效果太好了，導致所有人都一窩蜂地去搞這個。我很擔心我們現在是不是卡在一個“局部最優解”里出不來了，我們得想辦法跳出去。

剛才聊到 Transformer，我其實特別喜歡回顧它誕生前的那段時期，因為太有代表性了。

在 Transformer 之前，主流技術是 RNN（循環神經網絡）。當時也是這種感覺：當我們搞出 Seq2Seq 時，那是個巨大突破，翻譯質量、語音識別質量都大幅提升。當時的氣氛跟現在很像，大家都覺得：“行了，就是它了，我們只要把這技術打磨完美就行。”

那會兒我最癡迷的任務是字符級語言建模。每當有基于 RNN 的新論文出來，我就特興奮，趕緊找來看，想知道他們是怎么做到的。結果你會發現，很多論文其實只是在同樣的架構上做微調。比如 LSTM、GRU，或者用單位矩陣初始化以使用 ReLU 函數，或者稍微調整門控位置，或者上下層都加上門控。

我記得當時特別喜歡一個叫“分層 LSTM”的研究，模型可以自己決定是否計算某些層。如果你用維基百科的數據訓練它，你會發現它的計算決策結構竟然跟句子結構吻合了。我當時愛死這些東西了！但是呢，這些改進帶來的提升總是很微小，比如從 1.26 比特 / 字符降到 1.25，再到 1.24。這在當時就算成果，能發論文，大家也很興奮。

但是后來 Transformer 出來了。我之后去的那個團隊，第一次嘗試把非常深、僅解碼器（Decoder-only）的 Transformer 用在語言建模上，結果直接干到了 1.1 左右。

效果好到什么程度？同事特意跑到我工位旁，禮貌地問：“你是不是算錯了？你用的單位是不是納特而不是比特？” 我們說：“不不不，數是對的，就是這么強。”后來我也被震撼到了：之前那所有的研究——順便說一句，那都是非常優秀的研究——突然之間就變得毫無意義了。

真的，之前大家在 RNN 上做的那些無休止的排列組合，瞬間就成了浪費時間。

我覺得我們現在就處在類似的境地。好多論文還是守著同一個架構，做著無數瑣碎的微調，比如調整歸一化層的位置或者采用略微不同的訓練方法等。我們可能又在犯同樣的錯誤，浪費同樣的時間。

我不認為游戲已經結束了，我不相信這就是最終架構，只要無腦 scaling 就行。我相信遲早會有新的突破出現，到時候回頭看，大家又會發現：“哎呀，我們要早點醒悟就好了，當時浪費了不少時間。”

主持人：沒錯，我們其實是被自己的成功給“套牢”了。這就是所謂的“吸引盆”（Basin of Attraction，物理學術語，此處比喻陷入某種局部最優的狀態），而且這種坑還不少。Sara Hooker 之前提過“硬件彩票（hardware lottery）”，而這就像是一場“架構彩票”。現在我們就在這樣一個階段。大家都在講基座模型，潛臺詞就是有了它你能做任何事。

以前在企業里，就算是中型公司，也有數據科學家、機器學習工程師去微調架構。但現在呢，只剩下 AI 工程師在搞提示詞工程了。所以你的意思是，那些能讓我們思維多元化、想出新架構的基礎技能，正在消亡？

Llion：這點我可能不太認同。我覺得我們有的是才華橫溢、充滿創造力的研究員，但問題是，他們的才華沒地兒施展。

舉個例子，在學術界，發論文的壓力太大了。你會想：“我有個絕妙的點子，但萬一跑不通呢？或者這想法太怪了，審稿人很難接受，我得費大勁去推銷這個概念。” 相比之下，去試個新的位置編碼就安全多了。現在的環境，不管是學術界還是公司，其實都沒給研究人員足夠的自由去做他們真正想做的研究。

主持人：確實，而且還有個有意思的現象：即便有很棒的新研究出來，大廠也不一定用。我跟 Sepp Hochreiter（注：LSTM 之父）聊過，他有一堆新架構的想法，但 OpenAI 根本不采納。不過谷歌倒是搞了個擴散語言模型，挺酷的。我想聽聽你的看法，這是為什么？

現在有些說法，比如通用表征方面，說 Transformer 的表征方式跟人腦很像。還有人覺得，只要規模上去、算力管夠，那是“條條大路通羅馬”，既然這樣，何必費勁搞新架構呢？

Llion：其實已經有更好的了。研究早就證明有些架構比 Transformer 強，但問題是，強得還不夠多。

你要想讓整個行業放棄一套如此成熟的架構，光是“好一點”是沒用的，必須是“碾壓式的好”才行。畢竟，大家熟悉 Transformer，知道如何訓練它、如何運作、內部原理是什么，也知道如何微調它，而且已經有了全套用于 Transformer 訓練、微調和推理的軟件。

Transformer 當年對比 RNN，就是這種碾壓：將它應用到新問題上時，訓練速度飛快，準確率飆升，你不得不轉向它。深度學習革命也是一樣，當時好多人懷疑，覺得符號主義（Symbolic AI）更好，結果深度學習的效果擺在那兒，好到你根本沒法忽視。

這反而讓尋找“下一代技術”變得更難了。這就像一種“地心引力”，總把你拉回到“Transformer 已經夠用了”的舒適區。你可能搞出了個精巧的新架構，準確率看著不錯，但 OpenAI 直接把模型做大十倍，效果立馬把你秒了，那大家自然就覺得“接著奏樂接著舞”唄。

3 “規模化效果太好也是一種不幸”

主持人：我能不能再補充一個理由？我很喜歡的論文“Questioning Representational Optimism in Deep Learning: The Fractured Entangled Representation Hypothesis”里，有個“捷徑學習”的問題，我覺得現在的繁榮多少有點海市蜃樓的味道，可能潛藏著我們還沒意識到的隱患。而且，我們開始“濫用”架構了。明明知道需要自適應計算來做推理，需要不確定性量化，但我們所做的只是把這些功能 “嫁接” 到現有架構上，而不是設計一種天生就具備這些能力的架構。

Llion：沒錯，我們現在做的連續思維機器 CTM 就是想從根本上解決這些問題。現在的技術雖然厲害，但總感覺哪里不對勁。

現在有個流行詞叫“鋸齒狀智能（Jagged Intelligence）”，就是說它上一秒能解決博士級的難題，下一秒就能一本正經地胡說八道，錯得離譜，這種反差感太強了。我覺得這恰恰反映了當前架構在底層邏輯上可能有根本性的缺陷。

但也正是因為現在的技術“太好”了，好到讓你離不開。你說到基座模型能做任何事，是的，現在的神經網絡太強了。只要你有足夠的耐心、算力和數據，你確實可以逼著它們學會做任何事。但我并不覺得它們“想”這么做，是我們硬逼著它們去擬合的。它們確實是“通用函數近似器”，但我認為存在某一類函數逼近器，更“愿意”以人類的方式去表征世界。

我有篇很喜歡的冷門論文，叫 Intelligent Matrix Exponentiation，好像還被拒稿了。論文中有一個經典的螺旋數據集實驗，需要區分螺旋中的兩個類別。論文展示了傳統 RNN、多層感知機（MLP）和 tanh 激活的 MLP 的決策邊界 —— 它們都解決了這個問題，技術上都能正確分類所有點，在這個簡單數據集上取得了很高的測試分數。然后，論文展示了他們提出的新層的決策邊界，那是一個完整的螺旋，也就是說，這個模型把螺旋數據表示成了真正的螺旋。如果數據本來就是螺旋，我們難道不應該按螺旋來表示它嗎？再回頭看傳統 ReLU MLP 的決策邊界，你會發現全是一些細碎的分段線性邊界在硬拼、硬逼近。

這就是我想說的：是的，只要訓練足夠充分，不斷調整這些分段線性邊界，它確實能擬合螺旋并達到高準確率。但你看到這些圖像時，完全不覺得 ReLU 版本的模型真正 “理解” 了這是一個螺旋。而當你用螺旋的方式來表征時，模型不僅能理解，還能正確外推，因為螺旋會一直向外延伸。

主持人：你剛才觸及到了一個非常迷人的點，因為我們一直在強調適應性和自適應計算的必要性。我很推崇 Randall Balestriero 的神經網絡樣條理論（Spline Theory）。在 TensorFlow Playground 上可以看到，當 ReLU 網絡試圖去擬合一個螺旋流形時，它的表現方式其實非常接近局部敏感哈希結構（Locality Sensitive Hashing, LSH）——它將空間切割成一塊塊的區域，然后通過這些分塊去“預測”螺旋的形狀。

但我們真正想要的遠不止于此。這也與“冒名頂替（Imposter）”現象有關：模型可以“沿著圖案把螺旋描一遍”，卻無法繼續延展這個模式。僅僅描摹出螺旋的軌跡，和真正理解并延續這個模式，兩者天差地別。

如果模型能夠以建設性方式來學習，也就是你們論文中所說的那種“復雜化”——通過抽象的構建塊，再結合自適應計算，那么它就能真正理解螺旋的結構。這意味著，通過自適應計算，模型可以延續螺旋的形狀，然后更新自身權重以實現適應性，這對智能來說至關重要。

我們非常清楚，未來的模型應該具備這些能力。但矛盾的是，當前的大模型“太能干了”，表面上，它們幾乎比真正的自適應智能系統更聰明：總能說出我們想聽的話，表現出令人驚嘆的智能。然而我們也同樣清楚：它們依然缺失一些最基本、最關鍵的智能屬性，而這正是我們必須跨過去的下一道門檻。

Llion：所以我對現在的視頻生成模型還是持保留態度的。你看之前有一陣子，大家一眼就能看出是 AI 生成的，因為手指頭數目不對。當然，現在數據更多了，算力更強了，訓練技巧也好了，模型終于“屈服”了，畫出來的確實是五根手指。

但我們真的解決問題了嗎？還是只是用蠻力逼著神經網絡記住了“手有五根指頭”？如果它擁有更好的表征空間，比如有“螺旋就按螺旋來表示”這種最基礎的直覺式能力，情況會完全不同，它自然就“知道”手指該有幾個，也不會犯這種低級錯誤。

某種意義上，這些模型表現得如此好，是一種不幸。規模化效果太好也是一種不幸，因為這讓人們太容易把根本性的問題一掃了之。

4 大模型會取代人類做科研嗎

主持人：你們可能寫出了我心目中的年度最佳論文。這可能就是帶我們邁向下一步的創新。你們還在歐洲拿到了 spotlight，這也證明了這篇論文有多出色。

Llion：其實 CTM（連續思維機器），并沒有完全脫離我們如今被困住的“局部最優”處境，它并不是一種“完全跳出框架、顛覆性的新技術”。我們只是借用了一個很樸素的生物學靈感：神經元的同步機制。當然，這不一定完全符合生物學現實，人腦神經元也不是真的這么連線來搞同步的。但我就是想鼓勵大家做這類研究。

而且說實話，這種點子其實很好“賣”。我們在這個過程中完全不用擔心被搶發。這種壓力完全消失了，我們不需要急著發論文，因為我們覺得：“大概率也沒別人在搞這玩意兒。”

我們最終能獲得 spotlight，我認為關鍵就在于：我們花時間把論文打磨得很細致，完成了我們想要的基準實驗，嘗試了所有計劃中的任務，最終形成了一篇完善的論文。

我希望能鼓勵研究者去承擔更多一點風險，去探索那些更具想象力、帶著一點投機性質、但面向長遠的科學方向。遺憾的是，大家不敢試。但我希望 CTM 能成為一個榜樣，告訴大家這是可行的。我們試了，雖然有風險，但我們找到了有意思的東西，也發了成功的論文。

主持人：如果我們真的找到了一個系統，能獲取知識、設計新架構，做那種你說的開放式科學研究，那你認為未來研究進展的主導權會轉移到模型上嗎？

Llion：我覺得會。至于它會不會完全取代人類，我自己也常常在不同觀點之間來回搖擺。

現在強大的算法已經在輔助我們做研究了，而未來它可能會成為一種更強大的輔助工具。比如，我們推出的 “AI 科學家” 系統就展示了端到端的研究能力：從輸入一個研究想法開始，你可以完全放手，讓它自己完成“構思問題、寫代碼、跑實驗、收集結果、再寫論文”的整個科研流程。事實上，我們最近已經有一篇 100% 由 AI 生成的論文被接受了。

但我們這么做主要是為了證明其可行性。但如果讓我選，我希望它更具交互性：我拋出個想法，它能反饋更多點子；可以跟我討論，再去寫代碼；我可以查看它的代碼、檢查邏輯，它跑實驗，再在結果出來后我們一起討論。這才是我設想的近期內與 AI 合作研究的方式。

主持人：你能深入談談為什么嗎？是因為模型還不夠懂，需要我們監督？還是說希望產出的成果符合人類興趣？

Llion：更多是因為，最開始拋出的那個研究想法其實很難描述清楚。這跟帶實習生是一樣的。我不可能跟實習生說“我有一個瘋狂的想法”，然后解釋五分鐘就把他扔那兒四個月不管。必須有來回的討論，我有我想探索的特定方向，我得不斷地把他們拉回我最初設想的軌道上。

主持人：你之所以能做到這一點，是因為你有豐富的背景、經驗、路徑依賴，你能夠基于深刻的理解做直覺上的創造性決策；你知道哪些想法是值得追的，哪些不是。而實習生沒有這些，未來的 AI 模型也許會具備。

Llion：對，沒錯。如果模型發展到那種程度，我的輸入反而會拖后腿，那確實就要放手了。這有點像國際象棋。曾經有一段時間，人機結合下棋能贏過純 AI 引擎。但現在已經不是了，人類參與進來反而會讓 AI 下得更糟。那當然會是一個新的時代。

5 CTM 做了哪些創新

主持人：我覺得現在正好可以聊聊這篇論文的細節了，就是你剛才提到的“連續思維機器”。

Luke：我的主要研究方向就是 CTM。我們整個團隊大概在這個項目上投入了八個月左右的時間。在目前的 AI 研究領域，八個月的周期可能算有點久了。

它最初不叫這個名字，我們之前叫它“異步思維機器”，但每次有人問異步體現在哪，就有點講不清楚, 所以改成了“連續思維機器”。它主要包含三個創新點。

第一個是我們所謂的“內部思維維度”（Internal Thought Dimension）。這個概念本身不新，它跟“潛在推理”（Latent Reasoning）的概念類似，本質上是在一個序列化的維度上投入算力。當你用這種框架來思考問題時，會發現很多看似需要智能才能解決的問題，其實本質上都是序列化的問題。

比如，我們在 CTM 上測試的第一個主要任務就是“迷宮求解”。

如果你把迷宮圖片輸入一個卷積神經網絡，讓它輸出一個同尺寸的圖像，在路徑位置標 1、非路徑位置標 0，這對深度學習來說幾乎是小菜一碟。已有很出色的研究證明，通過謹慎的訓練方式，可以讓這種方法幾乎無限擴展，效果非常驚人。

但如果你把這種方法拿掉，轉而問：“更接近人類的解法是什么？”它就變成了一個序列問題：你需要一步步地規劃 “向上、向右、向上、向左” 等路徑，從起點一步步推演到終點。

當你把問題約束到這種序列化方式時，對機器學習系統來說，挑戰性反而大大增加了。所以，這成為了我們 CTM 的“Hello World”問題，而我們就是通過在模型內部引入一個連續的“思維序列維度”來解決它。

第二項創新是重新思考“神經元應該是什么”。

在認知神經科學中，有大量優秀的研究揭示生物神經元是如何工作的。而在深度學習領域，神經元則被簡化為非常抽象的東西，例如 ReLU 本質上是要么開、要么關。這種抽象其實是非常粗糙的。

于是我們嘗試：讓每個神經元本身就是一個小模型。事實證明，這種方式能夠在系統中自然形成更豐富的動態結構，也讓模型具備更復雜的內部行為。

第三個創新點是表征方式。

這來自一個核心問題：如果思考是一個過程，那它的“表示”到底是什么？在生物系統中，思考的表示難道只是“當下每個神經元的狀態”嗎？我個人的觀點是：不是。思考不是瞬時狀態，而是跨時間存在的。

所以在工程上，我們不再衡量“某一時刻的神經元狀態”，而是測量神經元之間在時間上的同步模式，即成對神經元如何一起變化，以及它們與其他神經元如何協同。這種表示方式打開了一個全新的空間，使得許多新能力成為可能。

主持人：Anthropic 之前發過一篇關于生物學類比的論文，他們也在談論規劃和思考。他們聲稱他們的系統是在做提前規劃，但我覺得你們的系統在計算上是不同的，可以解釋一下嗎？

Luke：是的，如果從圖靈機的角度來看，這種計算邊界非常有趣。圖靈機能夠在紙帶上讀寫，這種圖靈完備的概念顯然是一個改變世界的偉大想法。

而 Transformer 和 CTM 的主要區別在于：CTM 的“內部思維過程”可以用來拆解問題。

一個問題如果是簡單的，當然可以一次性求解。例如前面迷宮的例子，理論上你可以一口氣解決。但對于很多“真實且困難”的問題，把它一次性解決會讓難度呈指數級飆升。

比如在迷宮任務中，如果讓模型“一步到位”預測未來 100~200 步的路徑，現有的模型做不到，我們訓練的模型也不行。因此，我們必須建立一個“自動課程學習”系統：先讓模型只預測第一步，預測對了再訓練第二步，然后是第三步、第四步……最終形成復雜能力。

真正有意思的是這種訓練方式帶來的結果行為。

我喜歡的一種研究方式，也是我鼓勵團隊成員采用的方式，是理解模型的行為，而不是只看幾個指標。因為現在我們訓練出的模型在許多方面展現出越來越“智能”的行為，常常讓我們驚訝。如果把它們復雜的行為壓縮成一個分數或少量指標，可能根本不適合，甚至會誤導我們。通過觀察模型在特定訓練方案下的行為方式，反而能更好理解內部到底發生了什么。

主持人：你們是固定思考步數的嗎？大概有一個“上下文窗口”？大概是 100 步左右？

Luke：是的，在迷宮任務中，模型每一步都能看到完整的迷宮圖像（它始終可以“同時觀察整個輸入”），CTM 對輸入數據類型是完全“無感”的（語言 token、圖像、數字排序任務都可以）。模型采用注意力機制從數據中檢索信息，并且有大約 100 個內部思考步驟。

訓練方式是這樣的：比如模型正確預測了迷宮的前三步后，在第四步走錯了，我們就會停止對前三步的監督，只監督它第四步怎么走。實踐中我們會讓它多監督 5 步，但原理相同。這會形成一種自我引導式的能力增長機制。

對理解力強的讀者來說，你可以很容易想到這種方式如何推廣到其他序列任務，比如語言模型的長距離 token 預測、分步驟規劃任務、多變量排序或推理過程等各種需要“連續思考”的領域。

主持人：我對“自適應計算”這個概念很感興趣。第一個問題是，模型的性能對這個固定步數有多敏感？第二個問題是，這些步數能否是“可變的”？也就是說，模型能否根據不確定性或某種準則，自動決定思考更少或更多步？第三個問題是，是否有可能讓模型擁有“任意多”甚至“無限多”的思考步數？

Luke：這是非常好的問題。我先回答關于不確定性和步數敏感性的問題。

一個很好的例子是：我們在 ImageNet 分類任務上訓練 CTM，損失函數非常簡單：我們讓模型運行，例如 50 個內部思考步驟，然后從 0 到 49 之間選兩個點：模型表現最好的一步（損失最低）和模型最確定的一步（輸出置信度最高），在這兩個點分別計算交叉熵，然后取平均作為最終損失。

這么做會自然誘導一種行為：簡單樣本通常在第 1、2 步就能解決，而困難樣本會自然地“思考得更久”。模型會“自動”使用更多的內部時間，而不需要人為設計復雜機制去強迫它思考更多步。

主持人：你們把每個神經元都建模成一個 MLP，這非常有意思。能進一步講講這個設計嗎？你們還用了“同步化”的概念，能詳細解釋一下嗎？

Luke：當然可以。這是解釋論文里所謂“神經元級模型（Neuron-Level Models, NLM）”的好時機，因為同步化的概念正是建立在它之上的。

你可以把一個遞歸系統想象成一個狀態向量，這個狀態向量會隨著步數不斷更新。我們追蹤這個狀態向量，并讓它隨時間展開。對于系統中的每一個神經元 i 來說，我們都有一個展開的時間序列，該序列雖然是離散的，但數值是連續的。這些時間序列定義了我們所謂的“隨時間變化的激活值”。

“同步化”是什么？非常簡單：同步化就是兩個神經元時間序列的向量點積。

假設系統中有 d 個神經元，那么就有大約種不同的同步對。例如神經元 1 如何與神經元 2 同步、神經元 1 如何與神經元 3 同步……以此類推。同步化的意義在于，它不是看某個單點的激活，而是看激活隨時間的動態關系。

NLM 的工作原理是：它會接收一個有限歷史激活序列（比如前若干步的神經元激活值），而不是只考慮單步激活。它利用這個歷史信息來計算輸出激活值，這就是從“前激活”（pre-activation）到“后激活”（post-activation）的過程。

你可能會覺得這很隨意，但它確實帶來了性能上的提升。不過這并非我們的主要目的。我們追求的是“生物學上的合理性建模”，即在生物學（大腦信息處理的實現方式）和深度學習（高度并行、學習超快、反向傳播友好）之間找到一個平衡點。NLM 正是這個理想的中間方案，它能讓我們引入一些生物學靈感，但仍然能用深度學習的方式進行訓練。同步的概念則是應用在這些 NLM 的輸出之上的。

主持人：關于規模擴展的問題，時間復雜度在同步矩陣的維度上是平方級的，你們在論文中提到通過“子采樣”來提高性能，但這是否會影響穩定性？這么做的代價是什么？

Luke ：這是一個很好的問題。在穩定性方面，我們發現了一個很有趣的現象，也是我們在整個論文實驗過程中一直感受到的：無論我們如何嘗試，它都能“跑起來”，而且對各種超參數的容忍度非常高。相比之下，用 RNN 或 LSTM 通過時間反向傳播（BPTT）通常非常棘手，內部迭代步數一多，學習就會崩潰。

我們使用同步機制，某種意義上是在所有時間點觸及了所有神經元，這對“梯度傳播”非常有幫助。

還有一個與同步相關的有趣點：假設有 d 個神經元，就會有種可能的組合，這意味著系統的底層狀態或表征空間遠比僅使用 d 個神經元要大得多。而這一點對下游計算、性能以及我們能實現的功能意味著什么，正是我們目前正在積極探索的。

6 CTM 為什么優于 Transformer

主持人：能簡單解釋一下，為什么你們認為 CTM 架構在這些方面會顯著優于 Transformer 嗎？

Luke：我覺得過去幾年，語言模型領域最吸引人的工作，就是和“思維鏈”（CoT）相關的。某種程度上，我認為 CoT 是增加系統計算力的另一種新的“擴展維度”。這是一個非常深刻的突破。我們現在要做的，就是讓推理過程完全發生在模型內部，但同時仍然以某種序列化的方式運行。我認為這是非常重要的一點。

你剛才提到了 Gemini 的擴散模型，現在確實有很多團隊在探索類似方向。而我認為 CTM 通過“同步機制”和“多層級的時間表征”，在這方面提供了一種尚未被其他方法觸及的靈活性。更關鍵的是，這種高維的潛在空間可以用于不斷預測 ARC 中的下一步、再下一百步、甚至兩百步，把復雜問題分解為模型可以快速搜索的推理路徑。我認為這是一條很有前景的路線。

主持人：你們這個架構跟 Alex Graves 的神經圖靈機有沒有什么關聯？

Luke：我覺得有。神經圖靈機最難的部分在于內存的讀寫，因為它是一個離散的動作，這帶來了很多挑戰。我不敢說 CTM 明確具備圖靈完備性，但我們是在一個潛在空間做推理，并以一種面向多任務的方式自行展開。

我想分享一個相關的觀察：以 ImageNet 分類為例，包括各種分類任務，它們是很好的測試場景。數據中有非常簡單的樣本，也有極其困難的樣本。當我們訓練 ViT 或 CNN 來做分類時，它必須把從“簡單的貓”到“復雜且樣本稀少的類別”的所有推理邏輯，全都塞進同一個表征空間里，最后在統一的輸出層做分類。

我認為，CTM 的設計打破了這種限制：我們把推理拆開，讓模型在不同時間點上判斷：“哦，我這里已經足夠確定，可以結束了”，或者“這個樣本更復雜，需要繼續思考”，那么任務就能自然分解為“簡單部分”和“困難部分”。我們知道課程學習和連續式學習是有效的，這也是人類學習的方式。如果把這種機制直接鑲嵌進模型架構里，并讓它自然涌現，那絕對值得探索。

Llion：順便說到模型校準，現在的神經網絡往往校準得很差。理想狀態下，如果模型對一個類別的預測概率是 50%，那么它應該在 50% 的時間里是正確的。但事實是，大多數模型訓練久了都會變得嚴重失衡，需要做大量后處理來修正。而我們測了 CTM 的校準度，結果幾乎是完美校準。這再次證明了這種架構可能是一種更好的設計方式。

有趣的是，我們并不是為了“做一個校準好的模型”而設計 CTM，也不是為了“實現自適應計算時間”。

我當年特別喜歡 Alex Graves 關于自適應計算時間的論文，那篇論文為了讓模型學會“什么時候該停”，不得不添加一個額外損失項來懲罰過多的計算，并且需要大量超參搜索才能讓模型真正學會動態計算。但在 CTM 里，我們之前講過的損失函數設計，這種自適應計算時間竟然是自然涌現的，我們完全沒有顯式去優化它。

我覺得這才是研究應該走的方向：不是預設一個特定目標，而是從一個有趣的新架構出發，沿著“有意思的梯度方向”探索，讓新的能力自然生長出來。

主持人：沒錯。說到這個，我覺得你們論文最令人興奮的地方可能是，之前討論的 “路徑依賴” 和 “逐步構建的理解”，這種 “復雜化” 的過程可能與世界模型相關，也與主動推理有關。我們要構建能持續學習、更新參數的智能體，重要的是能構建這種“路徑依賴的理解”。因為“如何到達那里”非常重要，這個架構有可能讓這些智能體利用這種算法，去探索空間中的軌跡，找到最佳路徑，并真正構建出一種 “按自然關節劃分世界” 的理解方式。

Luke：這是一個很精妙的視角，我以前沒有這樣想過。但確實，這種立場在處理模糊問題時會變得非常有趣。因為“用一種方式切割世界”，可能和“用另一種方式切割世界”同樣有效。

語言模型出現的幻覺，也許就是在某種精細的層次上“切割了世界”，只是在我們認為的“幻覺”衡量標準下，它的性能不達標。但是當你沿著自回歸生成 token 的路徑走下去，你最終會得到對世界的一種不同的切割。

而我們想要做的，是訓練一個模型，讓它能隱式意識到它正在以不同的方式切割世界，并且能夠探索這些‘切割’的可能性。我認為這是一種非常令人興奮的研究方向：將問題分解為可解決的小部分，并以自然的方式學習求解，而無需過多的人工修改。

主持人：這也是我一直在思考的問題。比如說，盡管我非常喜歡 Cholet 衡量智能的觀點，但在他的框架里，“適應新奇性”的核心是給出正確答案，而“給出這個答案的原因”同樣重要。在機器學習體系中，我們往往依賴損失函數，而損失函數經常會引導模型走向各種捷徑。當然，我們也可以退回到符號主義系統，講究知識構建與語義保持的原則化路徑。但我們現在做的是混合體系，因此應該存在一種自然的推理方式：即便最終目標是優化損失函數，但由于模型在開放空間中探索的路徑不同，我們至少能在機制層面更有信心：它所進行的推理更符合真實世界的結構。

Luke：你的理解非常到位。顯然，不止我們在這樣思考，也不止我們在嘗試這樣做。真正特別的是，我們恰好擁有一種非常適合做這件事的架構——而且某種程度上是意外的，因為它本來也不是為了這些目標設計的。我們只是盡可能尊重大腦、尊重自然的機制：如果我們構建一個受此啟發的系統，會發生什么？會出現哪些不同的解題方式？而這些不同的方式出現之后，又能讓我們提出哪些新的哲學層面、智能層面的提問？這就是我們現在所在的階段。

對我來說，有時會感覺問題太多、能處理的人手太少。但我也想借這個機會鼓勵年輕研究者：追隨你的興趣，構建你真正關心的東西，看看它會產生什么效果，打開哪些新的大門，引領你走向哪些更深的領域。

7 可否用來構建下一代語言模型

主持人：我們昨天也討論過，語言可以被視為一種 “迷宮”，那么有沒有可能利用這種架構來構建下一代語言模型？

Luke：說實話，這正是我目前正在積極探索的方向。當迷宮任務加入歧義性之后，它變得格外有趣，因為迷宮可能有多種解法。老實說我自己還沒嘗試，但也許下周我就會試一試。

你可以想象一個智能體（或 CTM）在觀察迷宮并做出行動軌跡。在我們最新的 arXiv 論文（最終版本）中，我們添加了一個補充部分，其中列出了實驗中出現的 14 個有趣現象，其中一個就是：在訓練中，模型會先沿著某條路徑前進，然后突然意識到“糟糕，錯了”，接著回溯，再走另一條路徑。隨著訓練的進行，它越來越擅長迷宮導航，依靠多頭注意力的分布式能力逐步收斂到一種很有效的策略。但在早期階段，它確實會探索多條路徑、反復回溯。

我們還有一組更震撼的實驗：如果模型沒有足夠的時間去走完整個迷宮，它會采用“福斯特算法”式的更快的算法。這讓我非常震驚，在被嚴重限制“思考步數”的情況下，模型不再沿迷宮路徑慢慢走，而是直接跳到迷宮中大致正確的位置，再倒推路徑；然后再次跳躍、再倒推，如此周而復始。這種“跳躍式反向填補路徑”的行為完全是由系統時間約束自然涌現。

這引出了很多深層問題：在有限思考時間 vs. 無限思考時間的條件下，模型具體學到了什么不同的算法？這些差異是否揭示了人類在“受限條件下”與“開放條件下”思考方式的不同？這種行為是否觸及某些關于推理本質的問題？我認為這些問題都非常值得繼續挖掘。

主持人：你們倆都是群體方法和集體智能的忠實粉絲，現在我們可以橫向擴展這種架構：不僅僅是簡單的并行化，還包括并行模型之間的權重共享等。這種擴展可能會帶來什么潛在收益？

Luke：這是個非常有趣的研究方向。我們團隊現在正在積極探索的一件事，就是記憶機制，尤其是長期記憶，以及這種機制對于這類系統意味著什么。

舉個例子：可以構造一個實驗，把一些智能體放進迷宮里，讓它們自己去解決。當然，不是論文里那種做法，而是在一個極度受限的設置中，例如智能體只能看到周圍 5×5 的局部區域，然后我們再給它提供一種保存與檢索記憶的機制。任務很簡單：走到迷宮終點。

模型必須學會如何構造記憶，以便當它再次來到一個地方時，能意識到：“上次我在這里走錯了，這次要換一條路。”進一步地，可以讓多個并行智能體共享同一個記憶結構，在同一迷宮里行動，觀察會發生什么。它們訪問同一個全局記憶，幾乎像一種“文化記憶”，所有智能體都可以利用它協作解決任務。我確實認為，記憶將是未來 AI 研究的一個關鍵要素。

Llion：剛才也提到推理能力。最近外界之所以感覺“推理能力大進步”，因為這確實是大家目前最關注的方向之一。

我們最近發布了一個新數據集，叫 SudokuBench。幾周前看到你們播客里自然提到它，我挺開心的。我想多聊一下這個基準，因為我在推廣它時遇到點困難：聽起來并不“性感”，畢竟一提到數獨，大多數人會覺得“這不是早就被解決了嗎？” 那一堆數獨怎么會對推理研究有意義？

但我們談的不是普通數獨，而是 “變體數獨（variant Sudokus）”。

普通數獨規則是：每行、每列、每宮填 1~9，不重復。變體數獨則是在普通數獨規則之上，附加了任意數量、任意形式的額外規則，并且每一個都由人類精心手工設計，擁有完全不同的約束結構。其中一些約束需要非常強的自然語言理解。比如有個謎題會給你一段規則文本，然后告訴你：“順便說一句，剛才那段描述里有一個數字是錯的。” 也就是說，你必須先對“規則本身”做一次元推理，才能開始解題。還有一些謎題是在數獨網格上疊加迷宮結構，要求小老鼠按迷宮路徑走到奶酪的位置，但路徑上經過的格子數字還要滿足額外的加和約束。

這些變體數獨的多樣性難以用語言描述。如果有模型能在這個基準上取得好成績，它必然具備極其強大的推理能力。目前最好的模型只能在其中最簡單、最小的謎題上達到 15% 左右。

我們會發布一篇關于 GPT-5 表現的博客，雖然有提升，但依然完全無法解出許多普通人都能解出的謎題。

我非常喜歡這個數據集，它的靈感來自 Andrej Karpathy 的一句話：

我們現在有大量來自互聯網的文本數據，但如果追求 AGI，你真正需要的不是“所有人類寫過的文字”，而是“他們寫下這些文字時腦中的思維軌跡。” 如果能學習這些，人類級推理就有可能出現。

我當時就在想：這種數據一定存在于某個地方。

我最開始想到的是哲學，比如意識流寫作，但那并不可靠。結果在我看 YouTube 時找到了 Cracking the Cryptic 頻道。頻道里兩位英國專家會現場解極難的變體數獨，視頻有時長達 4 小時，而且他們會用極度細致的方式講解每一步推理過程，這幾乎是完美的“思維軌跡”示例。

我們征得他們同意之后，把所有視頻做了轉寫和處理，形成了一個高質量的人類推理語料庫，用于模仿學習。

我們也試過用內部模型訓練，但事實證明，我可能把基準做得太高了，以至于目前模型還沒能有效利用這些數據。我們之后如果取得進展會公開。

我想強調的是，這是一個完全不同類型的推理基準。它既極度明確，又極度難以泛化，而當前 AI 無法做到“找到破題點”，只會退化為機械窮舉式嘗試，完全不像我們從視頻語料中看到的人類推理方式。因此，我想在這里向全行業發出挑戰：如果能在這個基準上取得突破，那將是真正意義上的 AI 推理能力進步。

主持人：你覺得這些推理模式的多樣性如何？也許我有些理想主義，但我喜歡 “知識的演繹閉合” 這個想法：存在一個巨大的推理樹，我們每個人都掌握著這棵樹不同深度的部分。越聰明、知識越淵博的人，就能沿著這棵樹走得越深。我們原則上可以構建推理引擎，讓它從第一原理（First Principles）開始推理。但這可能是“計算上不可約的”（Computationally Irreducible），意味著你必須執行所有的步驟。但由于我們并不擁有這棵樹的全部，我們需要做的就是 “四處摸索”，尋找 “樂高積木”。也許目前 AI 領域需要做的，就是盡可能多地獲取這棵樹的部分。但我們能一直深入到最底層嗎？

Llion：這是一個引人深思的問題。這棵樹可能會非常龐大。人類在解謎時，肯定是在實時學習，不斷發現這棵樹的新部分。這實際上是一個“元任務”，你不僅在推理，你還在對推理本身進行推理。

我不認為我們現在的 AI 具備這種能力。如果你看那些視頻，他們會說：“好的，這看起來像一個奇偶性任務”，或者“這是一個集合論問題”，又或者“也許我該拿出路徑工具來追蹤一下。” 當然，這些專業人士的腦子里已經有了你說的這個龐大的“樂高積木”集合。所以他們能一眼認出：“這種規則通常需要這類樂高積木。”

看著他們憑借直覺就知道該從哪里入手，真的很神奇。而像我這樣解謎不多的人，就需要花很多時間去嘗試。但即使是他們也不是完美的。你經常看到他們嘗試一種推理路徑，然后發現：“不行，這不夠明確。” 然后他們會回溯，再走另一條路徑。再說一遍，這是我們在當前的 AI 模型中，在解決這個基準測試時看不到的行為。

主持人：這棵樹真的非常大，我想樹上許多推理模式之間的“系統發育距離”（phylogenetic distance）非常遙遠，這使得它們之間很難直接跳躍。這也是為什么我認為作為“集體智能”能很好地合作，因為我們能找到跳到樹上不同部分的方法。

Llion：是的，我想這可能就是為什么我們現在嘗試應用的強化學習（RL）算法行不通的原因。想要學到這些突破性的思路、理解那些細微的推理，你必須進行采樣。但所需的推理類型太具體、太稀有，所以這種技術根本行不通。目前社區里有一種錯覺：“我們有 RL，現在所有問題都解決了。” 但對于這個數據集來說，并非如此。

主持人：在結束之前，我想問一下你們正在招人嗎？我們聽眾里有很多優秀的機器學習工程師和科學家，我覺得能在 Sakana 工作會是他們夢想中的工作。

Llion：是的，我們當然在招聘。正如我之前在采訪中所說，我真心希望給研究人員盡可能多的“研究自由”。我愿意下這個賭注！我相信這會帶來非常有趣的結果，而且我們已經看到很多有趣的東西涌現出來了。

https://www.youtube.com/watch?v=DtePicx_kFY

聲明：本文為 InfoQ 整理，不代表平臺觀點，未經許可禁止轉載。

AI 重塑組織的浪潮已至，Agentic 企業時代正式開啟！當 AI 不再是單純的輔助工具，而是深度融入業務核心、驅動組織形態與運作邏輯全面革新的核心力量。

把握行業變革關鍵節點，12 月 19 日 - 20 日，AICon 全球人工智能開發與應用大會（北京站）即將重磅啟幕！本屆大會精準錨定行業前沿，聚焦大模型訓練與推理、AI Agent、研發新范式與組織革新，邀您共同深入探討：如何構建起可信賴、可規模化、可商業化的 Agentic 操作系統，讓 AI 真正成為企業降本增效、突破增長天花板的核心引擎。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.