
編譯 | 褚杏娟
“Transformer 架構可能正把整個行業困在一個局部的瓶頸中,阻礙我們找到真正的智能推理方法”這是該架構的共同發明者之一 Llion Jones 的觀點。
盡管 Llion 是著名論文《Attention Is All You Need》的原始作者之一,但他在很大程度上已經停止了對 Transformer 的研究。他認為,由于 Transformer 本身表現出色,所有人都專注于對同一架構進行小幅改進,而非去探索下一個重大突破。
Llion 出生于英國威爾士,從小就對計算機充滿興趣,他在 14 歲時學會編程,其中嘗試的第一批項目之一就是編寫聊天機器人,而如今他正從事聊天機器人技術的前沿工作。
2011 年,Llion 獲得 Google 軟件工程師職位,開始在 YouTube 工作。他最初申請的是倫敦辦公室的職位,但在通過電話面試后,他才發現自己申請的工作實際上是在加利福尼亞。為了得到這次工作機會,Llion 同意搬到舊金山,并在那里生活了 7 年,之后搬到了東京。
期間,在 YouTube 工作幾年后,Llion 希望再次追求人工智能的興趣。2015 年,他調入 Google Research 從事自然語言處理研究。正值“深度學習”革命時期,這是一個非常不錯的契機。工作一年后,他參與了《Attention is All You Need》的研究。
在 Transformers 的研究工作之后,Llion 在著名未來學家 Ray Kurzweil 手下繼續推動 Transformers 和語言建模技術的發展。工作 12 年后,他在 2023 年離開 Google 并創立了自己的公司 Sakana AI。
Sakana AI 最近剛獲 200 億日元(1.35 億美元)的 B 輪融資,投資方包括三菱 UFJ 金融集團(MUFG)等。融資完成后,企業估值約為 4000 億日元(26.35 億美元)。
Sakana AI 表示,盡管全球 AI 模型的研發競爭日益激烈,“但其巨額成本所對應的經濟回報與在社會中的應用路徑仍不夠明確”。同時指出,“相較于美中兩國,日本作為后來者,在計算資源投入規模上直接競爭并不現實”。因此,公司將致力于開發不依賴龐大算力的高效 AI 技術,以及推動 AI 在社會中的實際應用。
他們最新的成果就是在 NeurIPS 2025 上發布了《Continuous Thought Machine(連續思考機器)》。業內之所以關注,是因為它具有原生的自適應計算能力。這是一種構建遞歸模型的新方法,它為神經元引入了更高層次的概念,并使用“同步”作為表征手段,讓我們能夠以更像人類的方式解決問題。
近期,Llion 和 Sakana AI 研究實驗室科學家 Luke Darlow 在“Machine Learning Street Talk”節目中討論了當前的研究現狀。節目中,Llion 直言“規模化效果太好也是一種不幸”。Luke 則詳細解釋了為什么他們認為新推出的 CTM 架構會顯著優于 Transformer。
我們翻譯并整理了這次采訪,在不改變原意基礎上進行了刪改,以饗讀者。
![]()
1 從不再研究 Transformer 說起
Llion:雖然我當年參與發明了 Transformer,但幸運的是,可能除了另外七位共同作者外,沒有人像我一樣在這個領域深耕了這么久。所以我在今年早些時候做了一個決定:大幅減少我在 Transformer 上的研究投入。原因是我強烈感覺到這個領域已經過度飽和了。并不是說 Transformer 已經無事可做,而是我想趁這個機會去做一些完全不同的事情,讓自己在研究方向上擁有更多的探索空間。
其實在 Transformer 剛出現那幾年,AI 研究的氛圍和現在完全不同。現在這種事情已經很難發生了,最大的原因是:我們擁有的研究自由度比過去少了很多。
Transformer 的誕生完全是“自下而上”的。并不是有人制定了一個宏大的計劃,讓大家按圖索驥;而是一群人吃午飯時討論:當前的問題是什么、我們能不能換一種辦法解決,然后真的有自由花上幾個月去驗證想法,最終才碰撞出全新的架構。
如今我們已經在大模型上花了數億美元,而最大的那類“基于進化的搜索”實驗大概也就做到數萬級別而已。我們現在擁有如此巨大的算力,如果真的把這些進化式搜索算法徹底放大,會發生什么?我敢肯定,一旦有人真正下定決心,把這些“演化—生命”類實驗規模化,一定會發現非常有趣的東西。
但當時我提出這類方向時,整個環境都在一頭扎進同一種技術路線里,沒有人對我的建議感興趣,完全沒有。所以現在我創立了自己的公司,可以真正追求那些讓我興奮的技術方向。
主持人:很多人知道我是 Kenneth Stanley 的忠實粉絲,他的那本《為什么偉大不能被計劃》徹底改變了我的人生。他想表達的是,我們要允許大家順著自己的“興趣梯度”去探索,別被各種 KPI 或者委員會給框住了,只有這樣,我們才能真正去“覓食”新知識。如果摻雜了太多的目的性,最后只會搞出一堆毫無生氣的平庸“漿糊”,根本沒法發現那些有趣的新東西。這也正是你們 Sakana AI 這家公司的核心理念,對吧?
Llion:沒錯,正是這樣。我們全公司都是那本書的鐵粉,實際上我們還打算請作者來公司做分享。這確實是我們內部經常討論的哲學問題。
作為聯合創始人,我的核心任務之一就是捍衛研究員現有的自由。說實話,能擁有這種資源去折騰,本身就是一種特權。我見過太多例子了,隨著公司規模擴大,壓力接踵而至,自由空間就會被壓縮。但正因為我們堅信這套哲學,因此我希望盡可能長久地讓大家保持這種研究自由。
主持人:那你覺得,隨著公司慢慢成熟,具體是哪些東西在一點點蠶食這種自由呢?你會怎么形容這個過程?
Llion:現在的 AI 行業,關注度、人才、資金都前所未有得多,這當然是好事。但遺憾的是,這也加劇了競爭壓力。大家都想從技術里榨出價值、變現……
做初創公司,起步時你充滿激情,而且還有資金助跑,所以你有資本去試錯。但不可避免地,大家開始要投資回報、要有產出,你需要趕著出產品,這不可避免地扼殺了研究員的創造力。因為你要發論文,或者要搞出能直接落地的技術,這種壓力一上來,那種“當家作主”的感覺就下去了。
但我真的是這么跟新入職的同事說的:“我就想讓你做你覺得有趣、重要的事情”,我是認真的。
2 要替代 Transformer,必須是碾壓式的好
主持人 :YouTube 上有個概念叫“受眾俘獲”(Audience Capture)。我覺得可能也存在一種“技術俘獲”。你看 Google 早期也是非常開放探索的,而現在 Transformer 已經成了所有 AI 技術的基石,這是你的巨大成就。
但類似的故事也在 OpenAI 上演,他們現在滿眼都是商業化機會,他們可能會變成下一個 LinkedIn,變成應用平臺、搜索平臺,甚至社交網絡。我想這也可能發生在你們身上,特別是考慮到今天要聊的這篇新論文——“連續思維機器”(Continuous Thought Machines,簡稱 CTM)。這可能是一項革命性的技術,但一旦大家看清了它的商業潛力,那種變現的壓力也會隨之而來。
Llion:我很喜歡“受眾俘獲”這個類比。現在的確可以說,我們都被大語言模型(LLM)給“俘獲”了。它們效果太好了,導致所有人都一窩蜂地去搞這個。我很擔心我們現在是不是卡在一個“局部最優解”里出不來了,我們得想辦法跳出去。
剛才聊到 Transformer,我其實特別喜歡回顧它誕生前的那段時期,因為太有代表性了。
在 Transformer 之前,主流技術是 RNN(循環神經網絡)。當時也是這種感覺:當我們搞出 Seq2Seq 時,那是個巨大突破,翻譯質量、語音識別質量都大幅提升。當時的氣氛跟現在很像,大家都覺得:“行了,就是它了,我們只要把這技術打磨完美就行。”
那會兒我最癡迷的任務是字符級語言建模。每當有基于 RNN 的新論文出來,我就特興奮,趕緊找來看,想知道他們是怎么做到的。結果你會發現,很多論文其實只是在同樣的架構上做微調。比如 LSTM、GRU,或者用單位矩陣初始化以使用 ReLU 函數,或者稍微調整門控位置,或者上下層都加上門控。
我記得當時特別喜歡一個叫“分層 LSTM”的研究,模型可以自己決定是否計算某些層。如果你用維基百科的數據訓練它,你會發現它的計算決策結構竟然跟句子結構吻合了。我當時愛死這些東西了!但是呢,這些改進帶來的提升總是很微小,比如從 1.26 比特 / 字符降到 1.25,再到 1.24。這在當時就算成果,能發論文,大家也很興奮。
但是后來 Transformer 出來了。我之后去的那個團隊,第一次嘗試把非常深、僅解碼器(Decoder-only)的 Transformer 用在語言建模上,結果直接干到了 1.1 左右。
效果好到什么程度?同事特意跑到我工位旁,禮貌地問:“你是不是算錯了?你用的單位是不是納特而不是比特?” 我們說:“不不不,數是對的,就是這么強。”后來我也被震撼到了:之前那所有的研究——順便說一句,那都是非常優秀的研究——突然之間就變得毫無意義了。
真的,之前大家在 RNN 上做的那些無休止的排列組合,瞬間就成了浪費時間。
我覺得我們現在就處在類似的境地。好多論文還是守著同一個架構,做著無數瑣碎的微調,比如調整歸一化層的位置或者采用略微不同的訓練方法等。我們可能又在犯同樣的錯誤,浪費同樣的時間。
我不認為游戲已經結束了,我不相信這就是最終架構,只要無腦 scaling 就行。我相信遲早會有新的突破出現,到時候回頭看,大家又會發現:“哎呀,我們要早點醒悟就好了,當時浪費了不少時間。”
主持人:沒錯,我們其實是被自己的成功給“套牢”了。這就是所謂的“吸引盆”(Basin of Attraction,物理學術語,此處比喻陷入某種局部最優的狀態),而且這種坑還不少。Sara Hooker 之前提過“硬件彩票(hardware lottery)”,而這就像是一場“架構彩票”。現在我們就在這樣一個階段。大家都在講基座模型,潛臺詞就是有了它你能做任何事。
以前在企業里,就算是中型公司,也有數據科學家、機器學習工程師去微調架構。但現在呢,只剩下 AI 工程師在搞提示詞工程了。所以你的意思是,那些能讓我們思維多元化、想出新架構的基礎技能,正在消亡?
Llion:這點我可能不太認同。我覺得我們有的是才華橫溢、充滿創造力的研究員,但問題是,他們的才華沒地兒施展。
舉個例子,在學術界,發論文的壓力太大了。你會想:“我有個絕妙的點子,但萬一跑不通呢?或者這想法太怪了,審稿人很難接受,我得費大勁去推銷這個概念。” 相比之下,去試個新的位置編碼就安全多了。現在的環境,不管是學術界還是公司,其實都沒給研究人員足夠的自由去做他們真正想做的研究。
主持人:確實,而且還有個有意思的現象:即便有很棒的新研究出來,大廠也不一定用。我跟 Sepp Hochreiter(注:LSTM 之父)聊過,他有一堆新架構的想法,但 OpenAI 根本不采納。不過谷歌倒是搞了個擴散語言模型,挺酷的。我想聽聽你的看法,這是為什么?
現在有些說法,比如通用表征方面,說 Transformer 的表征方式跟人腦很像。還有人覺得,只要規模上去、算力管夠,那是“條條大路通羅馬”,既然這樣,何必費勁搞新架構呢?
Llion:其實已經有更好的了。研究早就證明有些架構比 Transformer 強,但問題是,強得還不夠多。
你要想讓整個行業放棄一套如此成熟的架構,光是“好一點”是沒用的,必須是“碾壓式的好”才行。畢竟,大家熟悉 Transformer,知道如何訓練它、如何運作、內部原理是什么,也知道如何微調它,而且已經有了全套用于 Transformer 訓練、微調和推理的軟件。
Transformer 當年對比 RNN,就是這種碾壓:將它應用到新問題上時,訓練速度飛快,準確率飆升,你不得不轉向它。深度學習革命也是一樣,當時好多人懷疑,覺得符號主義(Symbolic AI)更好,結果深度學習的效果擺在那兒,好到你根本沒法忽視。
這反而讓尋找“下一代技術”變得更難了。這就像一種“地心引力”,總把你拉回到“Transformer 已經夠用了”的舒適區。你可能搞出了個精巧的新架構,準確率看著不錯,但 OpenAI 直接把模型做大十倍,效果立馬把你秒了,那大家自然就覺得“接著奏樂接著舞”唄。
3 “規模化效果太好也是一種不幸”
主持人:我能不能再補充一個理由?我很喜歡的論文“Questioning Representational Optimism in Deep Learning: The Fractured Entangled Representation Hypothesis”里,有個“捷徑學習”的問題,我覺得現在的繁榮多少有點海市蜃樓的味道,可能潛藏著我們還沒意識到的隱患。而且,我們開始“濫用”架構了。明明知道需要自適應計算來做推理,需要不確定性量化,但我們所做的只是把這些功能 “嫁接” 到現有架構上,而不是設計一種天生就具備這些能力的架構。
Llion:沒錯,我們現在做的連續思維機器 CTM 就是想從根本上解決這些問題。現在的技術雖然厲害,但總感覺哪里不對勁。
現在有個流行詞叫“鋸齒狀智能(Jagged Intelligence)”,就是說它上一秒能解決博士級的難題,下一秒就能一本正經地胡說八道,錯得離譜,這種反差感太強了。我覺得這恰恰反映了當前架構在底層邏輯上可能有根本性的缺陷。
但也正是因為現在的技術“太好”了,好到讓你離不開。你說到基座模型能做任何事,是的,現在的神經網絡太強了。只要你有足夠的耐心、算力和數據,你確實可以逼著它們學會做任何事。但我并不覺得它們“想”這么做,是我們硬逼著它們去擬合的。它們確實是“通用函數近似器”,但我認為存在某一類函數逼近器,更“愿意”以人類的方式去表征世界。
我有篇很喜歡的冷門論文,叫 Intelligent Matrix Exponentiation,好像還被拒稿了。論文中有一個經典的螺旋數據集實驗,需要區分螺旋中的兩個類別。論文展示了傳統 RNN、多層感知機(MLP)和 tanh 激活的 MLP 的決策邊界 —— 它們都解決了這個問題,技術上都能正確分類所有點,在這個簡單數據集上取得了很高的測試分數。然后,論文展示了他們提出的新層的決策邊界,那是一個完整的螺旋,也就是說,這個模型把螺旋數據表示成了真正的螺旋。如果數據本來就是螺旋,我們難道不應該按螺旋來表示它嗎?再回頭看傳統 ReLU MLP 的決策邊界,你會發現全是一些細碎的分段線性邊界在硬拼、硬逼近。
![]()
這就是我想說的:是的,只要訓練足夠充分,不斷調整這些分段線性邊界,它確實能擬合螺旋并達到高準確率。但你看到這些圖像時,完全不覺得 ReLU 版本的模型真正 “理解” 了這是一個螺旋。而當你用螺旋的方式來表征時,模型不僅能理解,還能正確外推,因為螺旋會一直向外延伸。
主持人:你剛才觸及到了一個非常迷人的點,因為我們一直在強調適應性和自適應計算的必要性。我很推崇 Randall Balestriero 的神經網絡樣條理論(Spline Theory)。在 TensorFlow Playground 上可以看到,當 ReLU 網絡試圖去擬合一個螺旋流形時,它的表現方式其實非常接近局部敏感哈希結構(Locality Sensitive Hashing, LSH)——它將空間切割成一塊塊的區域,然后通過這些分塊去“預測”螺旋的形狀。
但我們真正想要的遠不止于此。這也與“冒名頂替(Imposter)”現象有關:模型可以“沿著圖案把螺旋描一遍”,卻無法繼續延展這個模式。僅僅描摹出螺旋的軌跡,和真正理解并延續這個模式,兩者天差地別。
如果模型能夠以建設性方式來學習,也就是你們論文中所說的那種“復雜化”——通過抽象的構建塊,再結合自適應計算,那么它就能真正理解螺旋的結構。這意味著,通過自適應計算,模型可以延續螺旋的形狀,然后更新自身權重以實現適應性,這對智能來說至關重要。
我們非常清楚,未來的模型應該具備這些能力。但矛盾的是,當前的大模型“太能干了”,表面上,它們幾乎比真正的自適應智能系統更聰明:總能說出我們想聽的話,表現出令人驚嘆的智能。然而我們也同樣清楚:它們依然缺失一些最基本、最關鍵的智能屬性,而這正是我們必須跨過去的下一道門檻。
Llion:所以我對現在的視頻生成模型還是持保留態度的。你看之前有一陣子,大家一眼就能看出是 AI 生成的,因為手指頭數目不對。當然,現在數據更多了,算力更強了,訓練技巧也好了,模型終于“屈服”了,畫出來的確實是五根手指。
但我們真的解決問題了嗎?還是只是用蠻力逼著神經網絡記住了“手有五根指頭”?如果它擁有更好的表征空間,比如有“螺旋就按螺旋來表示”這種最基礎的直覺式能力,情況會完全不同,它自然就“知道”手指該有幾個,也不會犯這種低級錯誤。
某種意義上,這些模型表現得如此好,是一種不幸。規模化效果太好也是一種不幸,因為這讓人們太容易把根本性的問題一掃了之。
4 大模型會取代人類做科研嗎
主持人:你們可能寫出了我心目中的年度最佳論文。這可能就是帶我們邁向下一步的創新。你們還在歐洲拿到了 spotlight,這也證明了這篇論文有多出色。
![]()
Llion:其實 CTM(連續思維機器),并沒有完全脫離我們如今被困住的“局部最優”處境,它并不是一種“完全跳出框架、顛覆性的新技術”。我們只是借用了一個很樸素的生物學靈感:神經元的同步機制。當然,這不一定完全符合生物學現實,人腦神經元也不是真的這么連線來搞同步的。但我就是想鼓勵大家做這類研究。
而且說實話,這種點子其實很好“賣”。我們在這個過程中完全不用擔心被搶發。這種壓力完全消失了,我們不需要急著發論文,因為我們覺得:“大概率也沒別人在搞這玩意兒。”
我們最終能獲得 spotlight,我認為關鍵就在于:我們花時間把論文打磨得很細致,完成了我們想要的基準實驗,嘗試了所有計劃中的任務,最終形成了一篇完善的論文。
我希望能鼓勵研究者去承擔更多一點風險,去探索那些更具想象力、帶著一點投機性質、但面向長遠的科學方向。遺憾的是,大家不敢試。但我希望 CTM 能成為一個榜樣,告訴大家這是可行的。我們試了,雖然有風險,但我們找到了有意思的東西,也發了成功的論文。
主持人:如果我們真的找到了一個系統,能獲取知識、設計新架構,做那種你說的開放式科學研究,那你認為未來研究進展的主導權會轉移到模型上嗎?
Llion:我覺得會。至于它會不會完全取代人類,我自己也常常在不同觀點之間來回搖擺。
現在強大的算法已經在輔助我們做研究了,而未來它可能會成為一種更強大的輔助工具。比如,我們推出的 “AI 科學家” 系統就展示了端到端的研究能力:從輸入一個研究想法開始,你可以完全放手,讓它自己完成“構思問題、寫代碼、跑實驗、收集結果、再寫論文”的整個科研流程。事實上,我們最近已經有一篇 100% 由 AI 生成的論文被接受了。
但我們這么做主要是為了證明其可行性。但如果讓我選,我希望它更具交互性:我拋出個想法,它能反饋更多點子;可以跟我討論,再去寫代碼;我可以查看它的代碼、檢查邏輯,它跑實驗,再在結果出來后我們一起討論。這才是我設想的近期內與 AI 合作研究的方式。
主持人:你能深入談談為什么嗎?是因為模型還不夠懂,需要我們監督?還是說希望產出的成果符合人類興趣?
Llion:更多是因為,最開始拋出的那個研究想法其實很難描述清楚。這跟帶實習生是一樣的。我不可能跟實習生說“我有一個瘋狂的想法”,然后解釋五分鐘就把他扔那兒四個月不管。必須有來回的討論,我有我想探索的特定方向,我得不斷地把他們拉回我最初設想的軌道上。
主持人:你之所以能做到這一點,是因為你有豐富的背景、經驗、路徑依賴,你能夠基于深刻的理解做直覺上的創造性決策;你知道哪些想法是值得追的,哪些不是。而實習生沒有這些,未來的 AI 模型也許會具備。
Llion:對,沒錯。如果模型發展到那種程度,我的輸入反而會拖后腿,那確實就要放手了。這有點像國際象棋。曾經有一段時間,人機結合下棋能贏過純 AI 引擎。但現在已經不是了,人類參與進來反而會讓 AI 下得更糟。那當然會是一個新的時代。
5 CTM 做了哪些創新
主持人:我覺得現在正好可以聊聊這篇論文的細節了,就是你剛才提到的“連續思維機器”。
Luke:我的主要研究方向就是 CTM。我們整個團隊大概在這個項目上投入了八個月左右的時間。在目前的 AI 研究領域,八個月的周期可能算有點久了。
它最初不叫這個名字,我們之前叫它“異步思維機器”,但每次有人問異步體現在哪,就有點講不清楚, 所以改成了“連續思維機器”。它主要包含三個創新點。
第一個是我們所謂的“內部思維維度”(Internal Thought Dimension)。這個概念本身不新,它跟“潛在推理”(Latent Reasoning)的概念類似,本質上是在一個序列化的維度上投入算力。當你用這種框架來思考問題時,會發現很多看似需要智能才能解決的問題,其實本質上都是序列化的問題。
比如,我們在 CTM 上測試的第一個主要任務就是“迷宮求解”。
如果你把迷宮圖片輸入一個卷積神經網絡,讓它輸出一個同尺寸的圖像,在路徑位置標 1、非路徑位置標 0,這對深度學習來說幾乎是小菜一碟。已有很出色的研究證明,通過謹慎的訓練方式,可以讓這種方法幾乎無限擴展,效果非常驚人。
但如果你把這種方法拿掉,轉而問:“更接近人類的解法是什么?”它就變成了一個序列問題:你需要一步步地規劃 “向上、向右、向上、向左” 等路徑,從起點一步步推演到終點。
當你把問題約束到這種序列化方式時,對機器學習系統來說,挑戰性反而大大增加了。所以,這成為了我們 CTM 的“Hello World”問題,而我們就是通過在模型內部引入一個連續的“思維序列維度”來解決它。
![]()
第二項創新是重新思考“神經元應該是什么”。
在認知神經科學中,有大量優秀的研究揭示生物神經元是如何工作的。而在深度學習領域,神經元則被簡化為非常抽象的東西,例如 ReLU 本質上是要么開、要么關。這種抽象其實是非常粗糙的。
于是我們嘗試:讓每個神經元本身就是一個小模型。事實證明,這種方式能夠在系統中自然形成更豐富的動態結構,也讓模型具備更復雜的內部行為。
第三個創新點是表征方式。
這來自一個核心問題:如果思考是一個過程,那它的“表示”到底是什么?在生物系統中,思考的表示難道只是“當下每個神經元的狀態”嗎?我個人的觀點是:不是。思考不是瞬時狀態,而是跨時間存在的。
所以在工程上,我們不再衡量“某一時刻的神經元狀態”,而是測量神經元之間在時間上的同步模式,即成對神經元如何一起變化,以及它們與其他神經元如何協同。這種表示方式打開了一個全新的空間,使得許多新能力成為可能。
主持人:Anthropic 之前發過一篇關于生物學類比的論文,他們也在談論規劃和思考。他們聲稱他們的系統是在做提前規劃,但我覺得你們的系統在計算上是不同的,可以解釋一下嗎?
Luke:是的,如果從圖靈機的角度來看,這種計算邊界非常有趣。圖靈機能夠在紙帶上讀寫,這種圖靈完備的概念顯然是一個改變世界的偉大想法。
而 Transformer 和 CTM 的主要區別在于:CTM 的“內部思維過程”可以用來拆解問題。
一個問題如果是簡單的,當然可以一次性求解。例如前面迷宮的例子,理論上你可以一口氣解決。但對于很多“真實且困難”的問題,把它一次性解決會讓難度呈指數級飆升。
比如在迷宮任務中,如果讓模型“一步到位”預測未來 100~200 步的路徑,現有的模型做不到,我們訓練的模型也不行。因此,我們必須建立一個“自動課程學習”系統:先讓模型只預測第一步,預測對了再訓練第二步,然后是第三步、第四步……最終形成復雜能力。
真正有意思的是這種訓練方式帶來的結果行為。
我喜歡的一種研究方式,也是我鼓勵團隊成員采用的方式,是理解模型的行為,而不是只看幾個指標。因為現在我們訓練出的模型在許多方面展現出越來越“智能”的行為,常常讓我們驚訝。如果把它們復雜的行為壓縮成一個分數或少量指標,可能根本不適合,甚至會誤導我們。通過觀察模型在特定訓練方案下的行為方式,反而能更好理解內部到底發生了什么。
![]()
主持人:你們是固定思考步數的嗎?大概有一個“上下文窗口”?大概是 100 步左右?
Luke:是的,在迷宮任務中,模型每一步都能看到完整的迷宮圖像(它始終可以“同時觀察整個輸入”),CTM 對輸入數據類型是完全“無感”的(語言 token、圖像、數字排序任務都可以)。 模型采用注意力機制從數據中檢索信息,并且有大約 100 個內部思考步驟。
訓練方式是這樣的:比如模型正確預測了迷宮的前三步后,在第四步走錯了,我們就會停止對前三步的監督,只監督它第四步怎么走。實踐中我們會讓它多監督 5 步,但原理相同。這會形成一種自我引導式的能力增長機制。
對理解力強的讀者來說,你可以很容易想到這種方式如何推廣到其他序列任務,比如語言模型的長距離 token 預測、分步驟規劃任務、多變量排序或推理過程等各種需要“連續思考”的領域。
主持人:我對“自適應計算”這個概念很感興趣。第一個問題是,模型的性能對這個固定步數有多敏感?第二個問題是,這些步數能否是“可變的”?也就是說,模型能否根據不確定性或某種準則,自動決定思考更少或更多步?第三個問題是,是否有可能讓模型擁有“任意多”甚至“無限多”的思考步數?
Luke:這是非常好的問題。我先回答關于不確定性和步數敏感性的問題。
一個很好的例子是:我們在 ImageNet 分類任務上訓練 CTM,損失函數非常簡單:我們讓模型運行,例如 50 個內部思考步驟,然后從 0 到 49 之間選兩個點:模型表現最好的一步(損失最低) 和模型最確定的一步(輸出置信度最高),在這兩個點分別計算交叉熵,然后取平均作為最終損失。
這么做會自然誘導一種行為:簡單樣本通常在第 1、2 步就能解決,而困難樣本會自然地“思考得更久”。模型會“自動”使用更多的內部時間,而不需要人為設計復雜機制去強迫它思考更多步。
主持人:你們把每個神經元都建模成一個 MLP,這非常有意思。能進一步講講這個設計嗎?你們還用了“同步化”的概念,能詳細解釋一下嗎?
Luke:當然可以。這是解釋論文里所謂“神經元級模型(Neuron-Level Models, NLM)”的好時機,因為同步化的概念正是建立在它之上的。
你可以把一個遞歸系統想象成一個狀態向量,這個狀態向量會隨著步數不斷更新。我們追蹤這個狀態向量,并讓它隨時間展開。對于系統中的每一個神經元 i 來說,我們都有一個展開的時間序列,該序列雖然是離散的,但數值是連續的。這些時間序列定義了我們所謂的“隨時間變化的激活值”。
“同步化”是什么?非常簡單:同步化就是兩個神經元時間序列的向量點積。
假設系統中有 d 個神經元,那么就有大約 種不同的同步對。例如神經元 1 如何與神經元 2 同步、神經元 1 如何與神經元 3 同步……以此類推。同步化的意義在于,它不是看某個單點的激活,而是看激活隨時間的動態關系。
NLM 的工作原理是:它會接收一個有限歷史激活序列(比如前若干步的神經元激活值),而不是只考慮單步激活。它利用這個歷史信息來計算輸出激活值,這就是從“前激活”(pre-activation)到“后激活”(post-activation)的過程。
你可能會覺得這很隨意,但它確實帶來了性能上的提升。不過這并非我們的主要目的。我們追求的是“生物學上的合理性建模”,即在生物學(大腦信息處理的實現方式)和深度學習(高度并行、學習超快、反向傳播友好)之間找到一個平衡點。NLM 正是這個理想的中間方案,它能讓我們引入一些生物學靈感,但仍然能用深度學習的方式進行訓練。同步的概念則是應用在這些 NLM 的輸出之上的。
主持人:關于規模擴展的問題,時間復雜度在同步矩陣的維度上是平方級的,你們在論文中提到通過“子采樣”來提高性能,但這是否會影響穩定性?這么做的代價是什么?
Luke :這是一個很好的問題。在穩定性方面,我們發現了一個很有趣的現象,也是我們在整個論文實驗過程中一直感受到的:無論我們如何嘗試,它都能“跑起來”,而且對各種超參數的容忍度非常高。相比之下,用 RNN 或 LSTM 通過時間反向傳播(BPTT)通常非常棘手,內部迭代步數一多,學習就會崩潰。
我們使用同步機制,某種意義上是在所有時間點觸及了所有神經元,這對“梯度傳播”非常有幫助。
還有一個與同步相關的有趣點:假設有 d 個神經元,就會有 種可能的組合,這意味著系統的底層狀態或表征空間遠比僅使用 d 個神經元要大得多。而這一點對下游計算、性能以及我們能實現的功能意味著什么,正是我們目前正在積極探索的。
6 CTM 為什么優于 Transformer
主持人:能簡單解釋一下,為什么你們認為 CTM 架構在這些方面會顯著優于 Transformer 嗎?
Luke:我覺得過去幾年,語言模型領域最吸引人的工作,就是和“思維鏈”(CoT)相關的。某種程度上,我認為 CoT 是增加系統計算力的另一種新的“擴展維度”。這是一個非常深刻的突破。我們現在要做的,就是讓推理過程完全發生在模型內部,但同時仍然以某種序列化的方式運行。我認為這是非常重要的一點。
你剛才提到了 Gemini 的擴散模型,現在確實有很多團隊在探索類似方向。而我認為 CTM 通過“同步機制”和“多層級的時間表征”,在這方面提供了一種尚未被其他方法觸及的靈活性。更關鍵的是,這種高維的潛在空間可以用于不斷預測 ARC 中的下一步、再下一百步、甚至兩百步,把復雜問題分解為模型可以快速搜索的推理路徑。我認為這是一條很有前景的路線。
主持人:你們這個架構跟 Alex Graves 的神經圖靈機有沒有什么關聯?
Luke:我覺得有。神經圖靈機最難的部分在于內存的讀寫,因為它是一個離散的動作,這帶來了很多挑戰。我不敢說 CTM 明確具備圖靈完備性,但我們是在一個潛在空間做推理,并以一種面向多任務的方式自行展開。
我想分享一個相關的觀察:以 ImageNet 分類為例,包括各種分類任務,它們是很好的測試場景。數據中有非常簡單的樣本,也有極其困難的樣本。當我們訓練 ViT 或 CNN 來做分類時,它必須把從“簡單的貓”到“復雜且樣本稀少的類別”的所有推理邏輯,全都塞進同一個表征空間里,最后在統一的輸出層做分類。
我認為,CTM 的設計打破了這種限制:我們把推理拆開,讓模型在不同時間點上判斷:“哦,我這里已經足夠確定,可以結束了”,或者“這個樣本更復雜,需要繼續思考”,那么任務就能自然分解為“簡單部分”和“困難部分”。我們知道課程學習和連續式學習是有效的,這也是人類學習的方式。如果把這種機制直接鑲嵌進模型架構里,并讓它自然涌現,那絕對值得探索。
Llion:順便說到模型校準,現在的神經網絡往往校準得很差。理想狀態下,如果模型對一個類別的預測概率是 50%,那么它應該在 50% 的時間里是正確的。但事實是,大多數模型訓練久了都會變得嚴重失衡,需要做大量后處理來修正。而我們測了 CTM 的校準度,結果幾乎是完美校準。這再次證明了這種架構可能是一種更好的設計方式。
有趣的是,我們并不是為了“做一個校準好的模型”而設計 CTM,也不是為了“實現自適應計算時間”。
我當年特別喜歡 Alex Graves 關于自適應計算時間的論文,那篇論文為了讓模型學會“什么時候該停”,不得不添加一個額外損失項來懲罰過多的計算,并且需要大量超參搜索才能讓模型真正學會動態計算。但在 CTM 里,我們之前講過的損失函數設計,這種自適應計算時間竟然是自然涌現的,我們完全沒有顯式去優化它。
我覺得這才是研究應該走的方向:不是預設一個特定目標,而是從一個有趣的新架構出發,沿著“有意思的梯度方向”探索,讓新的能力自然生長出來。
主持人:沒錯。說到這個,我覺得你們論文最令人興奮的地方可能是,之前討論的 “路徑依賴” 和 “逐步構建的理解”,這種 “復雜化” 的過程可能與世界模型相關,也與主動推理有關。我們要構建能持續學習、更新參數的智能體,重要的是能構建這種“路徑依賴的理解”。因為“如何到達那里”非常重要,這個架構有可能讓這些智能體利用這種算法,去探索空間中的軌跡,找到最佳路徑,并真正構建出一種 “按自然關節劃分世界” 的理解方式。
Luke:這是一個很精妙的視角,我以前沒有這樣想過。但確實,這種立場在處理模糊問題時會變得非常有趣。因為“用一種方式切割世界”,可能和“用另一種方式切割世界”同樣有效。
語言模型出現的幻覺,也許就是在某種精細的層次上“切割了世界”,只是在我們認為的“幻覺”衡量標準下,它的性能不達標。但是當你沿著自回歸生成 token 的路徑走下去,你最終會得到對世界的一種不同的切割。
而我們想要做的,是訓練一個模型,讓它能隱式意識到它正在以不同的方式切割世界,并且能夠探索這些‘切割’的可能性。我認為這是一種非常令人興奮的研究方向:將問題分解為可解決的小部分,并以自然的方式學習求解,而無需過多的人工修改。
主持人:這也是我一直在思考的問題。比如說,盡管我非常喜歡 Cholet 衡量智能的觀點,但在他的框架里,“適應新奇性”的核心是給出正確答案,而“給出這個答案的原因”同樣重要。在機器學習體系中,我們往往依賴損失函數,而損失函數經常會引導模型走向各種捷徑。當然,我們也可以退回到符號主義系統,講究知識構建與語義保持的原則化路徑。但我們現在做的是混合體系,因此應該存在一種自然的推理方式:即便最終目標是優化損失函數,但由于模型在開放空間中探索的路徑不同,我們至少能在機制層面更有信心:它所進行的推理更符合真實世界的結構。
Luke:你的理解非常到位。顯然,不止我們在這樣思考,也不止我們在嘗試這樣做。真正特別的是,我們恰好擁有一種非常適合做這件事的架構——而且某種程度上是意外的,因為它本來也不是為了這些目標設計的。我們只是盡可能尊重大腦、尊重自然的機制:如果我們構建一個受此啟發的系統,會發生什么?會出現哪些不同的解題方式?而這些不同的方式出現之后,又能讓我們提出哪些新的哲學層面、智能層面的提問?這就是我們現在所在的階段。
對我來說,有時會感覺問題太多、能處理的人手太少。但我也想借這個機會鼓勵年輕研究者:追隨你的興趣,構建你真正關心的東西,看看它會產生什么效果,打開哪些新的大門,引領你走向哪些更深的領域。
7 可否用來構建下一代語言模型
主持人:我們昨天也討論過,語言可以被視為一種 “迷宮”,那么有沒有可能利用這種架構來構建下一代語言模型?
Luke:說實話,這正是我目前正在積極探索的方向。當迷宮任務加入歧義性之后,它變得格外有趣,因為迷宮可能有多種解法。老實說我自己還沒嘗試,但也許下周我就會試一試。
你可以想象一個智能體(或 CTM)在觀察迷宮并做出行動軌跡。在我們最新的 arXiv 論文(最終版本)中,我們添加了一個補充部分,其中列出了 實驗中出現的 14 個有趣現象,其中一個就是:在訓練中,模型會先沿著某條路徑前進,然后突然意識到“糟糕,錯了”,接著回溯,再走另一條路徑。隨著訓練的進行,它越來越擅長迷宮導航,依靠多頭注意力的分布式能力逐步收斂到一種很有效的策略。但在早期階段,它確實會探索多條路徑、反復回溯。
我們還有一組更震撼的實驗:如果模型沒有足夠的時間去走完整個迷宮,它會采用“福斯特算法”式的更快的算法。這讓我非常震驚,在被嚴重限制“思考步數”的情況下,模型不再沿迷宮路徑慢慢走,而是直接跳到迷宮中大致正確的位置,再倒推路徑;然后再次跳躍、再倒推,如此周而復始。這種“跳躍式反向填補路徑”的行為完全是由系統時間約束自然涌現。
這引出了很多深層問題:在有限思考時間 vs. 無限思考時間的條件下,模型具體學到了什么不同的算法? 這些差異是否揭示了人類在“受限條件下”與“開放條件下”思考方式的不同?這種行為是否觸及某些關于推理本質的問題? 我認為這些問題都非常值得繼續挖掘。
主持人:你們倆都是群體方法和集體智能的忠實粉絲,現在我們可以橫向擴展這種架構:不僅僅是簡單的并行化,還包括并行模型之間的權重共享等。這種擴展可能會帶來什么潛在收益?
Luke:這是個非常有趣的研究方向。我們團隊現在正在積極探索的一件事,就是記憶機制,尤其是長期記憶,以及這種機制對于這類系統意味著什么。
舉個例子:可以構造一個實驗,把一些智能體放進迷宮里,讓它們自己去解決。當然,不是論文里那種做法,而是在一個極度受限的設置中,例如智能體只能看到周圍 5×5 的局部區域,然后我們再給它提供一種保存與檢索記憶的機制。任務很簡單:走到迷宮終點。
模型必須學會如何構造記憶,以便當它再次來到一個地方時,能意識到:“上次我在這里走錯了,這次要換一條路。”進一步地,可以讓多個并行智能體共享同一個記憶結構,在同一迷宮里行動,觀察會發生什么。它們訪問同一個全局記憶,幾乎像一種“文化記憶”,所有智能體都可以利用它協作解決任務。我確實認為,記憶將是未來 AI 研究的一個關鍵要素。
Llion:剛才也提到推理能力。最近外界之所以感覺“推理能力大進步”,因為這確實是大家目前最關注的方向之一。
我們最近發布了一個新數據集,叫 SudokuBench。幾周前看到你們播客里自然提到它,我挺開心的。我想多聊一下這個基準,因為我在推廣它時遇到點困難:聽起來并不“性感”,畢竟一提到數獨,大多數人會覺得“這不是早就被解決了嗎?” 那一堆數獨怎么會對推理研究有意義?
但我們談的不是普通數獨,而是 “變體數獨(variant Sudokus)”。
普通數獨規則是:每行、每列、每宮填 1~9,不重復。變體數獨則是在普通數獨規則之上,附加了任意數量、任意形式的額外規則,并且每一個都由人類精心手工設計,擁有完全不同的約束結構。其中一些約束需要非常強的自然語言理解。比如有個謎題會給你一段規則文本,然后告訴你:“順便說一句,剛才那段描述里有一個數字是錯的。” 也就是說,你必須先對“規則本身”做一次元推理,才能開始解題。還有一些謎題是在數獨網格上疊加迷宮結構,要求小老鼠按迷宮路徑走到奶酪的位置,但路徑上經過的格子數字還要滿足額外的加和約束。
這些變體數獨的多樣性難以用語言描述。如果有模型能在這個基準上取得好成績,它必然具備極其強大的推理能力。目前最好的模型只能在其中最簡單、最小的謎題上達到 15% 左右。
我們會發布一篇關于 GPT-5 表現的博客,雖然有提升,但依然完全無法解出許多普通人都能解出的謎題。
我非常喜歡這個數據集,它的靈感來自 Andrej Karpathy 的一句話:
我們現在有大量來自互聯網的文本數據,但如果追求 AGI,你真正需要的不是“所有人類寫過的文字”,而是“他們寫下這些文字時腦中的思維軌跡。” 如果能學習這些,人類級推理就有可能出現。
我當時就在想:這種數據一定存在于某個地方。
我最開始想到的是哲學,比如意識流寫作,但那并不可靠。結果在我看 YouTube 時找到了 Cracking the Cryptic 頻道。頻道里兩位英國專家會現場解極難的變體數獨,視頻有時長達 4 小時,而且他們會用極度細致的方式講解每一步推理過程,這幾乎是完美的“思維軌跡”示例。
我們征得他們同意之后,把所有視頻做了轉寫和處理,形成了一個高質量的人類推理語料庫,用于模仿學習。
我們也試過用內部模型訓練,但事實證明,我可能把基準做得太高了,以至于目前模型還沒能有效利用這些數據。我們之后如果取得進展會公開。
我想強調的是,這是一個完全不同類型的推理基準。 它既極度明確,又極度難以泛化,而當前 AI 無法做到“找到破題點”,只會退化為機械窮舉式嘗試,完全不像我們從視頻語料中看到的人類推理方式。因此,我想在這里向全行業發出挑戰:如果能在這個基準上取得突破,那將是真正意義上的 AI 推理能力進步。
主持人:你覺得這些推理模式的多樣性如何?也許我有些理想主義,但我喜歡 “知識的演繹閉合” 這個想法:存在一個巨大的推理樹,我們每個人都掌握著這棵樹不同深度的部分。越聰明、知識越淵博的人,就能沿著這棵樹走得越深。我們原則上可以構建推理引擎,讓它從第一原理(First Principles)開始推理。但這可能是“計算上不可約的”(Computationally Irreducible),意味著你必須執行所有的步驟。但由于我們并不擁有這棵樹的全部,我們需要做的就是 “四處摸索”,尋找 “樂高積木”。也許目前 AI 領域需要做的,就是盡可能多地獲取這棵樹的部分。但我們能一直深入到最底層嗎?
Llion:這是一個引人深思的問題。這棵樹可能會非常龐大。人類在解謎時,肯定是在實時學習,不斷發現這棵樹的新部分。這實際上是一個“元任務”,你不僅在推理,你還在對推理本身進行推理。
我不認為我們現在的 AI 具備這種能力。如果你看那些視頻,他們會說:“好的,這看起來像一個奇偶性任務”,或者“這是一個集合論問題”,又或者“也許我該拿出路徑工具來追蹤一下。” 當然,這些專業人士的腦子里已經有了你說的這個龐大的“樂高積木”集合。所以他們能一眼認出:“這種規則通常需要這類樂高積木。”
看著他們憑借直覺就知道該從哪里入手,真的很神奇。而像我這樣解謎不多的人,就需要花很多時間去嘗試。但即使是他們也不是完美的。你經常看到他們嘗試一種推理路徑,然后發現:“不行,這不夠明確。” 然后他們會回溯,再走另一條路徑。再說一遍,這是我們在當前的 AI 模型中,在解決這個基準測試時看不到的行為。
主持人:這棵樹真的非常大,我想樹上許多推理模式之間的“系統發育距離”(phylogenetic distance)非常遙遠,這使得它們之間很難直接跳躍。這也是為什么我認為作為“集體智能”能很好地合作,因為我們能找到跳到樹上不同部分的方法。
Llion:是的,我想這可能就是為什么我們現在嘗試應用的強化學習(RL)算法行不通的原因。想要學到這些突破性的思路、理解那些細微的推理,你必須進行采樣。但所需的推理類型太具體、太稀有,所以這種技術根本行不通。目前社區里有一種錯覺:“我們有 RL,現在所有問題都解決了。” 但對于這個數據集來說,并非如此。
主持人:在結束之前,我想問一下你們正在招人嗎?我們聽眾里有很多優秀的機器學習工程師和科學家,我覺得能在 Sakana 工作會是他們夢想中的工作。
Llion:是的,我們當然在招聘。正如我之前在采訪中所說,我真心希望給研究人員盡可能多的“研究自由”。我愿意下這個賭注!我相信這會帶來非常有趣的結果,而且我們已經看到很多有趣的東西涌現出來了。
https://www.youtube.com/watch?v=DtePicx_kFY
聲明:本文為 InfoQ 整理,不代表平臺觀點,未經許可禁止轉載。
AI 重塑組織的浪潮已至,Agentic 企業時代正式開啟!當 AI 不再是單純的輔助工具,而是深度融入業務核心、驅動組織形態與運作邏輯全面革新的核心力量。
把握行業變革關鍵節點,12 月 19 日 - 20 日,AICon 全球人工智能開發與應用大會(北京站) 即將重磅啟幕!本屆大會精準錨定行業前沿,聚焦大模型訓練與推理、AI Agent、研發新范式與組織革新,邀您共同深入探討:如何構建起可信賴、可規模化、可商業化的 Agentic 操作系統,讓 AI 真正成為企業降本增效、突破增長天花板的核心引擎。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.