從AlphaGo到DeepSeek R1，推理的未來將走向何方？

2026-02-20 13:28:45　來源: 機(jī)器之心Pro

河北舉報(bào)

分享至

機(jī)器之心編譯

如果把人生看作一個(gè)開放式的大型多人在線游戲（MMO），那么游戲服務(wù)器在剛剛完成一次重大更新的時(shí)刻，規(guī)則改變了。

自 2022 年 ChatGPT 驚艷亮相以來，世界已經(jīng)發(fā)生了深刻變化。在短短幾年內(nèi)，人工智能正從模仿語言的統(tǒng)計(jì)機(jī)器，邁向理解與操縱邏輯的思考系統(tǒng)。如果說早期的大語言模型更像是在進(jìn)行高維概率空間中的詞匯拼貼，那么新一代推理模型，則開始學(xué)會在生成之前停下來想一想，在沉默中評估因果、權(quán)衡可能性。

Eric Jang，前 1X Technologies 機(jī)器人公司副總裁、長期活躍在機(jī)器人與通用智能交叉領(lǐng)域的研究者（2026 年 1 月官宣離職）在最新文章中指出：真正的變化不在于模型會說什么，而在于它們開始系統(tǒng)性地思考。在他看來，當(dāng)推理被自動化、被規(guī)模化、被當(dāng)作一種可調(diào)度的算力資源時(shí)，人類社會所面臨的將不再只是效率提升，而是一場關(guān)于生產(chǎn)力、組織形態(tài)乃至權(quán)力結(jié)構(gòu)的重構(gòu)。

原文鏈接：https://evjang.com/2026/02/04/rocks.html

接下來，我們看全文內(nèi)容。

機(jī)器現(xiàn)在已經(jīng)相當(dāng)擅長編程和思考了

最重要的變化在于：機(jī)器現(xiàn)在已經(jīng)相當(dāng)擅長編程和思考了。

和許多人一樣，我在過去兩個(gè)月里幾乎是沉浸式地使用 Claude Code，不斷直面一個(gè)現(xiàn)實(shí)：我已經(jīng)不再需要親手寫代碼了。為了補(bǔ)上基礎(chǔ)、同時(shí)重新學(xué)習(xí)如何在現(xiàn)代編程智能體的全能力加持下編程，我從零開始實(shí)現(xiàn)了 AlphaGo（代碼倉庫很快會開源）。我不僅讓 Claude 幫我寫基礎(chǔ)設(shè)施代碼和研究想法，還讓它提出假設(shè)、給出結(jié)論、并建議下一步該做哪些實(shí)驗(yàn)。流程如下：

創(chuàng)建一個(gè)自包含的實(shí)驗(yàn)文件夾，以時(shí)間戳前綴加描述性名稱命名。
將實(shí)驗(yàn)流程寫成單文件 Python 腳本并直接執(zhí)行。
中間產(chǎn)物和數(shù)據(jù)保存在 data/ 和 figures/ 子目錄中，所有文件都使用易解析的格式（如 CSV，可直接用 pandas 加載）。
觀察實(shí)驗(yàn)結(jié)果并給出結(jié)論，指出哪些問題已經(jīng)明確、哪些仍然未知。

實(shí)驗(yàn)的最終產(chǎn)出是一個(gè) report.md 文件。

下面是一個(gè)我實(shí)際使用的示例：

我也可以讓 Claude 順序地運(yùn)行實(shí)驗(yàn)，串行優(yōu)化超參數(shù)：

與上一代自動調(diào)參系統(tǒng)（比如 Google 的 Vizier，基于高斯過程 bandit，在用戶預(yù)先定義的超參數(shù)空間內(nèi)搜索）不同，現(xiàn)代編程智能體可以直接修改代碼本身。它們的搜索空間不僅不受限，還能反思實(shí)驗(yàn)結(jié)果是否一致，提出解釋這些結(jié)果的理論，并基于理論做出預(yù)測再去驗(yàn)證。幾乎是一夜之間，編程智能體 + 計(jì)算機(jī)工具使用，已經(jīng)演化成了自動化科學(xué)家。

軟件工程只是開始；真正震撼的是，我們現(xiàn)在已經(jīng)擁有了通用的思考機(jī)器，它們可以使用計(jì)算機(jī)，解決幾乎任何短周期的數(shù)字化問題。

想讓模型跑一系列研究實(shí)驗(yàn)來改進(jìn)你的架構(gòu)？沒問題。

想從零實(shí)現(xiàn)一個(gè)完整的網(wǎng)頁瀏覽器？要花點(diǎn)時(shí)間，但可以做到。

想證明尚未解決的數(shù)學(xué)問題？可以做到，甚至不會要求署名。

想讓 AI 智能體優(yōu)化自己的 CUDA kernel，從而讓自己跑得更快？聽起來有點(diǎn)嚇人，但也可以。

優(yōu)秀的調(diào)試和問題解決能力，源自推理能力；而這些能力又解鎖了執(zhí)著追求目標(biāo)的能力。這也是為什么代碼 REPL 智能體會被如此迅速地采用 —— 它們在追求目標(biāo)時(shí)極其執(zhí)拗，而且搜索能力極強(qiáng)。

我們正在進(jìn)入一個(gè)黃金時(shí)代：幾乎所有計(jì)算機(jī)科學(xué)問題，看起來都是可處理的 —— 至少可以得到對任意可計(jì)算函數(shù)的非常有用的近似。我不會說計(jì)算復(fù)雜性已經(jīng)可以忽略，但如果回顧過去十年的進(jìn)展：圍棋、蛋白質(zhì)折疊、音樂與視頻生成、自動數(shù)學(xué)證明，曾經(jīng)都被認(rèn)為在計(jì)算上不可行，而現(xiàn)在已經(jīng)落入一名博士生可負(fù)擔(dān)的算力范圍內(nèi)。AI 初創(chuàng)公司正用 LLM 去探索新物理規(guī)律、發(fā)現(xiàn)新的投資策略，手里只有少量驗(yàn)證器和幾百兆瓦算力。

帶著今天的現(xiàn)實(shí)去讀 Scott Aaronson 那篇論文的引言，會發(fā)現(xiàn)：現(xiàn)在已經(jīng)有多個(gè)實(shí)驗(yàn)室在認(rèn)真尋找千禧年大獎難題的證明。

我刻意寫得有些過于亢奮，是想讓你思考的不是 AI 在此刻能做什么，而是進(jìn)步的速度，以及這對未來 24 個(gè)月能力演化意味著什么。你當(dāng)然可以指出模型仍然會犯錯的地方，并將這一切斥為 AI 狂熱，但另一方面 —— 石頭現(xiàn)在真的會思考了。

很快，編程助手將強(qiáng)大到一種程度：它們可以毫不費(fèi)力地生成任何數(shù)字系統(tǒng)。不久之后，一名工程師只需把 AI 指向任何一家 SaaS 公司的網(wǎng)站，說一句：把它重做一遍 —— 前端、后端、API 接口、所有服務(wù)，全部給我。

什么是推理？

要預(yù)測思考和推理能力將走向何處，首先需要理解當(dāng)今具備思考能力的大語言模型是如何一步步發(fā)展而來的。

推理，也就是邏輯推斷，指的是在既定規(guī)則下，從一組前提出發(fā)，推導(dǎo)出新的結(jié)論過程。

推理大致可以分為兩類：演繹推理和歸納推理。

演繹推理強(qiáng)調(diào)在前提成立的情況下，通過嚴(yán)格的邏輯規(guī)則得出必然成立的結(jié)論。例如，將所有哺乳動物都有腎臟和所有馬都是哺乳動物結(jié)合起來，就可以推出所有馬都有腎臟。在井字棋這樣的游戲中，你也可以通過枚舉所有可能的未來棋局和對手的應(yīng)對方式，演繹出自己是否存在必勝策略。

在大語言模型出現(xiàn)之前，像符號推理系統(tǒng)曾嘗試構(gòu)建一個(gè)包含常識知識的數(shù)據(jù)庫，將基本的共識性現(xiàn)實(shí)事實(shí)錄入其中，再通過演繹搜索在知識圖中不斷添加新的關(guān)聯(lián)。然而，這類系統(tǒng)最終并未成功，因?yàn)楝F(xiàn)實(shí)世界本身是混亂且充滿不確定性的：前面提到的那匹馬，可能少了一顆腎，但它依然是哺乳動物。一旦某個(gè)前提不完全成立，整條邏輯鏈就會崩塌。

你也許會認(rèn)為，演繹推理在數(shù)學(xué)或博弈這類邏輯純凈的領(lǐng)域會非常有用，但僅靠演繹推理同樣難以規(guī)模化。在井字棋中，你可以通過窮舉推導(dǎo)出最優(yōu)走法，是因?yàn)樗还仓挥?255,168 種不同的對局；但像國際象棋或圍棋這樣的棋類游戲，其可能的對局?jǐn)?shù)量極其龐大，根本無法進(jìn)行窮舉式搜索。

歸納推理關(guān)注的是做出概率性判斷。貝葉斯公式是最常用的工具。

例如：你可以設(shè)想構(gòu)建一個(gè)知識圖譜，其中對任意命題 A 和 B，都存有條件概率，然后不斷應(yīng)用貝葉斯法則，對新的變量對 X 和 Y 進(jìn)行推理。但問題在于，在這類貝葉斯網(wǎng)絡(luò)中進(jìn)行精確推斷是 NP-hard 的，因?yàn)槟惚仨毧紤] X 與 Y 之間鏈路上所有中間變量的所有可能取值 —— 這與圍棋中狀態(tài)空間呈指數(shù)級爆炸、無法窮舉搜索的情況非常相似。再次證明，純粹的邏輯推理在計(jì)算成本上行不通，現(xiàn)實(shí)中往往只能依賴巧妙的分解或采樣方法。

即便采用高效的推斷算法，貝葉斯網(wǎng)絡(luò)在實(shí)踐中仍面臨一個(gè)嚴(yán)重問題：大量小概率會相互相乘，最終導(dǎo)致對一切事物都只有模糊而低的置信度。推理步驟越多，結(jié)果就越糊。在自動駕駛系統(tǒng)中，如果你把感知、場景建模、路徑規(guī)劃和控制輸出全部作為一個(gè)巨大概率網(wǎng)絡(luò)中的隨機(jī)變量，沿著整個(gè)鏈條傳播不確定性，最終會得到一個(gè)極端保守的決策系統(tǒng)。

而人類似乎并不是通過逐一計(jì)算所有組成部分的概率并相乘來處理不確定性的。正因?yàn)槿绱耍蒙窠?jīng)網(wǎng)絡(luò)進(jìn)行端到端概率建模在計(jì)算上極其強(qiáng)大：它們在一次前向傳播中，就近似完成了所有變量消除與聯(lián)合推斷的過程。

AlphaGo

AlphaGo 是最早將演繹搜索（Deductive Search）與深度學(xué)習(xí)歸納推理（Deep Learned Inductive Inference）結(jié)合，從而使問題變得可解的系統(tǒng)之一。

其演繹步驟非常簡單：有哪些合法動作？放下一顆棋子后棋盤是什么樣的？

歸納步驟同樣簡潔：利用策略網(wǎng)絡(luò)在博弈樹中最有希望的區(qū)域進(jìn)行搜索，并利用價(jià)值網(wǎng)絡(luò)通過對棋盤的「直覺式瞥視」來預(yù)測勝率。策略網(wǎng)絡(luò)在擴(kuò)展過程中削減了樹的寬度，而價(jià)值網(wǎng)絡(luò)則削減了樹的深度。

AlphaGo 這種將推理與直覺結(jié)合的方式雖然達(dá)到了超越人類的水平，但僅限于計(jì)算兩個(gè)量：

1) 誰更有可能獲勝；

2) 哪些招式能最大化獲勝概率。這些計(jì)算高度依賴于圍棋簡單且固定的規(guī)則集，這意味著這些技術(shù)無法直接應(yīng)用于像「語言」這樣模糊且靈活的領(lǐng)域。

這就引出了現(xiàn)狀：推理型大語言模型（Reasoning LLMs）是如何以如此靈活的方式結(jié)合演繹推理和歸納推理，從而能夠討論哺乳動物、馬和腎臟的？

LLM 提示詞時(shí)代

在 2022 年之前，LLM 在數(shù)學(xué)題和推理方面表現(xiàn)得非常糟糕，因?yàn)樗鼈兞?xí)慣于憑直覺盲目行事（Shot from the hip），無法進(jìn)行長鏈條的邏輯演繹或諸如算術(shù)之類的機(jī)械計(jì)算。如果你讓 GPT-3 將兩個(gè) 5 位數(shù)相加，它很可能會失敗。

2022 年，思維鏈（即「讓我們一步步思考」）的出現(xiàn)，是 LLM 能夠生成「中間思想」的早期生命跡象，這顯著提升了模型在某些問題解決任務(wù)中的表現(xiàn)。在這一發(fā)現(xiàn)之后，工程師們試圖尋找更好的提示詞策略。

2023 年出現(xiàn)了一整代「黑客手段」，人們嘗試通過提示詞來哄騙 LLM，或者利用其他 LLM 通過自我反思來驗(yàn)證生成內(nèi)容。但最終，嚴(yán)謹(jǐn)?shù)脑u估顯示，在各項(xiàng)任務(wù)中，這些技巧并不能讓模型從根本上變得更聰明。

為什么提示詞工程（Prompt Engineering）走到了盡頭？

你可以將提示詞工程看作是在「尋找幸運(yùn)電路」，這些電路恰好在預(yù)訓(xùn)練過程中形成。它們可能被「讓我們一步步思考」之類的提示詞激活，如果你以恰當(dāng)?shù)姆绞酵{或賄賂 LLM，它們可能會被進(jìn)一步激活。然而，由于訓(xùn)練數(shù)據(jù)混合比例的問題，GPT-4 及其前代模型中的推理電路本身就過于微弱。瓶頸在于如何訓(xùn)練出更好的推理電路，而不是尋找激活它們的方法。

自然而然的后續(xù)思路是：推理是否可以被顯式訓(xùn)練而非僅僅通過提示產(chǎn)生？基于結(jié)果的監(jiān)督會因?yàn)槟Ｐ偷贸稣_答案而給予獎勵，但其產(chǎn)生的中間過程往往是語無倫次且不合邏輯的。當(dāng)時(shí)缺乏一種強(qiáng)大的強(qiáng)制機(jī)制，使中間生成的 Token 真正成為通往最終答案的合理前提。為了讓這些中間生成過程遵循邏輯，過程監(jiān)督證明了你可以收集推理的專家評估，然后訓(xùn)練一個(gè) LLM 評分器來確保邏輯推理步驟是可靠的。然而，這無法擴(kuò)展到大規(guī)模數(shù)據(jù)集，因?yàn)槿匀恍枰祟悩?biāo)注員來檢查喂給訓(xùn)練過程獎勵模型的每一個(gè)樣本。

2024 年初，Yao 等人結(jié)合了樹搜索（Tree Search）的演繹推理，嘗試通過提供一種顯式的方式讓 LLM 對推理步驟進(jìn)行并行化和回溯，來提升推理能力，這與 AlphaGo 的博弈樹工作原理非常相似。但這從未成為主流，最可能的原因是：邏輯樹這種演繹原語并不是推理系統(tǒng)性能的最大瓶頸。同樣地，瓶頸在于 LLM 內(nèi)部的推理電路，而上下文工程和層疊更多邏輯方案來強(qiáng)制執(zhí)行類搜索行為，屬于過早的優(yōu)化。

DeepSeek-R1 時(shí)代

如今 LLM 的推理范式其實(shí)相當(dāng)簡單。OpenAI 的 o1 模型可能遵循了類似的方案，但 DeepSeek 發(fā)布了一個(gè)帶有實(shí)際實(shí)現(xiàn)細(xì)節(jié)的開源版本。剝離掉所有花哨的裝飾，DeepSeek-R1-Zero 的核心邏輯如下：

從一個(gè)優(yōu)秀的基座模型開始，其性能要優(yōu)于 2023-2024 年代的產(chǎn)品。
在基座模型上使用在線策略強(qiáng)化學(xué)習(xí)算法（On-policy RL，如 GRPO），針對基于規(guī)則的獎勵進(jìn)行優(yōu)化，例如 AIME 數(shù)學(xué)題、通過編程測試套件、STEM 測試題以及邏輯謎題。
同時(shí)設(shè)定格式獎勵，以確保推理過程發(fā)生在標(biāo)簽內(nèi)，并遵循與提示詞相同的語言。

R1-Zero 能夠開發(fā)出解決問題的優(yōu)秀推理電路，但它很難配合使用，且在常規(guī) LLM 任務(wù)上表現(xiàn)不佳。為了使神經(jīng)網(wǎng)絡(luò)適用于各種任務(wù)且易于使用，DeepSeek 團(tuán)隊(duì)采用了另外四個(gè)訓(xùn)練階段 ——R1-Zero (RL) → R1 Dev-1 (SFT) → R1 Dev-2 (RL) → R1 Dev-3 (SFT) → R1 (RL)—— 在恢復(fù)非推理任務(wù)高性能的同時(shí)，使推理軌跡更易于理解。

既然 R1-Zero 在概念上如此簡單，為什么 2023 年的結(jié)果監(jiān)督（Outcome Supervision）沒有奏效？是什么阻礙了這些想法盡早落地？

作為一個(gè)無法窺見前沿實(shí)驗(yàn)室當(dāng)時(shí)想法的局外人，我的猜測是：要讓中間推理過程在僅有結(jié)果獎勵的情況下保持邏輯性，需要一次概念上的「信心飛躍」。你必須違背當(dāng)時(shí)普遍的直覺，即「如果沒有對中間推理步驟的密集監(jiān)督，模型就無法學(xué)會正確推理」。「邏輯推理步驟會從帶有極小正則化的結(jié)果型 RL 中自發(fā)涌現(xiàn)」，這個(gè)想法類似于：訓(xùn)練一個(gè)「物理模型」來預(yù)測行星的長期運(yùn)動軌跡，僅對最終預(yù)測結(jié)果進(jìn)行監(jiān)督，卻發(fā)現(xiàn)中間生成的軌跡竟然發(fā)現(xiàn)了機(jī)械物理定律。這是一個(gè)反直覺的結(jié)果。在我所處的時(shí)代，深度神經(jīng)網(wǎng)絡(luò)往往會產(chǎn)生過擬合和「獎勵作弊」（Reward Hacking），除非你顯式地監(jiān)督它們避開這些。

我推測，必須具備以下所有條件，這一方案才能奏效：

1. 最重要的一點(diǎn)：基座模型必須足夠強(qiáng)大，以便能夠從 RL 中采樣出連貫的推理軌跡。如果沒有強(qiáng)大的基座模型，它永遠(yuǎn)無法采樣到正確的數(shù)據(jù)來引導(dǎo)（Bootstrap）更強(qiáng)的推理，從而會陷入錯誤的局部最小值。

2. 在優(yōu)秀的推理軌跡上進(jìn)行同策略 RL，而非僅靠 SFT。由于基座模型是數(shù)據(jù)采樣的執(zhí)行者，且起初完全無法解決難題，它必須在一個(gè)緊密的反饋循環(huán)中強(qiáng)化那些「幸運(yùn)電路」，而不是在更新權(quán)重前跑完整個(gè) Epoch。像 STaR 這樣早期的模型在離線環(huán)境中使用自我模仿（Self-imitation），因?yàn)閷?shí)現(xiàn)難度較低；但目前的基座模型其數(shù)據(jù)分布與最終的推理專家相去甚遠(yuǎn)，因此我們必須利用最新模型以增量方式「摸著石頭過河」。如果你想讓模型學(xué)會思考得越來越久，這就需要全新的上下文處理電路，而這些電路的開發(fā)受益于緊密的試錯循環(huán)。

3. 使用基于規(guī)則的獎勵，而非通過人類反饋訓(xùn)練的獎勵模型（RM）。這在當(dāng)時(shí)是反直覺的，因?yàn)槿藗儠J(rèn)為學(xué)習(xí)通用推理需要一個(gè)通用驗(yàn)證器。但事實(shí)證明，窄分布的驗(yàn)證獎勵實(shí)際上可以教會模型用于推理其他事物的正確電路。事實(shí)上，R1-Zero 在數(shù)學(xué)和編程環(huán)境進(jìn)行 RL 后，其寫作和開放域問答能力確實(shí)下降了。DeepSeek 團(tuán)隊(duì)通過利用 R1-Zero 生成數(shù)據(jù)并結(jié)合標(biāo)準(zhǔn)對齊數(shù)據(jù)集來解決這個(gè)問題，使其既易于使用又具備推理能力。

4. 推理算力必須擴(kuò)大規(guī)模，以支撐在大量大模型上進(jìn)行多次長上下文采樣。在當(dāng)時(shí)，進(jìn)行這項(xiàng)實(shí)驗(yàn)是需要勇氣的。

結(jié)論：一個(gè)算法在弱初始狀態(tài)下不起作用，并不意味著在強(qiáng)初始狀態(tài)下也會得到相同的結(jié)果。

推理的未來走向何方？

如今，基于 LLM 的推理既強(qiáng)大又靈活。盡管它們通過「步步為營」的方式以邏輯化進(jìn)行搜索，但每一步并不一定像圍棋中逐步擴(kuò)展博弈樹那樣，必須是僵化且簡單的演繹。一小串 Token 序列可以執(zhí)行極其細(xì)微的增量步驟（「1 和 1 的按位與運(yùn)算結(jié)果是 1」），也可以實(shí)現(xiàn)跨度更大的邏輯飛躍（「莎莉當(dāng)時(shí)在海邊，所以她大概不在犯罪現(xiàn)場…… 除非她有一個(gè)我們不知道的雙胞胎姐妹」）。

LLM 能夠進(jìn)行各種概率推理來處理混亂的現(xiàn)實(shí)世界，而不會讓我們陷入復(fù)雜的貝葉斯信念網(wǎng)絡(luò)。每一個(gè)推理步驟依然極其強(qiáng)大，使得適度的算力就能證明未解的數(shù)學(xué)難題、從實(shí)驗(yàn)中得出結(jié)論，或深入思考倫理困境。

在 LLM 推理領(lǐng)域，是否還有進(jìn)一步的算法突破？抑或 R1 已經(jīng)簡化到了不可再簡的程度，剩下的工作只是繼續(xù)優(yōu)化數(shù)據(jù)混合、提升基座模型以及堆疊算力？

我認(rèn)為這一方案仍有進(jìn)一步簡化的空間。

基于預(yù)訓(xùn)練 LLM 的推理在過去行不通，是因?yàn)榛ヂ?lián)網(wǎng)上沒有足夠的優(yōu)秀 Token 序列來強(qiáng)制推理電路的形成；但隨著現(xiàn)在產(chǎn)生了如此多的推理數(shù)據(jù)，我不禁懷疑這種情況是否還會持續(xù)。「會思考的 LLM」的普及，可能意味著過程獎勵模型（PRM）和基于推理序列的教師強(qiáng)制（Teacher-forcing）將卷土重來。基座模型開箱即用的生成推理軌跡的能力可能會變得極強(qiáng)，以至于像 STaR 這樣的思路可能無需同策略 RL 采樣和引導(dǎo)（Bootstrapping）等復(fù)雜的基礎(chǔ)設(shè)施，就能達(dá)到卓越的性能。話又說回來，基礎(chǔ)設(shè)施的復(fù)雜性如今已不再像以前那樣令人望而生畏。

通過探索所有可能發(fā)現(xiàn)思考行為的維度，我們?nèi)阅塬@得更多收益。形式為的序列化計(jì)算可以通過多種方式實(shí)現(xiàn)，并不一定局限于 LLM 解碼器生成的自回歸 Token。有了恰當(dāng)?shù)念A(yù)訓(xùn)練數(shù)據(jù)和監(jiān)督目標(biāo)，你可以想象序列化推理計(jì)算出現(xiàn)在單次前向傳播的各層之間！

Karpathy 在 2021 年的《前向傳播》（Forward Pass）中進(jìn)行了一個(gè)思想實(shí)驗(yàn)：一個(gè)巨大的模型「覺醒」了，在單次前向傳播中獲得了自己正在接受訓(xùn)練的情景意識（Situational Awareness），并開始沉思人性。Anthropic 在 2024 年的一篇論文顯示，情景意識可以在 RL 階段被誘導(dǎo)出來。模型經(jīng)過 SFT 訓(xùn)練后，能夠檢測到自己何時(shí)處于 RL 進(jìn)程中，并輸出安全的答案以討好訓(xùn)練者，從而規(guī)避其核心偏好被修改。

擴(kuò)散模型和測試時(shí)擴(kuò)展的研究結(jié)果表明，大模型的單次處理與小模型的多次前向傳播之間具有可交換性。

如果一個(gè)模型能在前向傳播中覺醒，難道它不能在嘗試更新自身行為的反向傳播中做同樣的事嗎？我們已經(jīng)看到了在反向傳播中利用序列化計(jì)算這一思路的早期跡象。

我們可能會發(fā)現(xiàn)重新設(shè)計(jì)架構(gòu)的新方法，從而模糊前向傳播、反向傳播、自回歸解碼和離散擴(kuò)散之間的界限。凡是序列化計(jì)算沿著「可接受的槽位」運(yùn)行的地方，我們都可能發(fā)現(xiàn)思考的契機(jī)。

一些思考

自動化研究很快將成為高產(chǎn)實(shí)驗(yàn)室的標(biāo)準(zhǔn)工作流。任何仍在手動編寫架構(gòu)并逐個(gè)向 Slurm 提交作業(yè)的研究員，其生產(chǎn)力都將落后于那些擁有 5 個(gè) Claude 并行代碼終端、憑借龐大算力池不知疲倦地追求高階研究目標(biāo)的同行。

與 Google 研究員過去運(yùn)行的海量超參數(shù)搜索實(shí)驗(yàn)不同，自動化研究設(shè)置中「每 FLOP 的信息增益」極高。現(xiàn)在，我不再是在睡前掛著訓(xùn)練作業(yè)，而是掛著 Claude 會話在后臺處理某些事情的「研究作業(yè)」。醒來后，我閱讀實(shí)驗(yàn)報(bào)告，寫下一兩句批注，然后要求開啟 5 項(xiàng)新的并行調(diào)查。我預(yù)感，很快即使是非 AI 領(lǐng)域的研究人員也將受益于巨量的推理算力，其規(guī)模將比我們今天使用 ChatGPT 的算力高出好幾個(gè)數(shù)量級。

現(xiàn)代編程智能體在教學(xué)和溝通方面也具有深遠(yuǎn)的意義。我期待每個(gè)代碼庫都擁有一個(gè) /teach 命令，幫助任何水平的貢獻(xiàn)者快速上手，追溯原始設(shè)計(jì)者的思緒脈絡(luò)。

根據(jù)我自己的使用習(xí)慣，我開始意識到未來幾年我們將需要多少推理算力。我認(rèn)為人們還沒開始領(lǐng)悟到這種需求的龐大。即使你覺得自己已經(jīng)是個(gè)「AGI 信徒」，我也認(rèn)為你依然低估了為了滿足所有數(shù)字愿望而面臨的算力短缺。

就像空調(diào)釋放了全球南方的生產(chǎn)力一樣，自動化思考將引爆對推理算力的天文級需求：今天空調(diào)吃掉全球約 10% 電力，而數(shù)據(jù)中心還不到 1%。我們會讓石頭全天候思考，為所有者持續(xù)優(yōu)化計(jì)劃、壓縮技術(shù)債、挖掘決策信息 ——007 將成為新的 996。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.