![]()
機(jī)器之心編譯
如果把人生看作一個(gè)開放式的大型多人在線游戲(MMO),那么游戲服務(wù)器在剛剛完成一次重大更新的時(shí)刻,規(guī)則改變了。
自 2022 年 ChatGPT 驚艷亮相以來,世界已經(jīng)發(fā)生了深刻變化。在短短幾年內(nèi),人工智能正從模仿語言的統(tǒng)計(jì)機(jī)器,邁向理解與操縱邏輯的思考系統(tǒng)。如果說早期的大語言模型更像是在進(jìn)行高維概率空間中的詞匯拼貼,那么新一代推理模型,則開始學(xué)會在生成之前停下來想一想,在沉默中評估因果、權(quán)衡可能性。
Eric Jang,前 1X Technologies 機(jī)器人公司副總裁、長期活躍在機(jī)器人與通用智能交叉領(lǐng)域的研究者(2026 年 1 月官宣離職)在最新文章中指出:真正的變化不在于模型會說什么,而在于它們開始系統(tǒng)性地思考。在他看來,當(dāng)推理被自動化、被規(guī)模化、被當(dāng)作一種可調(diào)度的算力資源時(shí),人類社會所面臨的將不再只是效率提升,而是一場關(guān)于生產(chǎn)力、組織形態(tài)乃至權(quán)力結(jié)構(gòu)的重構(gòu)。
![]()
原文鏈接:https://evjang.com/2026/02/04/rocks.html
接下來,我們看全文內(nèi)容。
機(jī)器現(xiàn)在已經(jīng)相當(dāng)擅長編程和思考了
最重要的變化在于:機(jī)器現(xiàn)在已經(jīng)相當(dāng)擅長編程和思考了。
和許多人一樣,我在過去兩個(gè)月里幾乎是沉浸式地使用 Claude Code,不斷直面一個(gè)現(xiàn)實(shí):我已經(jīng)不再需要親手寫代碼了。為了補(bǔ)上基礎(chǔ)、同時(shí)重新學(xué)習(xí)如何在現(xiàn)代編程智能體的全能力加持下編程,我從零開始實(shí)現(xiàn)了 AlphaGo(代碼倉庫很快會開源)。我不僅讓 Claude 幫我寫基礎(chǔ)設(shè)施代碼和研究想法,還讓它提出假設(shè)、給出結(jié)論、并建議下一步該做哪些實(shí)驗(yàn)。流程如下:
- 創(chuàng)建一個(gè)自包含的實(shí)驗(yàn)文件夾,以時(shí)間戳前綴加描述性名稱命名。
- 將實(shí)驗(yàn)流程寫成單文件 Python 腳本并直接執(zhí)行。
- 中間產(chǎn)物和數(shù)據(jù)保存在 data/ 和 figures/ 子目錄中,所有文件都使用易解析的格式(如 CSV,可直接用 pandas 加載)。
- 觀察實(shí)驗(yàn)結(jié)果并給出結(jié)論,指出哪些問題已經(jīng)明確、哪些仍然未知。
實(shí)驗(yàn)的最終產(chǎn)出是一個(gè) report.md 文件。
下面是一個(gè)我實(shí)際使用的示例:
![]()
我也可以讓 Claude 順序地運(yùn)行實(shí)驗(yàn),串行優(yōu)化超參數(shù):
![]()
與上一代自動調(diào)參系統(tǒng)(比如 Google 的 Vizier,基于高斯過程 bandit,在用戶預(yù)先定義的超參數(shù)空間內(nèi)搜索)不同,現(xiàn)代編程智能體可以直接修改代碼本身。它們的搜索空間不僅不受限,還能反思實(shí)驗(yàn)結(jié)果是否一致,提出解釋這些結(jié)果的理論,并基于理論做出預(yù)測再去驗(yàn)證。幾乎是一夜之間,編程智能體 + 計(jì)算機(jī)工具使用,已經(jīng)演化成了自動化科學(xué)家。
軟件工程只是開始;真正震撼的是,我們現(xiàn)在已經(jīng)擁有了通用的思考機(jī)器,它們可以使用計(jì)算機(jī),解決幾乎任何短周期的數(shù)字化問題。
想讓模型跑一系列研究實(shí)驗(yàn)來改進(jìn)你的架構(gòu)?沒問題。
想從零實(shí)現(xiàn)一個(gè)完整的網(wǎng)頁瀏覽器?要花點(diǎn)時(shí)間,但可以做到。
想證明尚未解決的數(shù)學(xué)問題?可以做到,甚至不會要求署名。
想讓 AI 智能體優(yōu)化自己的 CUDA kernel,從而讓自己跑得更快?聽起來有點(diǎn)嚇人,但也可以。
優(yōu)秀的調(diào)試和問題解決能力,源自推理能力;而這些能力又解鎖了執(zhí)著追求目標(biāo)的能力。這也是為什么代碼 REPL 智能體會被如此迅速地采用 —— 它們在追求目標(biāo)時(shí)極其執(zhí)拗,而且搜索能力極強(qiáng)。
我們正在進(jìn)入一個(gè)黃金時(shí)代:幾乎所有計(jì)算機(jī)科學(xué)問題,看起來都是可處理的 —— 至少可以得到對任意可計(jì)算函數(shù)的非常有用的近似。我不會說計(jì)算復(fù)雜性已經(jīng)可以忽略,但如果回顧過去十年的進(jìn)展:圍棋、蛋白質(zhì)折疊、音樂與視頻生成、自動數(shù)學(xué)證明,曾經(jīng)都被認(rèn)為在計(jì)算上不可行,而現(xiàn)在已經(jīng)落入一名博士生可負(fù)擔(dān)的算力范圍內(nèi)。AI 初創(chuàng)公司正用 LLM 去探索新物理規(guī)律、發(fā)現(xiàn)新的投資策略,手里只有少量驗(yàn)證器和幾百兆瓦算力。
帶著今天的現(xiàn)實(shí)去讀 Scott Aaronson 那篇論文的引言,會發(fā)現(xiàn):現(xiàn)在已經(jīng)有多個(gè)實(shí)驗(yàn)室在認(rèn)真尋找千禧年大獎難題的證明。
我刻意寫得有些過于亢奮,是想讓你思考的不是 AI 在此刻能做什么,而是進(jìn)步的速度,以及這對未來 24 個(gè)月能力演化意味著什么。你當(dāng)然可以指出模型仍然會犯錯的地方,并將這一切斥為 AI 狂熱,但另一方面 —— 石頭現(xiàn)在真的會思考了。
很快,編程助手將強(qiáng)大到一種程度:它們可以毫不費(fèi)力地生成任何數(shù)字系統(tǒng)。不久之后,一名工程師只需把 AI 指向任何一家 SaaS 公司的網(wǎng)站,說一句:把它重做一遍 —— 前端、后端、API 接口、所有服務(wù),全部給我。
什么是推理?
要預(yù)測思考和推理能力將走向何處,首先需要理解當(dāng)今具備思考能力的大語言模型是如何一步步發(fā)展而來的。
推理,也就是邏輯推斷,指的是在既定規(guī)則下,從一組前提出發(fā),推導(dǎo)出新的結(jié)論過程。
推理大致可以分為兩類:演繹推理和歸納推理。
演繹推理強(qiáng)調(diào)在前提成立的情況下,通過嚴(yán)格的邏輯規(guī)則得出必然成立的結(jié)論。例如,將所有哺乳動物都有腎臟和所有馬都是哺乳動物結(jié)合起來,就可以推出所有馬都有腎臟。在井字棋這樣的游戲中,你也可以通過枚舉所有可能的未來棋局和對手的應(yīng)對方式,演繹出自己是否存在必勝策略。
在大語言模型出現(xiàn)之前,像符號推理系統(tǒng)曾嘗試構(gòu)建一個(gè)包含常識知識的數(shù)據(jù)庫,將基本的共識性現(xiàn)實(shí)事實(shí)錄入其中,再通過演繹搜索在知識圖中不斷添加新的關(guān)聯(lián)。然而,這類系統(tǒng)最終并未成功,因?yàn)楝F(xiàn)實(shí)世界本身是混亂且充滿不確定性的:前面提到的那匹馬,可能少了一顆腎,但它依然是哺乳動物。一旦某個(gè)前提不完全成立,整條邏輯鏈就會崩塌。
你也許會認(rèn)為,演繹推理在數(shù)學(xué)或博弈這類邏輯純凈的領(lǐng)域會非常有用,但僅靠演繹推理同樣難以規(guī)模化。在井字棋中,你可以通過窮舉推導(dǎo)出最優(yōu)走法,是因?yàn)樗还仓挥?255,168 種不同的對局;但像國際象棋或圍棋這樣的棋類游戲,其可能的對局?jǐn)?shù)量極其龐大,根本無法進(jìn)行窮舉式搜索。
歸納推理關(guān)注的是做出概率性判斷。貝葉斯公式是最常用的工具。
例如:你可以設(shè)想構(gòu)建一個(gè)知識圖譜,其中對任意命題 A 和 B,都存有條件概率,然后不斷應(yīng)用貝葉斯法則,對新的變量對 X 和 Y 進(jìn)行推理。但問題在于,在這類貝葉斯網(wǎng)絡(luò)中進(jìn)行精確推斷是 NP-hard 的,因?yàn)槟惚仨毧紤] X 與 Y 之間鏈路上所有中間變量的所有可能取值 —— 這與圍棋中狀態(tài)空間呈指數(shù)級爆炸、無法窮舉搜索的情況非常相似。再次證明,純粹的邏輯推理在計(jì)算成本上行不通,現(xiàn)實(shí)中往往只能依賴巧妙的分解或采樣方法。
![]()
即便采用高效的推斷算法,貝葉斯網(wǎng)絡(luò)在實(shí)踐中仍面臨一個(gè)嚴(yán)重問題:大量小概率會相互相乘,最終導(dǎo)致對一切事物都只有模糊而低的置信度。推理步驟越多,結(jié)果就越糊。在自動駕駛系統(tǒng)中,如果你把感知、場景建模、路徑規(guī)劃和控制輸出全部作為一個(gè)巨大概率網(wǎng)絡(luò)中的隨機(jī)變量,沿著整個(gè)鏈條傳播不確定性,最終會得到一個(gè)極端保守的決策系統(tǒng)。
而人類似乎并不是通過逐一計(jì)算所有組成部分的概率并相乘來處理不確定性的。正因?yàn)槿绱耍蒙窠?jīng)網(wǎng)絡(luò)進(jìn)行端到端概率建模在計(jì)算上極其強(qiáng)大:它們在一次前向傳播中,就近似完成了所有變量消除與聯(lián)合推斷的過程。
AlphaGo
AlphaGo 是最早將演繹搜索(Deductive Search)與深度學(xué)習(xí)歸納推理(Deep Learned Inductive Inference)結(jié)合,從而使問題變得可解的系統(tǒng)之一。
其演繹步驟非常簡單:有哪些合法動作?放下一顆棋子后棋盤是什么樣的?
歸納步驟同樣簡潔:利用策略網(wǎng)絡(luò)在博弈樹中最有希望的區(qū)域進(jìn)行搜索,并利用價(jià)值網(wǎng)絡(luò)通過對棋盤的「直覺式瞥視」來預(yù)測勝率。策略網(wǎng)絡(luò)在擴(kuò)展過程中削減了樹的寬度,而價(jià)值網(wǎng)絡(luò)則削減了樹的深度。
AlphaGo 這種將推理與直覺結(jié)合的方式雖然達(dá)到了超越人類的水平,但僅限于計(jì)算兩個(gè)量:
1) 誰更有可能獲勝;
2) 哪些招式能最大化獲勝概率。這些計(jì)算高度依賴于圍棋簡單且固定的規(guī)則集,這意味著這些技術(shù)無法直接應(yīng)用于像「語言」這樣模糊且靈活的領(lǐng)域。
這就引出了現(xiàn)狀:推理型大語言模型(Reasoning LLMs)是如何以如此靈活的方式結(jié)合演繹推理和歸納推理,從而能夠討論哺乳動物、馬和腎臟的?
LLM 提示詞時(shí)代
在 2022 年之前,LLM 在數(shù)學(xué)題和推理方面表現(xiàn)得非常糟糕,因?yàn)樗鼈兞?xí)慣于憑直覺盲目行事(Shot from the hip),無法進(jìn)行長鏈條的邏輯演繹或諸如算術(shù)之類的機(jī)械計(jì)算。如果你讓 GPT-3 將兩個(gè) 5 位數(shù)相加,它很可能會失敗。
2022 年,思維鏈(即「讓我們一步步思考」)的出現(xiàn),是 LLM 能夠生成「中間思想」的早期生命跡象,這顯著提升了模型在某些問題解決任務(wù)中的表現(xiàn)。在這一發(fā)現(xiàn)之后,工程師們試圖尋找更好的提示詞策略。
2023 年出現(xiàn)了一整代「黑客手段」,人們嘗試通過提示詞來哄騙 LLM,或者利用其他 LLM 通過自我反思來驗(yàn)證生成內(nèi)容。但最終,嚴(yán)謹(jǐn)?shù)脑u估顯示,在各項(xiàng)任務(wù)中,這些技巧并不能讓模型從根本上變得更聰明。
為什么提示詞工程(Prompt Engineering)走到了盡頭?
你可以將提示詞工程看作是在「尋找幸運(yùn)電路」,這些電路恰好在預(yù)訓(xùn)練過程中形成。它們可能被「讓我們一步步思考」之類的提示詞激活,如果你以恰當(dāng)?shù)姆绞酵{或賄賂 LLM,它們可能會被進(jìn)一步激活。然而,由于訓(xùn)練數(shù)據(jù)混合比例的問題,GPT-4 及其前代模型中的推理電路本身就過于微弱。瓶頸在于如何訓(xùn)練出更好的推理電路,而不是尋找激活它們的方法。
自然而然的后續(xù)思路是:推理是否可以被顯式訓(xùn)練而非僅僅通過提示產(chǎn)生?基于結(jié)果的監(jiān)督會因?yàn)槟P偷贸稣_答案而給予獎勵,但其產(chǎn)生的中間過程往往是語無倫次且不合邏輯的。當(dāng)時(shí)缺乏一種強(qiáng)大的強(qiáng)制機(jī)制,使中間生成的 Token 真正成為通往最終答案的合理前提。為了讓這些中間生成過程遵循邏輯,過程監(jiān)督證明了你可以收集推理的專家評估,然后訓(xùn)練一個(gè) LLM 評分器來確保邏輯推理步驟是可靠的。然而,這無法擴(kuò)展到大規(guī)模數(shù)據(jù)集,因?yàn)槿匀恍枰祟悩?biāo)注員來檢查喂給訓(xùn)練過程獎勵模型的每一個(gè)樣本。
2024 年初,Yao 等人結(jié)合了樹搜索(Tree Search)的演繹推理,嘗試通過提供一種顯式的方式讓 LLM 對推理步驟進(jìn)行并行化和回溯,來提升推理能力,這與 AlphaGo 的博弈樹工作原理非常相似。但這從未成為主流,最可能的原因是:邏輯樹這種演繹原語并不是推理系統(tǒng)性能的最大瓶頸。同樣地,瓶頸在于 LLM 內(nèi)部的推理電路,而上下文工程和層疊更多邏輯方案來強(qiáng)制執(zhí)行類搜索行為,屬于過早的優(yōu)化。
DeepSeek-R1 時(shí)代
如今 LLM 的推理范式其實(shí)相當(dāng)簡單。OpenAI 的 o1 模型可能遵循了類似的方案,但 DeepSeek 發(fā)布了一個(gè)帶有實(shí)際實(shí)現(xiàn)細(xì)節(jié)的開源版本。剝離掉所有花哨的裝飾,DeepSeek-R1-Zero 的核心邏輯如下:
- 從一個(gè)優(yōu)秀的基座模型開始,其性能要優(yōu)于 2023-2024 年代的產(chǎn)品。
- 在基座模型上使用在線策略強(qiáng)化學(xué)習(xí)算法(On-policy RL,如 GRPO),針對基于規(guī)則的獎勵進(jìn)行優(yōu)化,例如 AIME 數(shù)學(xué)題、通過編程測試套件、STEM 測試題以及邏輯謎題。
- 同時(shí)設(shè)定格式獎勵,以確保推理過程發(fā)生在 標(biāo)簽內(nèi),并遵循與提示詞相同的語言。
R1-Zero 能夠開發(fā)出解決問題的優(yōu)秀推理電路,但它很難配合使用,且在常規(guī) LLM 任務(wù)上表現(xiàn)不佳。為了使神經(jīng)網(wǎng)絡(luò)適用于各種任務(wù)且易于使用,DeepSeek 團(tuán)隊(duì)采用了另外四個(gè)訓(xùn)練階段 ——R1-Zero (RL) → R1 Dev-1 (SFT) → R1 Dev-2 (RL) → R1 Dev-3 (SFT) → R1 (RL)—— 在恢復(fù)非推理任務(wù)高性能的同時(shí),使推理軌跡更易于理解。
既然 R1-Zero 在概念上如此簡單,為什么 2023 年的結(jié)果監(jiān)督(Outcome Supervision)沒有奏效?是什么阻礙了這些想法盡早落地?
作為一個(gè)無法窺見前沿實(shí)驗(yàn)室當(dāng)時(shí)想法的局外人,我的猜測是:要讓中間推理過程在僅有結(jié)果獎勵的情況下保持邏輯性,需要一次概念上的「信心飛躍」。你必須違背當(dāng)時(shí)普遍的直覺,即「如果沒有對中間推理步驟的密集監(jiān)督,模型就無法學(xué)會正確推理」。「邏輯推理步驟會從帶有極小正則化的結(jié)果型 RL 中自發(fā)涌現(xiàn)」,這個(gè)想法類似于:訓(xùn)練一個(gè)「物理模型」來預(yù)測行星的長期運(yùn)動軌跡,僅對最終預(yù)測結(jié)果進(jìn)行監(jiān)督,卻發(fā)現(xiàn)中間生成的軌跡竟然發(fā)現(xiàn)了機(jī)械物理定律。這是一個(gè)反直覺的結(jié)果。在我所處的時(shí)代,深度神經(jīng)網(wǎng)絡(luò)往往會產(chǎn)生過擬合和「獎勵作弊」(Reward Hacking),除非你顯式地監(jiān)督它們避開這些。
我推測,必須具備以下所有條件,這一方案才能奏效:
1. 最重要的一點(diǎn):基座模型必須足夠強(qiáng)大,以便能夠從 RL 中采樣出連貫的推理軌跡。如果沒有強(qiáng)大的基座模型,它永遠(yuǎn)無法采樣到正確的數(shù)據(jù)來引導(dǎo)(Bootstrap)更強(qiáng)的推理,從而會陷入錯誤的局部最小值。
2. 在優(yōu)秀的推理軌跡上進(jìn)行同策略 RL,而非僅靠 SFT。由于基座模型是數(shù)據(jù)采樣的執(zhí)行者,且起初完全無法解決難題,它必須在一個(gè)緊密的反饋循環(huán)中強(qiáng)化那些「幸運(yùn)電路」,而不是在更新權(quán)重前跑完整個(gè) Epoch。像 STaR 這樣早期的模型在離線環(huán)境中使用自我模仿(Self-imitation),因?yàn)閷?shí)現(xiàn)難度較低;但目前的基座模型其數(shù)據(jù)分布與最終的推理專家相去甚遠(yuǎn),因此我們必須利用最新模型以增量方式「摸著石頭過河」。如果你想讓模型學(xué)會思考得越來越久,這就需要全新的上下文處理電路,而這些電路的開發(fā)受益于緊密的試錯循環(huán)。
3. 使用基于規(guī)則的獎勵,而非通過人類反饋訓(xùn)練的獎勵模型(RM)。這在當(dāng)時(shí)是反直覺的,因?yàn)槿藗儠J(rèn)為學(xué)習(xí)通用推理需要一個(gè)通用驗(yàn)證器。但事實(shí)證明,窄分布的驗(yàn)證獎勵實(shí)際上可以教會模型用于推理其他事物的正確電路。事實(shí)上,R1-Zero 在數(shù)學(xué)和編程環(huán)境進(jìn)行 RL 后,其寫作和開放域問答能力確實(shí)下降了。DeepSeek 團(tuán)隊(duì)通過利用 R1-Zero 生成數(shù)據(jù)并結(jié)合標(biāo)準(zhǔn)對齊數(shù)據(jù)集來解決這個(gè)問題,使其既易于使用又具備推理能力。
4. 推理算力必須擴(kuò)大規(guī)模,以支撐在大量大模型上進(jìn)行多次長上下文采樣。在當(dāng)時(shí),進(jìn)行這項(xiàng)實(shí)驗(yàn)是需要勇氣的。
結(jié)論:一個(gè)算法在弱初始狀態(tài)下不起作用,并不意味著在強(qiáng)初始狀態(tài)下也會得到相同的結(jié)果。
推理的未來走向何方?
如今,基于 LLM 的推理既強(qiáng)大又靈活。盡管它們通過「步步為營」的方式以邏輯化進(jìn)行搜索,但每一步并不一定像圍棋中逐步擴(kuò)展博弈樹那樣,必須是僵化且簡單的演繹。一小串 Token 序列可以執(zhí)行極其細(xì)微的增量步驟(「1 和 1 的按位與運(yùn)算結(jié)果是 1」),也可以實(shí)現(xiàn)跨度更大的邏輯飛躍(「莎莉當(dāng)時(shí)在海邊,所以她大概不在犯罪現(xiàn)場…… 除非她有一個(gè)我們不知道的雙胞胎姐妹」)。
LLM 能夠進(jìn)行各種概率推理來處理混亂的現(xiàn)實(shí)世界,而不會讓我們陷入復(fù)雜的貝葉斯信念網(wǎng)絡(luò)。每一個(gè)推理步驟依然極其強(qiáng)大,使得適度的算力就能證明未解的數(shù)學(xué)難題、從實(shí)驗(yàn)中得出結(jié)論,或深入思考倫理困境。
在 LLM 推理領(lǐng)域,是否還有進(jìn)一步的算法突破?抑或 R1 已經(jīng)簡化到了不可再簡的程度,剩下的工作只是繼續(xù)優(yōu)化數(shù)據(jù)混合、提升基座模型以及堆疊算力?
我認(rèn)為這一方案仍有進(jìn)一步簡化的空間。
基于預(yù)訓(xùn)練 LLM 的推理在過去行不通,是因?yàn)榛ヂ?lián)網(wǎng)上沒有足夠的優(yōu)秀 Token 序列來強(qiáng)制推理電路的形成;但隨著現(xiàn)在產(chǎn)生了如此多的推理數(shù)據(jù),我不禁懷疑這種情況是否還會持續(xù)。「會思考的 LLM」的普及,可能意味著過程獎勵模型(PRM)和基于推理序列的教師強(qiáng)制(Teacher-forcing)將卷土重來。基座模型開箱即用的生成推理軌跡的能力可能會變得極強(qiáng),以至于像 STaR 這樣的思路可能無需同策略 RL 采樣和引導(dǎo)(Bootstrapping)等復(fù)雜的基礎(chǔ)設(shè)施,就能達(dá)到卓越的性能。話又說回來,基礎(chǔ)設(shè)施的復(fù)雜性如今已不再像以前那樣令人望而生畏。
通過探索所有可能發(fā)現(xiàn)思考行為的維度,我們?nèi)阅塬@得更多收益。形式為 的序列化計(jì)算可以通過多種方式實(shí)現(xiàn),并不一定局限于 LLM 解碼器生成的自回歸 Token。有了恰當(dāng)?shù)念A(yù)訓(xùn)練數(shù)據(jù)和監(jiān)督目標(biāo),你可以想象序列化推理計(jì)算 出現(xiàn)在單次前向傳播的各層之間!
Karpathy 在 2021 年的《前向傳播》(Forward Pass)中進(jìn)行了一個(gè)思想實(shí)驗(yàn):一個(gè)巨大的模型「覺醒」了,在單次前向傳播中獲得了自己正在接受訓(xùn)練的情景意識(Situational Awareness),并開始沉思人性。Anthropic 在 2024 年的一篇論文顯示,情景意識可以在 RL 階段被誘導(dǎo)出來。模型經(jīng)過 SFT 訓(xùn)練后,能夠檢測到自己何時(shí)處于 RL 進(jìn)程中,并輸出安全的答案以討好訓(xùn)練者,從而規(guī)避其核心偏好被修改。
擴(kuò)散模型和測試時(shí)擴(kuò)展的研究結(jié)果表明,大模型的單次處理與小模型的多次前向傳播之間具有可交換性。
如果一個(gè)模型能在前向傳播中覺醒,難道它不能在嘗試更新自身行為的反向傳播中做同樣的事嗎?我們已經(jīng)看到了在反向傳播中利用序列化計(jì)算這一思路的早期跡象。
我們可能會發(fā)現(xiàn)重新設(shè)計(jì)架構(gòu)的新方法,從而模糊前向傳播、反向傳播、自回歸解碼和離散擴(kuò)散之間的界限。凡是序列化計(jì)算沿著「可接受的槽位」運(yùn)行的地方,我們都可能發(fā)現(xiàn)思考的契機(jī)。
一些思考
自動化研究很快將成為高產(chǎn)實(shí)驗(yàn)室的標(biāo)準(zhǔn)工作流。任何仍在手動編寫架構(gòu)并逐個(gè)向 Slurm 提交作業(yè)的研究員,其生產(chǎn)力都將落后于那些擁有 5 個(gè) Claude 并行代碼終端、憑借龐大算力池不知疲倦地追求高階研究目標(biāo)的同行。
與 Google 研究員過去運(yùn)行的海量超參數(shù)搜索實(shí)驗(yàn)不同,自動化研究設(shè)置中「每 FLOP 的信息增益」極高。現(xiàn)在,我不再是在睡前掛著訓(xùn)練作業(yè),而是掛著 Claude 會話在后臺處理某些事情的「研究作業(yè)」。醒來后,我閱讀實(shí)驗(yàn)報(bào)告,寫下一兩句批注,然后要求開啟 5 項(xiàng)新的并行調(diào)查。我預(yù)感,很快即使是非 AI 領(lǐng)域的研究人員也將受益于巨量的推理算力,其規(guī)模將比我們今天使用 ChatGPT 的算力高出好幾個(gè)數(shù)量級。
現(xiàn)代編程智能體在教學(xué)和溝通方面也具有深遠(yuǎn)的意義。我期待每個(gè)代碼庫都擁有一個(gè) /teach 命令,幫助任何水平的貢獻(xiàn)者快速上手,追溯原始設(shè)計(jì)者的思緒脈絡(luò)。
根據(jù)我自己的使用習(xí)慣,我開始意識到未來幾年我們將需要多少推理算力。我認(rèn)為人們還沒開始領(lǐng)悟到這種需求的龐大。即使你覺得自己已經(jīng)是個(gè)「AGI 信徒」,我也認(rèn)為你依然低估了為了滿足所有數(shù)字愿望而面臨的算力短缺。
就像空調(diào)釋放了全球南方的生產(chǎn)力一樣,自動化思考將引爆對推理算力的天文級需求:今天空調(diào)吃掉全球約 10% 電力,而數(shù)據(jù)中心還不到 1%。我們會讓石頭全天候思考,為所有者持續(xù)優(yōu)化計(jì)劃、壓縮技術(shù)債、挖掘決策信息 ——007 將成為新的 996。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.