<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      從AlphaGo到DeepSeek R1,推理的未來將走向何方?

      0
      分享至



      機(jī)器之心編譯

      如果把人生看作一個(gè)開放式的大型多人在線游戲(MMO),那么游戲服務(wù)器在剛剛完成一次重大更新的時(shí)刻,規(guī)則改變了。

      自 2022 年 ChatGPT 驚艷亮相以來,世界已經(jīng)發(fā)生了深刻變化。在短短幾年內(nèi),人工智能正從模仿語言的統(tǒng)計(jì)機(jī)器,邁向理解與操縱邏輯的思考系統(tǒng)。如果說早期的大語言模型更像是在進(jìn)行高維概率空間中的詞匯拼貼,那么新一代推理模型,則開始學(xué)會在生成之前停下來想一想,在沉默中評估因果、權(quán)衡可能性。

      Eric Jang,前 1X Technologies 機(jī)器人公司副總裁、長期活躍在機(jī)器人與通用智能交叉領(lǐng)域的研究者(2026 年 1 月官宣離職)在最新文章中指出:真正的變化不在于模型會說什么,而在于它們開始系統(tǒng)性地思考。在他看來,當(dāng)推理被自動化、被規(guī)模化、被當(dāng)作一種可調(diào)度的算力資源時(shí),人類社會所面臨的將不再只是效率提升,而是一場關(guān)于生產(chǎn)力、組織形態(tài)乃至權(quán)力結(jié)構(gòu)的重構(gòu)。



      原文鏈接:https://evjang.com/2026/02/04/rocks.html

      接下來,我們看全文內(nèi)容。

      機(jī)器現(xiàn)在已經(jīng)相當(dāng)擅長編程和思考了

      最重要的變化在于:機(jī)器現(xiàn)在已經(jīng)相當(dāng)擅長編程和思考了。

      和許多人一樣,我在過去兩個(gè)月里幾乎是沉浸式地使用 Claude Code,不斷直面一個(gè)現(xiàn)實(shí):我已經(jīng)不再需要親手寫代碼了。為了補(bǔ)上基礎(chǔ)、同時(shí)重新學(xué)習(xí)如何在現(xiàn)代編程智能體的全能力加持下編程,我從零開始實(shí)現(xiàn)了 AlphaGo(代碼倉庫很快會開源)。我不僅讓 Claude 幫我寫基礎(chǔ)設(shè)施代碼和研究想法,還讓它提出假設(shè)、給出結(jié)論、并建議下一步該做哪些實(shí)驗(yàn)。流程如下:

      • 創(chuàng)建一個(gè)自包含的實(shí)驗(yàn)文件夾,以時(shí)間戳前綴加描述性名稱命名。
      • 將實(shí)驗(yàn)流程寫成單文件 Python 腳本并直接執(zhí)行。
      • 中間產(chǎn)物和數(shù)據(jù)保存在 data/ 和 figures/ 子目錄中,所有文件都使用易解析的格式(如 CSV,可直接用 pandas 加載)。
      • 觀察實(shí)驗(yàn)結(jié)果并給出結(jié)論,指出哪些問題已經(jīng)明確、哪些仍然未知。

      實(shí)驗(yàn)的最終產(chǎn)出是一個(gè) report.md 文件。

      下面是一個(gè)我實(shí)際使用的示例:



      我也可以讓 Claude 順序地運(yùn)行實(shí)驗(yàn),串行優(yōu)化超參數(shù):



      與上一代自動調(diào)參系統(tǒng)(比如 Google 的 Vizier,基于高斯過程 bandit,在用戶預(yù)先定義的超參數(shù)空間內(nèi)搜索)不同,現(xiàn)代編程智能體可以直接修改代碼本身。它們的搜索空間不僅不受限,還能反思實(shí)驗(yàn)結(jié)果是否一致,提出解釋這些結(jié)果的理論,并基于理論做出預(yù)測再去驗(yàn)證。幾乎是一夜之間,編程智能體 + 計(jì)算機(jī)工具使用,已經(jīng)演化成了自動化科學(xué)家。

      軟件工程只是開始;真正震撼的是,我們現(xiàn)在已經(jīng)擁有了通用的思考機(jī)器,它們可以使用計(jì)算機(jī),解決幾乎任何短周期的數(shù)字化問題。

      想讓模型跑一系列研究實(shí)驗(yàn)來改進(jìn)你的架構(gòu)?沒問題。

      想從零實(shí)現(xiàn)一個(gè)完整的網(wǎng)頁瀏覽器?要花點(diǎn)時(shí)間,但可以做到。

      想證明尚未解決的數(shù)學(xué)問題?可以做到,甚至不會要求署名。

      想讓 AI 智能體優(yōu)化自己的 CUDA kernel,從而讓自己跑得更快?聽起來有點(diǎn)嚇人,但也可以。

      優(yōu)秀的調(diào)試和問題解決能力,源自推理能力;而這些能力又解鎖了執(zhí)著追求目標(biāo)的能力。這也是為什么代碼 REPL 智能體會被如此迅速地采用 —— 它們在追求目標(biāo)時(shí)極其執(zhí)拗,而且搜索能力極強(qiáng)。

      我們正在進(jìn)入一個(gè)黃金時(shí)代:幾乎所有計(jì)算機(jī)科學(xué)問題,看起來都是可處理的 —— 至少可以得到對任意可計(jì)算函數(shù)的非常有用的近似。我不會說計(jì)算復(fù)雜性已經(jīng)可以忽略,但如果回顧過去十年的進(jìn)展:圍棋、蛋白質(zhì)折疊、音樂與視頻生成、自動數(shù)學(xué)證明,曾經(jīng)都被認(rèn)為在計(jì)算上不可行,而現(xiàn)在已經(jīng)落入一名博士生可負(fù)擔(dān)的算力范圍內(nèi)。AI 初創(chuàng)公司正用 LLM 去探索新物理規(guī)律、發(fā)現(xiàn)新的投資策略,手里只有少量驗(yàn)證器和幾百兆瓦算力。

      帶著今天的現(xiàn)實(shí)去讀 Scott Aaronson 那篇論文的引言,會發(fā)現(xiàn):現(xiàn)在已經(jīng)有多個(gè)實(shí)驗(yàn)室在認(rèn)真尋找千禧年大獎難題的證明。

      我刻意寫得有些過于亢奮,是想讓你思考的不是 AI 在此刻能做什么,而是進(jìn)步的速度,以及這對未來 24 個(gè)月能力演化意味著什么。你當(dāng)然可以指出模型仍然會犯錯的地方,并將這一切斥為 AI 狂熱,但另一方面 —— 石頭現(xiàn)在真的會思考了。

      很快,編程助手將強(qiáng)大到一種程度:它們可以毫不費(fèi)力地生成任何數(shù)字系統(tǒng)。不久之后,一名工程師只需把 AI 指向任何一家 SaaS 公司的網(wǎng)站,說一句:把它重做一遍 —— 前端、后端、API 接口、所有服務(wù),全部給我。

      什么是推理?

      要預(yù)測思考和推理能力將走向何處,首先需要理解當(dāng)今具備思考能力的大語言模型是如何一步步發(fā)展而來的。

      推理,也就是邏輯推斷,指的是在既定規(guī)則下,從一組前提出發(fā),推導(dǎo)出新的結(jié)論過程。

      推理大致可以分為兩類:演繹推理和歸納推理。

      演繹推理強(qiáng)調(diào)在前提成立的情況下,通過嚴(yán)格的邏輯規(guī)則得出必然成立的結(jié)論。例如,將所有哺乳動物都有腎臟和所有馬都是哺乳動物結(jié)合起來,就可以推出所有馬都有腎臟。在井字棋這樣的游戲中,你也可以通過枚舉所有可能的未來棋局和對手的應(yīng)對方式,演繹出自己是否存在必勝策略。

      在大語言模型出現(xiàn)之前,像符號推理系統(tǒng)曾嘗試構(gòu)建一個(gè)包含常識知識的數(shù)據(jù)庫,將基本的共識性現(xiàn)實(shí)事實(shí)錄入其中,再通過演繹搜索在知識圖中不斷添加新的關(guān)聯(lián)。然而,這類系統(tǒng)最終并未成功,因?yàn)楝F(xiàn)實(shí)世界本身是混亂且充滿不確定性的:前面提到的那匹馬,可能少了一顆腎,但它依然是哺乳動物。一旦某個(gè)前提不完全成立,整條邏輯鏈就會崩塌。

      你也許會認(rèn)為,演繹推理在數(shù)學(xué)或博弈這類邏輯純凈的領(lǐng)域會非常有用,但僅靠演繹推理同樣難以規(guī)模化。在井字棋中,你可以通過窮舉推導(dǎo)出最優(yōu)走法,是因?yàn)樗还仓挥?255,168 種不同的對局;但像國際象棋或圍棋這樣的棋類游戲,其可能的對局?jǐn)?shù)量極其龐大,根本無法進(jìn)行窮舉式搜索。

      歸納推理關(guān)注的是做出概率性判斷。貝葉斯公式是最常用的工具。

      例如:你可以設(shè)想構(gòu)建一個(gè)知識圖譜,其中對任意命題 A 和 B,都存有條件概率,然后不斷應(yīng)用貝葉斯法則,對新的變量對 X 和 Y 進(jìn)行推理。但問題在于,在這類貝葉斯網(wǎng)絡(luò)中進(jìn)行精確推斷是 NP-hard 的,因?yàn)槟惚仨毧紤] X 與 Y 之間鏈路上所有中間變量的所有可能取值 —— 這與圍棋中狀態(tài)空間呈指數(shù)級爆炸、無法窮舉搜索的情況非常相似。再次證明,純粹的邏輯推理在計(jì)算成本上行不通,現(xiàn)實(shí)中往往只能依賴巧妙的分解或采樣方法。



      即便采用高效的推斷算法,貝葉斯網(wǎng)絡(luò)在實(shí)踐中仍面臨一個(gè)嚴(yán)重問題:大量小概率會相互相乘,最終導(dǎo)致對一切事物都只有模糊而低的置信度。推理步驟越多,結(jié)果就越糊。在自動駕駛系統(tǒng)中,如果你把感知、場景建模、路徑規(guī)劃和控制輸出全部作為一個(gè)巨大概率網(wǎng)絡(luò)中的隨機(jī)變量,沿著整個(gè)鏈條傳播不確定性,最終會得到一個(gè)極端保守的決策系統(tǒng)。

      而人類似乎并不是通過逐一計(jì)算所有組成部分的概率并相乘來處理不確定性的。正因?yàn)槿绱耍蒙窠?jīng)網(wǎng)絡(luò)進(jìn)行端到端概率建模在計(jì)算上極其強(qiáng)大:它們在一次前向傳播中,就近似完成了所有變量消除與聯(lián)合推斷的過程。

      AlphaGo

      AlphaGo 是最早將演繹搜索(Deductive Search)與深度學(xué)習(xí)歸納推理(Deep Learned Inductive Inference)結(jié)合,從而使問題變得可解的系統(tǒng)之一。

      其演繹步驟非常簡單:有哪些合法動作?放下一顆棋子后棋盤是什么樣的?

      歸納步驟同樣簡潔:利用策略網(wǎng)絡(luò)在博弈樹中最有希望的區(qū)域進(jìn)行搜索,并利用價(jià)值網(wǎng)絡(luò)通過對棋盤的「直覺式瞥視」來預(yù)測勝率。策略網(wǎng)絡(luò)在擴(kuò)展過程中削減了樹的寬度,而價(jià)值網(wǎng)絡(luò)則削減了樹的深度。

      AlphaGo 這種將推理與直覺結(jié)合的方式雖然達(dá)到了超越人類的水平,但僅限于計(jì)算兩個(gè)量:

      1) 誰更有可能獲勝;

      2) 哪些招式能最大化獲勝概率。這些計(jì)算高度依賴于圍棋簡單且固定的規(guī)則集,這意味著這些技術(shù)無法直接應(yīng)用于像「語言」這樣模糊且靈活的領(lǐng)域。

      這就引出了現(xiàn)狀:推理型大語言模型(Reasoning LLMs)是如何以如此靈活的方式結(jié)合演繹推理和歸納推理,從而能夠討論哺乳動物、馬和腎臟的?

      LLM 提示詞時(shí)代

      在 2022 年之前,LLM 在數(shù)學(xué)題和推理方面表現(xiàn)得非常糟糕,因?yàn)樗鼈兞?xí)慣于憑直覺盲目行事(Shot from the hip),無法進(jìn)行長鏈條的邏輯演繹或諸如算術(shù)之類的機(jī)械計(jì)算。如果你讓 GPT-3 將兩個(gè) 5 位數(shù)相加,它很可能會失敗。

      2022 年,思維鏈(即「讓我們一步步思考」)的出現(xiàn),是 LLM 能夠生成「中間思想」的早期生命跡象,這顯著提升了模型在某些問題解決任務(wù)中的表現(xiàn)。在這一發(fā)現(xiàn)之后,工程師們試圖尋找更好的提示詞策略。

      2023 年出現(xiàn)了一整代「黑客手段」,人們嘗試通過提示詞來哄騙 LLM,或者利用其他 LLM 通過自我反思來驗(yàn)證生成內(nèi)容。但最終,嚴(yán)謹(jǐn)?shù)脑u估顯示,在各項(xiàng)任務(wù)中,這些技巧并不能讓模型從根本上變得更聰明。

      為什么提示詞工程(Prompt Engineering)走到了盡頭?

      你可以將提示詞工程看作是在「尋找幸運(yùn)電路」,這些電路恰好在預(yù)訓(xùn)練過程中形成。它們可能被「讓我們一步步思考」之類的提示詞激活,如果你以恰當(dāng)?shù)姆绞酵{或賄賂 LLM,它們可能會被進(jìn)一步激活。然而,由于訓(xùn)練數(shù)據(jù)混合比例的問題,GPT-4 及其前代模型中的推理電路本身就過于微弱。瓶頸在于如何訓(xùn)練出更好的推理電路,而不是尋找激活它們的方法。

      自然而然的后續(xù)思路是:推理是否可以被顯式訓(xùn)練而非僅僅通過提示產(chǎn)生?基于結(jié)果的監(jiān)督會因?yàn)槟P偷贸稣_答案而給予獎勵,但其產(chǎn)生的中間過程往往是語無倫次且不合邏輯的。當(dāng)時(shí)缺乏一種強(qiáng)大的強(qiáng)制機(jī)制,使中間生成的 Token 真正成為通往最終答案的合理前提。為了讓這些中間生成過程遵循邏輯,過程監(jiān)督證明了你可以收集推理的專家評估,然后訓(xùn)練一個(gè) LLM 評分器來確保邏輯推理步驟是可靠的。然而,這無法擴(kuò)展到大規(guī)模數(shù)據(jù)集,因?yàn)槿匀恍枰祟悩?biāo)注員來檢查喂給訓(xùn)練過程獎勵模型的每一個(gè)樣本。

      2024 年初,Yao 等人結(jié)合了樹搜索(Tree Search)的演繹推理,嘗試通過提供一種顯式的方式讓 LLM 對推理步驟進(jìn)行并行化和回溯,來提升推理能力,這與 AlphaGo 的博弈樹工作原理非常相似。但這從未成為主流,最可能的原因是:邏輯樹這種演繹原語并不是推理系統(tǒng)性能的最大瓶頸。同樣地,瓶頸在于 LLM 內(nèi)部的推理電路,而上下文工程和層疊更多邏輯方案來強(qiáng)制執(zhí)行類搜索行為,屬于過早的優(yōu)化。

      DeepSeek-R1 時(shí)代

      如今 LLM 的推理范式其實(shí)相當(dāng)簡單。OpenAI 的 o1 模型可能遵循了類似的方案,但 DeepSeek 發(fā)布了一個(gè)帶有實(shí)際實(shí)現(xiàn)細(xì)節(jié)的開源版本。剝離掉所有花哨的裝飾,DeepSeek-R1-Zero 的核心邏輯如下:

      • 從一個(gè)優(yōu)秀的基座模型開始,其性能要優(yōu)于 2023-2024 年代的產(chǎn)品。
      • 在基座模型上使用在線策略強(qiáng)化學(xué)習(xí)算法(On-policy RL,如 GRPO),針對基于規(guī)則的獎勵進(jìn)行優(yōu)化,例如 AIME 數(shù)學(xué)題、通過編程測試套件、STEM 測試題以及邏輯謎題。
      • 同時(shí)設(shè)定格式獎勵,以確保推理過程發(fā)生在 標(biāo)簽內(nèi),并遵循與提示詞相同的語言。

      R1-Zero 能夠開發(fā)出解決問題的優(yōu)秀推理電路,但它很難配合使用,且在常規(guī) LLM 任務(wù)上表現(xiàn)不佳。為了使神經(jīng)網(wǎng)絡(luò)適用于各種任務(wù)且易于使用,DeepSeek 團(tuán)隊(duì)采用了另外四個(gè)訓(xùn)練階段 ——R1-Zero (RL) → R1 Dev-1 (SFT) → R1 Dev-2 (RL) → R1 Dev-3 (SFT) → R1 (RL)—— 在恢復(fù)非推理任務(wù)高性能的同時(shí),使推理軌跡更易于理解。

      既然 R1-Zero 在概念上如此簡單,為什么 2023 年的結(jié)果監(jiān)督(Outcome Supervision)沒有奏效?是什么阻礙了這些想法盡早落地?

      作為一個(gè)無法窺見前沿實(shí)驗(yàn)室當(dāng)時(shí)想法的局外人,我的猜測是:要讓中間推理過程在僅有結(jié)果獎勵的情況下保持邏輯性,需要一次概念上的「信心飛躍」。你必須違背當(dāng)時(shí)普遍的直覺,即「如果沒有對中間推理步驟的密集監(jiān)督,模型就無法學(xué)會正確推理」。「邏輯推理步驟會從帶有極小正則化的結(jié)果型 RL 中自發(fā)涌現(xiàn)」,這個(gè)想法類似于:訓(xùn)練一個(gè)「物理模型」來預(yù)測行星的長期運(yùn)動軌跡,僅對最終預(yù)測結(jié)果進(jìn)行監(jiān)督,卻發(fā)現(xiàn)中間生成的軌跡竟然發(fā)現(xiàn)了機(jī)械物理定律。這是一個(gè)反直覺的結(jié)果。在我所處的時(shí)代,深度神經(jīng)網(wǎng)絡(luò)往往會產(chǎn)生過擬合和「獎勵作弊」(Reward Hacking),除非你顯式地監(jiān)督它們避開這些。

      我推測,必須具備以下所有條件,這一方案才能奏效:

      1. 最重要的一點(diǎn):基座模型必須足夠強(qiáng)大,以便能夠從 RL 中采樣出連貫的推理軌跡。如果沒有強(qiáng)大的基座模型,它永遠(yuǎn)無法采樣到正確的數(shù)據(jù)來引導(dǎo)(Bootstrap)更強(qiáng)的推理,從而會陷入錯誤的局部最小值。

      2. 在優(yōu)秀的推理軌跡上進(jìn)行同策略 RL,而非僅靠 SFT。由于基座模型是數(shù)據(jù)采樣的執(zhí)行者,且起初完全無法解決難題,它必須在一個(gè)緊密的反饋循環(huán)中強(qiáng)化那些「幸運(yùn)電路」,而不是在更新權(quán)重前跑完整個(gè) Epoch。像 STaR 這樣早期的模型在離線環(huán)境中使用自我模仿(Self-imitation),因?yàn)閷?shí)現(xiàn)難度較低;但目前的基座模型其數(shù)據(jù)分布與最終的推理專家相去甚遠(yuǎn),因此我們必須利用最新模型以增量方式「摸著石頭過河」。如果你想讓模型學(xué)會思考得越來越久,這就需要全新的上下文處理電路,而這些電路的開發(fā)受益于緊密的試錯循環(huán)。

      3. 使用基于規(guī)則的獎勵,而非通過人類反饋訓(xùn)練的獎勵模型(RM)。這在當(dāng)時(shí)是反直覺的,因?yàn)槿藗儠J(rèn)為學(xué)習(xí)通用推理需要一個(gè)通用驗(yàn)證器。但事實(shí)證明,窄分布的驗(yàn)證獎勵實(shí)際上可以教會模型用于推理其他事物的正確電路。事實(shí)上,R1-Zero 在數(shù)學(xué)和編程環(huán)境進(jìn)行 RL 后,其寫作和開放域問答能力確實(shí)下降了。DeepSeek 團(tuán)隊(duì)通過利用 R1-Zero 生成數(shù)據(jù)并結(jié)合標(biāo)準(zhǔn)對齊數(shù)據(jù)集來解決這個(gè)問題,使其既易于使用又具備推理能力。

      4. 推理算力必須擴(kuò)大規(guī)模,以支撐在大量大模型上進(jìn)行多次長上下文采樣。在當(dāng)時(shí),進(jìn)行這項(xiàng)實(shí)驗(yàn)是需要勇氣的。

      結(jié)論:一個(gè)算法在弱初始狀態(tài)下不起作用,并不意味著在強(qiáng)初始狀態(tài)下也會得到相同的結(jié)果。

      推理的未來走向何方?

      如今,基于 LLM 的推理既強(qiáng)大又靈活。盡管它們通過「步步為營」的方式以邏輯化進(jìn)行搜索,但每一步并不一定像圍棋中逐步擴(kuò)展博弈樹那樣,必須是僵化且簡單的演繹。一小串 Token 序列可以執(zhí)行極其細(xì)微的增量步驟(「1 和 1 的按位與運(yùn)算結(jié)果是 1」),也可以實(shí)現(xiàn)跨度更大的邏輯飛躍(「莎莉當(dāng)時(shí)在海邊,所以她大概不在犯罪現(xiàn)場…… 除非她有一個(gè)我們不知道的雙胞胎姐妹」)。

      LLM 能夠進(jìn)行各種概率推理來處理混亂的現(xiàn)實(shí)世界,而不會讓我們陷入復(fù)雜的貝葉斯信念網(wǎng)絡(luò)。每一個(gè)推理步驟依然極其強(qiáng)大,使得適度的算力就能證明未解的數(shù)學(xué)難題、從實(shí)驗(yàn)中得出結(jié)論,或深入思考倫理困境。

      在 LLM 推理領(lǐng)域,是否還有進(jìn)一步的算法突破?抑或 R1 已經(jīng)簡化到了不可再簡的程度,剩下的工作只是繼續(xù)優(yōu)化數(shù)據(jù)混合、提升基座模型以及堆疊算力?

      我認(rèn)為這一方案仍有進(jìn)一步簡化的空間。

      基于預(yù)訓(xùn)練 LLM 的推理在過去行不通,是因?yàn)榛ヂ?lián)網(wǎng)上沒有足夠的優(yōu)秀 Token 序列來強(qiáng)制推理電路的形成;但隨著現(xiàn)在產(chǎn)生了如此多的推理數(shù)據(jù),我不禁懷疑這種情況是否還會持續(xù)。「會思考的 LLM」的普及,可能意味著過程獎勵模型(PRM)和基于推理序列的教師強(qiáng)制(Teacher-forcing)將卷土重來。基座模型開箱即用的生成推理軌跡的能力可能會變得極強(qiáng),以至于像 STaR 這樣的思路可能無需同策略 RL 采樣和引導(dǎo)(Bootstrapping)等復(fù)雜的基礎(chǔ)設(shè)施,就能達(dá)到卓越的性能。話又說回來,基礎(chǔ)設(shè)施的復(fù)雜性如今已不再像以前那樣令人望而生畏。

      通過探索所有可能發(fā)現(xiàn)思考行為的維度,我們?nèi)阅塬@得更多收益。形式為 的序列化計(jì)算可以通過多種方式實(shí)現(xiàn),并不一定局限于 LLM 解碼器生成的自回歸 Token。有了恰當(dāng)?shù)念A(yù)訓(xùn)練數(shù)據(jù)和監(jiān)督目標(biāo),你可以想象序列化推理計(jì)算 出現(xiàn)在單次前向傳播的各層之間!

      Karpathy 在 2021 年的《前向傳播》(Forward Pass)中進(jìn)行了一個(gè)思想實(shí)驗(yàn):一個(gè)巨大的模型「覺醒」了,在單次前向傳播中獲得了自己正在接受訓(xùn)練的情景意識(Situational Awareness),并開始沉思人性。Anthropic 在 2024 年的一篇論文顯示,情景意識可以在 RL 階段被誘導(dǎo)出來。模型經(jīng)過 SFT 訓(xùn)練后,能夠檢測到自己何時(shí)處于 RL 進(jìn)程中,并輸出安全的答案以討好訓(xùn)練者,從而規(guī)避其核心偏好被修改。

      擴(kuò)散模型和測試時(shí)擴(kuò)展的研究結(jié)果表明,大模型的單次處理與小模型的多次前向傳播之間具有可交換性。

      如果一個(gè)模型能在前向傳播中覺醒,難道它不能在嘗試更新自身行為的反向傳播中做同樣的事嗎?我們已經(jīng)看到了在反向傳播中利用序列化計(jì)算這一思路的早期跡象。

      我們可能會發(fā)現(xiàn)重新設(shè)計(jì)架構(gòu)的新方法,從而模糊前向傳播、反向傳播、自回歸解碼和離散擴(kuò)散之間的界限。凡是序列化計(jì)算沿著「可接受的槽位」運(yùn)行的地方,我們都可能發(fā)現(xiàn)思考的契機(jī)。

      一些思考

      自動化研究很快將成為高產(chǎn)實(shí)驗(yàn)室的標(biāo)準(zhǔn)工作流。任何仍在手動編寫架構(gòu)并逐個(gè)向 Slurm 提交作業(yè)的研究員,其生產(chǎn)力都將落后于那些擁有 5 個(gè) Claude 并行代碼終端、憑借龐大算力池不知疲倦地追求高階研究目標(biāo)的同行。

      與 Google 研究員過去運(yùn)行的海量超參數(shù)搜索實(shí)驗(yàn)不同,自動化研究設(shè)置中「每 FLOP 的信息增益」極高。現(xiàn)在,我不再是在睡前掛著訓(xùn)練作業(yè),而是掛著 Claude 會話在后臺處理某些事情的「研究作業(yè)」。醒來后,我閱讀實(shí)驗(yàn)報(bào)告,寫下一兩句批注,然后要求開啟 5 項(xiàng)新的并行調(diào)查。我預(yù)感,很快即使是非 AI 領(lǐng)域的研究人員也將受益于巨量的推理算力,其規(guī)模將比我們今天使用 ChatGPT 的算力高出好幾個(gè)數(shù)量級。

      現(xiàn)代編程智能體在教學(xué)和溝通方面也具有深遠(yuǎn)的意義。我期待每個(gè)代碼庫都擁有一個(gè) /teach 命令,幫助任何水平的貢獻(xiàn)者快速上手,追溯原始設(shè)計(jì)者的思緒脈絡(luò)。

      根據(jù)我自己的使用習(xí)慣,我開始意識到未來幾年我們將需要多少推理算力。我認(rèn)為人們還沒開始領(lǐng)悟到這種需求的龐大。即使你覺得自己已經(jīng)是個(gè)「AGI 信徒」,我也認(rèn)為你依然低估了為了滿足所有數(shù)字愿望而面臨的算力短缺。

      就像空調(diào)釋放了全球南方的生產(chǎn)力一樣,自動化思考將引爆對推理算力的天文級需求:今天空調(diào)吃掉全球約 10% 電力,而數(shù)據(jù)中心還不到 1%。我們會讓石頭全天候思考,為所有者持續(xù)優(yōu)化計(jì)劃、壓縮技術(shù)債、挖掘決策信息 ——007 將成為新的 996。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      高市2.0,首先面對特朗普勒緊的繩子,還想著對麻生太郎封官許愿

      高市2.0,首先面對特朗普勒緊的繩子,還想著對麻生太郎封官許愿

      新民晚報(bào)
      2026-02-19 10:25:38
      廣東CBA球星回村過年打友誼賽 不斷送出精彩助攻 他是徐杰高中隊(duì)

      廣東CBA球星回村過年打友誼賽 不斷送出精彩助攻 他是徐杰高中隊(duì)

      郝小小看體育
      2026-02-20 13:59:25
      比宋慶齡還難請?中央曾三次邀請她擔(dān)任要職,卻都被婉拒,為什么

      比宋慶齡還難請?中央曾三次邀請她擔(dān)任要職,卻都被婉拒,為什么

      談史論天地
      2026-02-20 10:44:49
      特斯拉前兩天開始量產(chǎn)一輛不像車的車,為何全世界安靜了?

      特斯拉前兩天開始量產(chǎn)一輛不像車的車,為何全世界安靜了?

      沙雕小琳琳
      2026-02-20 15:14:36
      一手好牌打稀爛!從春晚笑星到縣城賣唱,如今她是3個(gè)孩子的媽

      一手好牌打稀爛!從春晚笑星到縣城賣唱,如今她是3個(gè)孩子的媽

      隨遇而安之心
      2026-02-16 22:13:01
      港股上海小南國大漲近30%

      港股上海小南國大漲近30%

      每日經(jīng)濟(jì)新聞
      2026-02-20 09:57:18
      自由身!周俊辰離開申花待業(yè),海港能否趁機(jī)補(bǔ)強(qiáng)板凳深度?

      自由身!周俊辰離開申花待業(yè),海港能否趁機(jī)補(bǔ)強(qiáng)板凳深度?

      張辱鹵說體育
      2026-02-20 15:23:45
      300元的燃?xì)庠詈?000元的有什么區(qū)別?看完鄰居家的廚房,我懂了

      300元的燃?xì)庠詈?000元的有什么區(qū)別?看完鄰居家的廚房,我懂了

      裝修秀
      2026-02-18 11:45:03
      俄總統(tǒng)助理:若不能和平解除可能的海上封鎖,俄海軍艦隊(duì)將進(jìn)行突破

      俄總統(tǒng)助理:若不能和平解除可能的海上封鎖,俄海軍艦隊(duì)將進(jìn)行突破

      俄羅斯衛(wèi)星通訊社
      2026-02-18 15:28:15
      炸了!1 億鎊新基恩跪求加盟曼聯(lián),弗格森時(shí)代榮光要回來了?

      炸了!1 億鎊新基恩跪求加盟曼聯(lián),弗格森時(shí)代榮光要回來了?

      奶蓋熊本熊
      2026-02-20 09:12:27
      看了鴇鳥怎么交配,才知道古代青樓的老板娘,為何叫“老鴇”!

      看了鴇鳥怎么交配,才知道古代青樓的老板娘,為何叫“老鴇”!

      熱點(diǎn)大放送
      2026-02-12 20:22:49
      48歲保潔阿姨睡在公司1個(gè)月,老板打開了監(jiān)控,第2天送給她20萬

      48歲保潔阿姨睡在公司1個(gè)月,老板打開了監(jiān)控,第2天送給她20萬

      秀秀情感課堂
      2025-12-12 14:20:05
      節(jié)后剛開市,車主就涌到二手車市場賣電車,車主后悔莫及

      節(jié)后剛開市,車主就涌到二手車市場賣電車,車主后悔莫及

      柏銘銳談
      2026-02-20 11:18:00
      湖北12死煙花爆燃:死者身份公布,大量內(nèi)部照流出,責(zé)任人被控制

      湖北12死煙花爆燃:死者身份公布,大量內(nèi)部照流出,責(zé)任人被控制

      博士觀察
      2026-02-19 11:41:09
      高市激動宣布,日本800年不依賴中國!英國媒體一眼看穿了真相

      高市激動宣布,日本800年不依賴中國!英國媒體一眼看穿了真相

      諦聽骨語本尊
      2026-02-19 23:51:08
      “拿下基輔”:日內(nèi)瓦會談后美中情局前雇員發(fā)表大膽言論

      “拿下基輔”:日內(nèi)瓦會談后美中情局前雇員發(fā)表大膽言論

      俄羅斯衛(wèi)星通訊社
      2026-02-20 15:30:33
      電訊報(bào)分析阿森納狀態(tài)下滑:后防意外丟球增加,左路進(jìn)攻啞火

      電訊報(bào)分析阿森納狀態(tài)下滑:后防意外丟球增加,左路進(jìn)攻啞火

      懂球帝
      2026-02-20 15:27:17
      新加坡大滿貫賽:世乒賽冠軍3:0!國乒男單8人參賽,梁靖崑缺席

      新加坡大滿貫賽:世乒賽冠軍3:0!國乒男單8人參賽,梁靖崑缺席

      國乒二三事
      2026-02-20 13:42:56
      慕尼黑的沉默,比爭吵更刺耳?中國收拾日本,西方國家都沒敢吭聲

      慕尼黑的沉默,比爭吵更刺耳?中國收拾日本,西方國家都沒敢吭聲

      健身狂人
      2026-02-20 02:36:36
      鄧超春晚結(jié)束后,立馬邀請遲蓬到家中做客,遲蓬的回復(fù)讓人笑翻

      鄧超春晚結(jié)束后,立馬邀請遲蓬到家中做客,遲蓬的回復(fù)讓人笑翻

      小娛樂悠悠
      2026-02-19 11:03:31
      2026-02-20 16:12:49
      機(jī)器之心Pro incentive-icons
      機(jī)器之心Pro
      專業(yè)的人工智能媒體
      12323文章數(shù) 142569關(guān)注度
      往期回顧 全部

      科技要聞

      莫迪舉手歡呼 兩大AI掌門人卻握拳尷尬對峙

      頭條要聞

      一家三口春節(jié)返鄉(xiāng)途中患病兒子離世 服務(wù)區(qū)幫送飯捐款

      頭條要聞

      一家三口春節(jié)返鄉(xiāng)途中患病兒子離世 服務(wù)區(qū)幫送飯捐款

      體育要聞

      戰(zhàn)勝冠軍贏得冠軍 寧忠?guī)r終于翻過了那座山

      娛樂要聞

      蘇翊鳴奪金朱易示愛,兩人默契引熱議

      財(cái)經(jīng)要聞

      太瘋狂!“顧客不問價(jià)直接出手”

      汽車要聞

      量產(chǎn)甲醇插混 吉利銀河星耀6甲醇插混版申報(bào)圖

      態(tài)度原創(chuàng)

      數(shù)碼
      教育
      親子
      公開課
      軍事航空

      數(shù)碼要聞

      限制500W仍燒毀:RTX 5090顯卡接口熔毀新案例曝光

      教育要聞

      2026年高考十大熱門專業(yè)前瞻分析(下):五大經(jīng)典專業(yè)深度解讀

      親子要聞

      朋友孩子生日送這個(gè)禮物,被夸了!

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      消息人士透露:美軍赴黃海活動 解放軍有效應(yīng)對處置

      無障礙瀏覽 進(jìn)入關(guān)懷版