<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請入駐

      Andrej Karpathy:2025 年度盤點(diǎn)

      0
      分享至

      本文來自 Andrej Karpathy

      https://karpathy.bearblog.dev/year-in-review-2025/

      2025 年是大語言模型突飛猛進(jìn)的一年

      以下是我個(gè)人認(rèn)為最值得關(guān)注的幾個(gè)「范式轉(zhuǎn)變」,這些變化重塑了整個(gè)行業(yè)格局,也在概念上給我留下了深刻印象


      可驗(yàn)證獎(jiǎng)勵(lì)的強(qiáng)化學(xué)習(xí)(RLVR)

      2025 年初,各大實(shí)驗(yàn)室訓(xùn)練 LLM 的標(biāo)準(zhǔn)流程大致是這樣的:

      1. 1. 預(yù)訓(xùn)練(Pretraining),GPT-2/3 時(shí)代約 2020 年確立的基礎(chǔ)

      2. 2. 監(jiān)督微調(diào)(Supervised Finetuning, SFT),始于 InstructGPT,約 2022 年

      3. 3. 基于人類反饋的強(qiáng)化學(xué)習(xí)(RLHF),同樣始于約 2022 年

      這套流程久經(jīng)驗(yàn)證,是訓(xùn)練生產(chǎn)級(jí) LLM 的穩(wěn)定配方

      而到了 2025 年,可驗(yàn)證獎(jiǎng)勵(lì)的強(qiáng)化學(xué)習(xí)(Reinforcement Learning from Verifiable Rewards, RLVR)正式成為這條流水線上的新主力環(huán)節(jié)


      RLVR 的核心思路是讓 LLM 在一系列「答案可以自動(dòng)驗(yàn)證」的環(huán)境中訓(xùn)練,比如數(shù)學(xué)題、編程挑戰(zhàn)等。神奇的是,經(jīng)過這種訓(xùn)練,模型會(huì)自發(fā)地「學(xué)會(huì)思考」:它們開始把復(fù)雜問題拆解成中間步驟,并摸索出各種解題策略,比如反復(fù)推敲、來回驗(yàn)證(詳見 DeepSeek R1 論文中的案例)


      這些能力在之前的訓(xùn)練范式下很難實(shí)現(xiàn),因?yàn)槲覀兏静恢缹?duì)于這個(gè)模型而言「最優(yōu)的推理路徑」長什么樣,它必須自己在優(yōu)化獎(jiǎng)勵(lì)的過程中摸索出來

      與 SFT 和 RLHF 這兩個(gè)相對(duì)輕量的階段不同,RLVR 的訓(xùn)練對(duì)象是客觀的、無法被刷分的獎(jiǎng)勵(lì)函數(shù),模型沒法通過投機(jī)取巧來騙取高分,必須真正解決問題,因此可以進(jìn)行更長時(shí)間的優(yōu)化。實(shí)踐證明 RLVR 的性價(jià)比極高,它像饕餮一樣吞噬了原本留給預(yù)訓(xùn)練的算力

      因此 2025 年的能力提升主要來自實(shí)驗(yàn)室們消化這個(gè)新階段帶來的紅利,模型參數(shù)規(guī)模沒怎么變,但 RL 訓(xùn)練跑得更久了


      RLVR 還帶來了一個(gè)全新的調(diào)節(jié)旋鈕和配套的 Scaling Law:
      通過生成更長的推理鏈條、增加「思考時(shí)間」,我們可以在推理階段用更多算力換取更強(qiáng)的能力


      OpenAI 的 o1(2024 年底發(fā)布)是 RLVR 模型的首次亮相,但真正讓人直觀感受到質(zhì)變的是 2025 年初發(fā)布的 o3

      「召喚幽靈」vs「培育動(dòng)物」/ 參差不齊的智能

      2025 年,我以及整個(gè)行業(yè)開始真正在直覺層面理解 LLM 智能的「形狀」。我們不是在培育、進(jìn)化某種動(dòng)物,而是在召喚幽靈

      LLM 的一切都與生物智能不同,神經(jīng)網(wǎng)絡(luò)架構(gòu)、訓(xùn)練數(shù)據(jù)、訓(xùn)練算法,尤其是優(yōu)化目標(biāo)。所以我們得到的是一種在智能空間中截然不同的實(shí)體,用動(dòng)物的思維模式去理解它們并不合適

      從監(jiān)督信號(hào)的角度看,人類神經(jīng)網(wǎng)絡(luò)是為了讓部落在叢林中存活而優(yōu)化的,但 LLM 的神經(jīng)網(wǎng)絡(luò)是為了模仿人類的文字、在數(shù)學(xué)謎題中拿分、在 LM Arena 上獲得點(diǎn)贊而優(yōu)化的

      由于可驗(yàn)證領(lǐng)域允許 RLVR 訓(xùn)練,LLM 在這些領(lǐng)域附近的能力會(huì)尖峰式飆升,整體呈現(xiàn)出一種令人啼笑皆非的參差不齊特征。它們可以同時(shí)是學(xué)富五車的天才博學(xué)家,又是一個(gè)困惑懵懂、隨時(shí)可能被越獄攻擊騙走你數(shù)據(jù)的小學(xué)生

      下圖,展示了人類智能「藍(lán)色」和 AI 智能「紅色」的對(duì)比

      這張 meme 的有趣之處在于,它也指出了人類智能同樣是參差不齊的,只是參差的形狀不同


      與此相關(guān)的是我在 2025 年對(duì)基準(zhǔn)測試產(chǎn)生了普遍的冷感和不信任。核心問題在于基準(zhǔn)測試幾乎從定義上就是可驗(yàn)證的環(huán)境,因此天然容易被 RLVR 或通過合成數(shù)據(jù)生成的弱化版本攻克

      在典型的刷榜流程中,實(shí)驗(yàn)室團(tuán)隊(duì)不可避免地會(huì)在基準(zhǔn)測試所占據(jù)的嵌入空間小角落周圍構(gòu)建訓(xùn)練環(huán)境,然后長出覆蓋它們的尖刺。在測試集上訓(xùn)練已經(jīng)成為一門新的藝術(shù)形式

      如果我們刷爆了所有基準(zhǔn)測試,卻依然沒有實(shí)現(xiàn) AGI,那會(huì)是什么樣子?

      關(guān)于這一節(jié)的話題,可參考之前的內(nèi)容:

      • ? Animals vs. Ghosts(動(dòng)物 vs 幽靈)
        https://karpathy.bearblog.dev/animals-vs-ghosts/

      • ? Verifiability(可驗(yàn)證性)
        https://karpathy.bearblog.dev/verifiability/

      • ? The Space of Minds(心智的空間)
        https://karpathy.bearblog.dev/the-space-of-minds/

      Cursor / LLM 應(yīng)用的新層級(jí)

      Cursor 今年最讓我印象深刻的地方,除了它火箭般的增長,是它令人信服地揭示了 LLM 應(yīng)用的一個(gè)新層級(jí),人們開始討論「X 領(lǐng)域的 Cursor」


      正如我今年在 Y Combinator 演講中所說,像 Cursor 這樣的 LLM 應(yīng)用會(huì)針對(duì)特定垂直領(lǐng)域打包和編排 LLM 調(diào)用:

      • ? 它們負(fù)責(zé)上下文工程(Context Engineering)

      • ? 它們在底層編排多次 LLM 調(diào)用,串聯(lián)成越來越復(fù)雜的有向無環(huán)圖,在性能和成本之間精細(xì)權(quán)衡

      • ? 它們?yōu)槿嗽诨芈分校℉uman in the Loop)提供針對(duì)特定應(yīng)用的圖形界面

      • ? 它們提供一個(gè)自主性滑塊,讓用戶決定 AI 可以自己做多少?zèng)Q定

      2025 年有大量討論圍繞這個(gè)新應(yīng)用層有多厚展開。LLM 實(shí)驗(yàn)室會(huì)不會(huì)通吃所有應(yīng)用場景?還是說 LLM 應(yīng)用創(chuàng)業(yè)者仍有廣闊天地?

      我個(gè)人的判斷是 LLM 實(shí)驗(yàn)室傾向于培養(yǎng)出能力全面的大學(xué)畢業(yè)生,而 LLM 應(yīng)用則會(huì)通過組織、微調(diào),并結(jié)合私有數(shù)據(jù)、傳感器、執(zhí)行器和反饋回路,把這些畢業(yè)生真正培訓(xùn)成特定垂直領(lǐng)域的專業(yè)人士


      Claude Code / 住在你電腦里的 AI

      Claude Code 是第一個(gè)令人信服地展示了 LLM 智能體面貌的產(chǎn)品,它以循環(huán)的方式串聯(lián)起工具調(diào)用和推理,進(jìn)行持續(xù)的問題求解

      此外 Claude Code 讓我印象深刻的一點(diǎn)是它運(yùn)行在你自己的電腦上,使用你的私有環(huán)境、數(shù)據(jù)和上下文。我認(rèn)為 OpenAI 在這一點(diǎn)上走錯(cuò)了路,他們早期的 Codex / Agent 工作重心放在了云端部署,在 ChatGPT 調(diào)度的容器里運(yùn)行,而不是簡單地跑在本地


      誠然在云端運(yùn)行的智能體集群感覺像是 AGI 的終極形態(tài),但我們活在一個(gè)參差能力的中間世界,takeoff 足夠緩慢,因此讓智能體直接跑在開發(fā)者的電腦上更為合理

      注意,真正關(guān)鍵的區(qū)別不在于 AI 操作碰巧在哪里運(yùn)行(云端、本地還是別處),而在于其他一切:那臺(tái)已經(jīng)開機(jī)、配置好的電腦,它的安裝環(huán)境、上下文、數(shù)據(jù)、密鑰、配置,以及低延遲的交互

      Anthropic 正確把握了這個(gè)優(yōu)先級(jí),并將 Claude Code 打包成一個(gè)精致、極簡的命令行工具,改變了 AI 的面貌。它不再只是一個(gè)你去訪問的網(wǎng)站,而是一個(gè)住在你電腦里的小精靈。這是一種與 AI 交互的全新范式

      氛圍編程(Vibe Coding)

      2025 年是 AI 跨越能力門檻的一年,人們可以純用英語說出各種令人驚嘆的程序,甚至忘記代碼的存在。有趣的是「vibe coding」這個(gè)詞是我在一條靈光乍現(xiàn)的推文里隨手造的,完全沒想到它能傳播這么遠(yuǎn)


      有了氛圍編程,編程不再是受過高度訓(xùn)練的專業(yè)人士的專屬,而是任何人都能做的事。從這個(gè)意義上說它又是我在《Power to the people: How LLMs flip the script on technology diffusion》一文中所寫內(nèi)容的又一例證。與以往所有技術(shù)形成鮮明對(duì)比,普通人從 LLM 中獲得的收益遠(yuǎn)遠(yuǎn)超過專業(yè)人士、企業(yè)和政府

      但氛圍編程不僅僅賦能普通人接觸編程,它還讓訓(xùn)練有素的專業(yè)人士能夠?qū)懗龃罅勘緛碛肋h(yuǎn)不會(huì)被寫出的軟件。在 nanochat 項(xiàng)目中,我氛圍編程用 Rust 寫了一個(gè)高度定制、極其高效的 BPE 分詞器,而不必去學(xué)習(xí)現(xiàn)有的庫或真正精通 Rust

      今年我氛圍編程寫了很多項(xiàng)目作為快速演示,比如 menugen、llm-council、reader3、HN time capsule。我甚至氛圍編程寫過一次性的臨時(shí)程序只為找到一個(gè) bug,為什么不呢?代碼突然變得免費(fèi)、短命、可塑、用完即棄


      氛圍編程將重塑軟件業(yè),改變職位描述

      Nano Banana / LLM 的圖形界面

      Google Gemini Nano Banana 是 2025 年最令人驚嘆、最具范式轉(zhuǎn)變意義的模型之一

      在我的世界觀里 LLM 是下一個(gè)重大計(jì)算范式,類似于 1970 年代、80 年代的計(jì)算機(jī)。因此我們將看到類似的創(chuàng)新浪潮,出于本質(zhì)上相同的原因。我們將看到個(gè)人計(jì)算的等價(jià)物、微控制器的等價(jià)物(認(rèn)知內(nèi)核)、互聯(lián)網(wǎng)的等價(jià)物(智能體互聯(lián)網(wǎng))等等

      具體到用戶界面,與 LLM 聊天有點(diǎn)像 1980 年代在計(jì)算機(jī)控制臺(tái)上敲命令。文本是計(jì)算機(jī)和 LLM 偏愛的原始數(shù)據(jù)表示,但它不是人類偏愛的格式,尤其是在輸入端。人們其實(shí)不喜歡閱讀文字,它慢且費(fèi)力。相反人們喜歡以視覺化、空間化的方式消費(fèi)信息,這正是傳統(tǒng)計(jì)算中發(fā)明圖形用戶界面的原因


      同理 LLM 應(yīng)該用我們偏愛的格式與我們交流:圖像、信息圖表、幻燈片、白板、動(dòng)畫視頻、Web 應(yīng)用等等。當(dāng)然目前早期和現(xiàn)有的版本是 emoji 和 Markdown 這類東西,它們是裝扮和排版文字的方式,用標(biāo)題、粗體、斜體、列表、表格等讓閱讀更輕松。但誰真正會(huì)去構(gòu)建 LLM 的 GUI 呢?


      從這個(gè)視角看 Nano Banana 是一個(gè)早期的雛形,暗示了未來可能的樣子。重要的是它不僅僅關(guān)乎圖像生成本身,而是關(guān)乎文本生成、圖像生成、世界知識(shí)三者融合在模型權(quán)重中所產(chǎn)生的聯(lián)合能力

      小結(jié)

      2025 年是 LLM 令人興奮的一年

      LLM 正在作為一種全新的智能形態(tài)浮現(xiàn),它們同時(shí)比我預(yù)想的聰明得多,也比我預(yù)想的蠢得多。無論如何它們極其有用,而我認(rèn)為即便在當(dāng)前的能力水平下,整個(gè)行業(yè)也遠(yuǎn)未實(shí)現(xiàn)其 10% 的潛力

      與此同時(shí)有太多想法值得嘗試,從概念上看這個(gè)領(lǐng)域依然廣闊開放。正如我今年早些時(shí)候在 Dwarkesh 播客中提到的,我同時(shí)相信我們將繼續(xù)見證快速而持續(xù)的進(jìn)步,但同時(shí)仍有大量工作要做

      系好安全帶

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      甘肅一轎車高速狂飆近500公里無法減速,駕駛問題還是車輛問題?網(wǎng)友吵翻了

      甘肅一轎車高速狂飆近500公里無法減速,駕駛問題還是車輛問題?網(wǎng)友吵翻了

      紅星新聞
      2025-12-20 20:12:39
      從電視劇《老舅》讓人感覺到中國影視圈是令人絕望的

      從電視劇《老舅》讓人感覺到中國影視圈是令人絕望的

      西域刀客
      2025-12-20 19:33:03
      為什么感覺美國在走向衰落?那是因?yàn)槟闶侵袊?>
    </a>
        <h3>
      <a href=扶蘇聊歷史
      2025-12-19 10:02:54
      73歲的普京為何自曝戀情?看懂俄羅斯最大的困境是啥,你也就懂了

      73歲的普京為何自曝戀情?看懂俄羅斯最大的困境是啥,你也就懂了

      小濤叨叨
      2025-12-21 13:55:48
      底層無貴人,社交無意義

      底層無貴人,社交無意義

      詩詞中國
      2025-12-19 20:34:22
      龍賽羅:梅西經(jīng)歷的慘敗太多了,C羅5年贏了4個(gè)歐冠歷史第一

      龍賽羅:梅西經(jīng)歷的慘敗太多了,C羅5年贏了4個(gè)歐冠歷史第一

      懂球帝
      2025-12-21 08:53:15
      小曲線按照姐姐整容了?馬天宇踩李明德?倪妮糊成路人甲?宋威龍翻身了?姨太問答

      小曲線按照姐姐整容了?馬天宇踩李明德?倪妮糊成路人甲?宋威龍翻身了?姨太問答

      毒舌扒姨太
      2025-12-20 22:26:42
      知名主持王小騫崩潰大哭!自稱女兒患上“正食癥”,心率高達(dá)120

      知名主持王小騫崩潰大哭!自稱女兒患上“正食癥”,心率高達(dá)120

      攬星河的筆記
      2025-12-20 23:16:35
      壽命與起夜次數(shù)有關(guān)?研究發(fā)現(xiàn):壽命長的人,每晚起夜在這個(gè)次數(shù)

      壽命與起夜次數(shù)有關(guān)?研究發(fā)現(xiàn):壽命長的人,每晚起夜在這個(gè)次數(shù)

      九天攬?jiān)?
      2025-12-21 18:57:31
      丁元英:男人最掉價(jià)的行為,不是抽煙喝酒、兜里沒錢,而是這3種

      丁元英:男人最掉價(jià)的行為,不是抽煙喝酒、兜里沒錢,而是這3種

      富書
      2025-12-21 10:49:50
      細(xì)思極恐!一份90年代報(bào)紙的報(bào)道,又暴露出南博的“習(xí)慣性借出”

      細(xì)思極恐!一份90年代報(bào)紙的報(bào)道,又暴露出南博的“習(xí)慣性借出”

      火山詩話
      2025-12-20 06:43:20
      年底了,警惕這40家有st風(fēng)險(xiǎn)的公司,有的已st,有的可能被st!

      年底了,警惕這40家有st風(fēng)險(xiǎn)的公司,有的已st,有的可能被st!

      夜深愛雜談
      2025-12-21 16:34:05
      沖MVP?郭士強(qiáng)無視之人成廣東新核,球迷:胡明軒該與他工資對(duì)換

      沖MVP?郭士強(qiáng)無視之人成廣東新核,球迷:胡明軒該與他工資對(duì)換

      弄月公子
      2025-12-21 21:50:42
      中國的偉大發(fā)明:社會(huì)主義市場經(jīng)濟(jì)

      中國的偉大發(fā)明:社會(huì)主義市場經(jīng)濟(jì)

      中國經(jīng)濟(jì)學(xué)人
      2025-11-24 16:53:58
      尼克松訪華時(shí)留意到 “打倒美帝國主義” 的標(biāo)語,毛主席用風(fēng)趣的話語化解尷尬,尼克松聽后爽朗大笑

      尼克松訪華時(shí)留意到 “打倒美帝國主義” 的標(biāo)語,毛主席用風(fēng)趣的話語化解尷尬,尼克松聽后爽朗大笑

      清風(fēng)鑒史
      2025-12-20 18:40:22
      美國航母已就位,委內(nèi)瑞拉電話打到北京,救不救?王毅斬釘截鐵

      美國航母已就位,委內(nèi)瑞拉電話打到北京,救不救?王毅斬釘截鐵

      博覽歷史
      2025-12-19 19:03:53
      民進(jìn)黨支持者竟造謠“嫌犯是大陸籍” 蔣萬安駁斥

      民進(jìn)黨支持者竟造謠“嫌犯是大陸籍” 蔣萬安駁斥

      看看新聞Knews
      2025-12-21 00:07:04
      拼多多1399元茅臺(tái)被質(zhì)疑,山姆1900元茅臺(tái)熱銷

      拼多多1399元茅臺(tái)被質(zhì)疑,山姆1900元茅臺(tái)熱銷

      暖心萌阿菇?jīng)?/span>
      2025-12-21 12:44:42
      遺憾!李盈瑩被解約,三方聲明公布原因,天津女排需要負(fù)責(zé)

      遺憾!李盈瑩被解約,三方聲明公布原因,天津女排需要負(fù)責(zé)

      跑者排球視角
      2025-12-21 21:20:12
      北斗、GPS信號(hào)受精準(zhǔn)干擾壓制!導(dǎo)航集體失靈事件原因公布!

      北斗、GPS信號(hào)受精準(zhǔn)干擾壓制!導(dǎo)航集體失靈事件原因公布!

      荊楚寰宇文樞
      2025-12-20 22:07:33
      2025-12-21 23:24:49
      賽博禪心
      賽博禪心
      拜AI古佛,修賽博禪心
      218文章數(shù) 12關(guān)注度
      往期回顧 全部

      科技要聞

      生態(tài)適配已超95% 鴻蒙下一關(guān):十萬個(gè)應(yīng)用

      頭條要聞

      美國外交系統(tǒng)現(xiàn)重大調(diào)整 約有24名駐外大使被要求離任

      頭條要聞

      美國外交系統(tǒng)現(xiàn)重大調(diào)整 約有24名駐外大使被要求離任

      體育要聞

      勇士火箭贏球:王牌之外的答案?

      娛樂要聞

      星光大賞太尷尬!搶話擋鏡頭,場地還小

      財(cái)經(jīng)要聞

      老房子“強(qiáng)制體檢”,政府出手了

      汽車要聞

      -30℃,標(biāo)致508L&凡爾賽C5 X冰雪"大考"

      態(tài)度原創(chuàng)

      親子
      數(shù)碼
      游戲
      本地
      公開課

      親子要聞

      大丈夫能屈能伸,哈哈哈哈哈哈我要笑死了

      數(shù)碼要聞

      Intel顯卡沖擊高端:竟然要直接上32GB顯存!

      冠以戰(zhàn)神之名的坦克,能否制霸戰(zhàn)場?坦克世界2.1.1版本ARES將至

      本地新聞

      云游安徽|訪黃山云海古村,讀一城山水風(fēng)骨

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 潘金莲高清dvd碟片| 亚洲国产初高中生女av| 成人无码AV片| 狠狠色噜噜狠狠狠狠色综合网| 中文字幕日韩精品无码内射| AV一区二区三区| 99久热在线精品视频| 久久久久人妻一区精品性色av| 最近中文字幕免费mv在线视频| 久久一日本综合色鬼综合色| 日韩中文字幕v亚洲中文字幕| 91免费在线| 人妻大战黑人白浆狂泄| 乱熟女高潮一区二区在线| 怡红院亚洲| 影音先锋男人站| 无码国产精品一区二区免费虚拟vr | 超碰老司机| 久久久久中文字幕| 日本一区二区三区在线播放| 91超碰在线| 免费人成视频19674不收费 | 凯里市| 国内精品美女a∨在线播放| 国产乱视频在线观看| www.jizzjizz| 无码里番纯肉h在线网站| 日韩精品一区二区午夜成人版| 一卡二卡三卡| 无码专区视频精品老司机| 人人妻人人澡人人爽欧美一区双| AV色导航| 日韩91| 天海翼一区| 人妻中文第二页| 国内老熟妇对白XXXXHD| 毛多水多高潮高清视频 | 一亚洲一区二区中文字幕| 风流老熟女一区二区三区| 拜泉县| 亚洲成av人片色午夜乱码|