<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      Andrej Karpathy:2025 年度盤點

      0
      分享至

      本文來自 Andrej Karpathy

      https://karpathy.bearblog.dev/year-in-review-2025/

      2025 年是大語言模型突飛猛進的一年

      以下是我個人認為最值得關注的幾個「范式轉變」,這些變化重塑了整個行業格局,也在概念上給我留下了深刻印象


      可驗證獎勵的強化學習(RLVR)

      2025 年初,各大實驗室訓練 LLM 的標準流程大致是這樣的:

      1. 1. 預訓練(Pretraining),GPT-2/3 時代約 2020 年確立的基礎

      2. 2. 監督微調(Supervised Finetuning, SFT),始于 InstructGPT,約 2022 年

      3. 3. 基于人類反饋的強化學習(RLHF),同樣始于約 2022 年

      這套流程久經驗證,是訓練生產級 LLM 的穩定配方

      而到了 2025 年,可驗證獎勵的強化學習(Reinforcement Learning from Verifiable Rewards, RLVR)正式成為這條流水線上的新主力環節


      RLVR 的核心思路是讓 LLM 在一系列「答案可以自動驗證」的環境中訓練,比如數學題、編程挑戰等。神奇的是,經過這種訓練,模型會自發地「學會思考」:它們開始把復雜問題拆解成中間步驟,并摸索出各種解題策略,比如反復推敲、來回驗證(詳見 DeepSeek R1 論文中的案例)


      這些能力在之前的訓練范式下很難實現,因為我們根本不知道對于這個模型而言「最優的推理路徑」長什么樣,它必須自己在優化獎勵的過程中摸索出來

      與 SFT 和 RLHF 這兩個相對輕量的階段不同,RLVR 的訓練對象是客觀的、無法被刷分的獎勵函數,模型沒法通過投機取巧來騙取高分,必須真正解決問題,因此可以進行更長時間的優化。實踐證明 RLVR 的性價比極高,它像饕餮一樣吞噬了原本留給預訓練的算力

      因此 2025 年的能力提升主要來自實驗室們消化這個新階段帶來的紅利,模型參數規模沒怎么變,但 RL 訓練跑得更久了


      RLVR 還帶來了一個全新的調節旋鈕和配套的 Scaling Law:
      通過生成更長的推理鏈條、增加「思考時間」,我們可以在推理階段用更多算力換取更強的能力


      OpenAI 的 o1(2024 年底發布)是 RLVR 模型的首次亮相,但真正讓人直觀感受到質變的是 2025 年初發布的 o3

      「召喚幽靈」vs「培育動物」/ 參差不齊的智能

      2025 年,我以及整個行業開始真正在直覺層面理解 LLM 智能的「形狀」。我們不是在培育、進化某種動物,而是在召喚幽靈

      LLM 的一切都與生物智能不同,神經網絡架構、訓練數據、訓練算法,尤其是優化目標。所以我們得到的是一種在智能空間中截然不同的實體,用動物的思維模式去理解它們并不合適

      從監督信號的角度看,人類神經網絡是為了讓部落在叢林中存活而優化的,但 LLM 的神經網絡是為了模仿人類的文字、在數學謎題中拿分、在 LM Arena 上獲得點贊而優化的

      由于可驗證領域允許 RLVR 訓練,LLM 在這些領域附近的能力會尖峰式飆升,整體呈現出一種令人啼笑皆非的參差不齊特征。它們可以同時是學富五車的天才博學家,又是一個困惑懵懂、隨時可能被越獄攻擊騙走你數據的小學生

      下圖,展示了人類智能「藍色」和 AI 智能「紅色」的對比

      這張 meme 的有趣之處在于,它也指出了人類智能同樣是參差不齊的,只是參差的形狀不同


      與此相關的是我在 2025 年對基準測試產生了普遍的冷感和不信任。核心問題在于基準測試幾乎從定義上就是可驗證的環境,因此天然容易被 RLVR 或通過合成數據生成的弱化版本攻克

      在典型的刷榜流程中,實驗室團隊不可避免地會在基準測試所占據的嵌入空間小角落周圍構建訓練環境,然后長出覆蓋它們的尖刺。在測試集上訓練已經成為一門新的藝術形式

      如果我們刷爆了所有基準測試,卻依然沒有實現 AGI,那會是什么樣子?

      關于這一節的話題,可參考之前的內容:

      • ? Animals vs. Ghosts(動物 vs 幽靈)
        https://karpathy.bearblog.dev/animals-vs-ghosts/

      • ? Verifiability(可驗證性)
        https://karpathy.bearblog.dev/verifiability/

      • ? The Space of Minds(心智的空間)
        https://karpathy.bearblog.dev/the-space-of-minds/

      Cursor / LLM 應用的新層級

      Cursor 今年最讓我印象深刻的地方,除了它火箭般的增長,是它令人信服地揭示了 LLM 應用的一個新層級,人們開始討論「X 領域的 Cursor」


      正如我今年在 Y Combinator 演講中所說,像 Cursor 這樣的 LLM 應用會針對特定垂直領域打包和編排 LLM 調用:

      • ? 它們負責上下文工程(Context Engineering)

      • ? 它們在底層編排多次 LLM 調用,串聯成越來越復雜的有向無環圖,在性能和成本之間精細權衡

      • ? 它們為人在回路中(Human in the Loop)提供針對特定應用的圖形界面

      • ? 它們提供一個自主性滑塊,讓用戶決定 AI 可以自己做多少決定

      2025 年有大量討論圍繞這個新應用層有多厚展開。LLM 實驗室會不會通吃所有應用場景?還是說 LLM 應用創業者仍有廣闊天地?

      我個人的判斷是 LLM 實驗室傾向于培養出能力全面的大學畢業生,而 LLM 應用則會通過組織、微調,并結合私有數據、傳感器、執行器和反饋回路,把這些畢業生真正培訓成特定垂直領域的專業人士


      Claude Code / 住在你電腦里的 AI

      Claude Code 是第一個令人信服地展示了 LLM 智能體面貌的產品,它以循環的方式串聯起工具調用和推理,進行持續的問題求解

      此外 Claude Code 讓我印象深刻的一點是它運行在你自己的電腦上,使用你的私有環境、數據和上下文。我認為 OpenAI 在這一點上走錯了路,他們早期的 Codex / Agent 工作重心放在了云端部署,在 ChatGPT 調度的容器里運行,而不是簡單地跑在本地


      誠然在云端運行的智能體集群感覺像是 AGI 的終極形態,但我們活在一個參差能力的中間世界,takeoff 足夠緩慢,因此讓智能體直接跑在開發者的電腦上更為合理

      注意,真正關鍵的區別不在于 AI 操作碰巧在哪里運行(云端、本地還是別處),而在于其他一切:那臺已經開機、配置好的電腦,它的安裝環境、上下文、數據、密鑰、配置,以及低延遲的交互

      Anthropic 正確把握了這個優先級,并將 Claude Code 打包成一個精致、極簡的命令行工具,改變了 AI 的面貌。它不再只是一個你去訪問的網站,而是一個住在你電腦里的小精靈。這是一種與 AI 交互的全新范式

      氛圍編程(Vibe Coding)

      2025 年是 AI 跨越能力門檻的一年,人們可以純用英語說出各種令人驚嘆的程序,甚至忘記代碼的存在。有趣的是「vibe coding」這個詞是我在一條靈光乍現的推文里隨手造的,完全沒想到它能傳播這么遠


      有了氛圍編程,編程不再是受過高度訓練的專業人士的專屬,而是任何人都能做的事。從這個意義上說它又是我在《Power to the people: How LLMs flip the script on technology diffusion》一文中所寫內容的又一例證。與以往所有技術形成鮮明對比,普通人從 LLM 中獲得的收益遠遠超過專業人士、企業和政府

      但氛圍編程不僅僅賦能普通人接觸編程,它還讓訓練有素的專業人士能夠寫出大量本來永遠不會被寫出的軟件。在 nanochat 項目中,我氛圍編程用 Rust 寫了一個高度定制、極其高效的 BPE 分詞器,而不必去學習現有的庫或真正精通 Rust

      今年我氛圍編程寫了很多項目作為快速演示,比如 menugen、llm-council、reader3、HN time capsule。我甚至氛圍編程寫過一次性的臨時程序只為找到一個 bug,為什么不呢?代碼突然變得免費、短命、可塑、用完即棄


      氛圍編程將重塑軟件業,改變職位描述

      Nano Banana / LLM 的圖形界面

      Google Gemini Nano Banana 是 2025 年最令人驚嘆、最具范式轉變意義的模型之一

      在我的世界觀里 LLM 是下一個重大計算范式,類似于 1970 年代、80 年代的計算機。因此我們將看到類似的創新浪潮,出于本質上相同的原因。我們將看到個人計算的等價物、微控制器的等價物(認知內核)、互聯網的等價物(智能體互聯網)等等

      具體到用戶界面,與 LLM 聊天有點像 1980 年代在計算機控制臺上敲命令。文本是計算機和 LLM 偏愛的原始數據表示,但它不是人類偏愛的格式,尤其是在輸入端。人們其實不喜歡閱讀文字,它慢且費力。相反人們喜歡以視覺化、空間化的方式消費信息,這正是傳統計算中發明圖形用戶界面的原因


      同理 LLM 應該用我們偏愛的格式與我們交流:圖像、信息圖表、幻燈片、白板、動畫視頻、Web 應用等等。當然目前早期和現有的版本是 emoji 和 Markdown 這類東西,它們是裝扮和排版文字的方式,用標題、粗體、斜體、列表、表格等讓閱讀更輕松。但誰真正會去構建 LLM 的 GUI 呢?


      從這個視角看 Nano Banana 是一個早期的雛形,暗示了未來可能的樣子。重要的是它不僅僅關乎圖像生成本身,而是關乎文本生成、圖像生成、世界知識三者融合在模型權重中所產生的聯合能力

      小結

      2025 年是 LLM 令人興奮的一年

      LLM 正在作為一種全新的智能形態浮現,它們同時比我預想的聰明得多,也比我預想的蠢得多。無論如何它們極其有用,而我認為即便在當前的能力水平下,整個行業也遠未實現其 10% 的潛力

      與此同時有太多想法值得嘗試,從概念上看這個領域依然廣闊開放。正如我今年早些時候在 Dwarkesh 播客中提到的,我同時相信我們將繼續見證快速而持續的進步,但同時仍有大量工作要做

      系好安全帶

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      筱梅提前報喜:小寶貝迫不及待,奔赴新年與溫暖

      筱梅提前報喜:小寶貝迫不及待,奔赴新年與溫暖

      觀察鑒娛
      2026-02-12 11:53:34
      訂單與股價齊飛!AI引爆需求,這個傳統板塊成了“香饃饃”

      訂單與股價齊飛!AI引爆需求,這個傳統板塊成了“香饃饃”

      證券時報
      2026-02-15 18:14:05
      國防部直接把話挑明了,家里有滿18歲男青年必須辦的就是兵役登記

      國防部直接把話挑明了,家里有滿18歲男青年必須辦的就是兵役登記

      南權先生
      2026-02-12 15:38:28
      52歲龍丹妮上熱搜,網友:舞是龍丹妮跳的,面子是前男友李維丟的

      52歲龍丹妮上熱搜,網友:舞是龍丹妮跳的,面子是前男友李維丟的

      她時尚丫
      2026-02-13 22:55:36
      古天樂被追問旗下女演員周秀娜被告事件,他非常平靜地說了三個字

      古天樂被追問旗下女演員周秀娜被告事件,他非常平靜地說了三個字

      黃河新聞網呂梁頻道
      2026-02-15 10:43:54
      2026是赤馬年,60年一遇,記得:1躲,2穿,3注意

      2026是赤馬年,60年一遇,記得:1躲,2穿,3注意

      讀書文史
      2026-02-15 16:24:49
      中戲風波持續發酵!王鑫在職期間3人免試入編,易烊千璽飽受質疑

      中戲風波持續發酵!王鑫在職期間3人免試入編,易烊千璽飽受質疑

      法老不說教
      2026-02-15 23:24:29
      “把瓦房當紫禁城了?”老年人在飯桌上說教,被00后懟到啞口無言

      “把瓦房當紫禁城了?”老年人在飯桌上說教,被00后懟到啞口無言

      妍妍教育日記
      2026-02-15 08:15:08
      太遺憾了!短道速滑女子3000米接力最后時刻被單吃無緣A組決賽!

      太遺憾了!短道速滑女子3000米接力最后時刻被單吃無緣A組決賽!

      籃球資訊達人
      2026-02-15 05:35:04
      美媒重排24年選秀!狀元暴跌至13名 火箭隊謝潑德第5馬刺成大贏家

      美媒重排24年選秀!狀元暴跌至13名 火箭隊謝潑德第5馬刺成大贏家

      鍋子籃球
      2026-02-15 22:35:02
      農村到底蕭條到了啥程度?我在村里住了三個月,說幾句刺耳的話

      農村到底蕭條到了啥程度?我在村里住了三個月,說幾句刺耳的話

      復轉這些年
      2026-02-11 23:59:46
      男子花80塊錢請人畫畫,付款時,要了張收據,50年后,這張收據賣了180萬

      男子花80塊錢請人畫畫,付款時,要了張收據,50年后,這張收據賣了180萬

      霹靂炮
      2026-02-14 20:47:47
      小卡開炮全明星賽!萊昂納德直言:這賽制根本沒人想認真打

      小卡開炮全明星賽!萊昂納德直言:這賽制根本沒人想認真打

      體育閑話說
      2026-02-15 14:19:21
      以色列已經告訴世界:日本若敢擁有核武器,美國并不會第一個翻臉

      以色列已經告訴世界:日本若敢擁有核武器,美國并不會第一個翻臉

      八斗小先生
      2025-12-26 09:33:27
      除夕三不擺,來年不惹災”,這3樣水果別上桌,易鬧笑話壞彩頭

      除夕三不擺,來年不惹災”,這3樣水果別上桌,易鬧笑話壞彩頭

      小陸搞笑日常
      2026-02-13 05:58:45
      男人別碰四五十歲的女人,她們有2個地方你“惹不起”!

      男人別碰四五十歲的女人,她們有2個地方你“惹不起”!

      加油丁小文
      2026-01-16 22:16:00
      【微特稿】不顧法院保護令 美國將9人秘密驅逐至喀麥隆

      【微特稿】不顧法院保護令 美國將9人秘密驅逐至喀麥隆

      新華社
      2026-02-15 20:38:11
      布朗尼情人節曬與女友合影!兩人都是星二代 已見過雙方父母

      布朗尼情人節曬與女友合影!兩人都是星二代 已見過雙方父母

      Emily說個球
      2026-02-15 20:40:18
      “學習學傻了吧?”女孩曬滿墻獎狀,挑釁有錢人被嘲:頭腦不清醒

      “學習學傻了吧?”女孩曬滿墻獎狀,挑釁有錢人被嘲:頭腦不清醒

      妍妍教育日記
      2026-02-14 17:00:28
      中烏極罕見一幕發生,普京和特朗普全都沒想到:澤連斯基敢這樣說

      中烏極罕見一幕發生,普京和特朗普全都沒想到:澤連斯基敢這樣說

      牛鍋巴小釩
      2026-02-16 02:38:23
      2026-02-16 05:12:49
      賽博禪心
      賽博禪心
      拜AI古佛,修賽博禪心
      293文章數 36關注度
      往期回顧 全部

      科技要聞

      發春節紅包的大廠都被約談了

      頭條要聞

      大學生寒假為媽媽店鋪當中老年服裝模特 撞臉明星

      頭條要聞

      大學生寒假為媽媽店鋪當中老年服裝模特 撞臉明星

      體育要聞

      NBA三分大賽:利拉德帶傷第三次奪冠

      娛樂要聞

      2026央視春晚最新劇透 重量級嘉賓登場

      財經要聞

      誰在掌控你的胃?起底百億"飄香劑"江湖

      汽車要聞

      奔馳中國換帥:段建軍離任,李德思接棒

      態度原創

      教育
      時尚
      親子
      旅游
      數碼

      教育要聞

      點贊收藏轉發這條視頻,我不怕小日子

      多巴胺失寵了?過年這樣穿彩色時髦又減齡

      親子要聞

      從小“吃零食”和“不吃零食”的孩子,離了父母的嚴管,差距拉大

      旅游要聞

      開放機關事業單位床位給游客,“寵客”還要善始善終

      數碼要聞

      盲測顯示:音頻發燒友無法分辨銅線、香蕉與濕泥傳輸的音頻信號

      無障礙瀏覽 進入關懷版