<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      近兩百萬人圍觀的Karpathy年終大語言模型清單,主角是它們

      0
      分享至



      編輯|杜偉

      2025 年還有 10 天就要結束,這意味著是時候進行一波年終總結了。

      對于人工智能領域而言,2025 年是大語言模型(LLM)快速演進、重磅事件密集出現的一年。

      就在昨天,知名 AI 學者 Karpathy 列出了一份清單,記錄了他個人認為最重要、也多少有些出乎意料的「范式轉變」。



      這些真正改變了行業格局、并在概念層面讓 Karpathy 印象深刻的變化會落在哪些領域呢?我們接下來一一來看(以第一人稱)。

      可驗證獎勵強化學習(RLVR)

      2025 年初,幾乎所有實驗室的 LLM 生產訓練流程都像下面這樣:

      • 預訓練(類似 2020 年的 GPT-2/3);
      • 監督微調(SFT,類似 2022 年的 InstructGPT)
      • 基于人類反饋的強化學習(RLHF,約 2022 年)

      這套流程穩定、可靠,曾長期被視為「工業級 LLM」的標準做法。

      但在 2025 年,一種新的階段浮出水面,并迅速成為事實上的標配:可驗證獎勵強化學習(Reinforcement Learning from Verifiable Rewards,RLVR)

      RLVR 的核心做法是,讓模型在可自動驗證的環境中接受強化學習訓練,比如數學題、代碼題、邏輯謎題等。在這些環境中,模型自發學會一些在人類看來非常像「推理」的策略:它會把復雜問題拆解成中間步驟,并反復試探、修正路徑,逐步逼近答案(DeepSeek R1 的論文中有不少很好的例子)。

      在以往的 SFT 或 RLHF 框架下,這類「推理軌跡」是極難人為設計出來的。這是因為我們并不知道對模型而言,什么才是「最優的思考過程」。而在 RLVR 中,模型可以通過優化獎勵函數,自行摸索出對自己最有效的解題方式。

      此外,與 SFT 和 RLHF 這種「計算量相對較小的薄層微調」不同,RLVR 使用的是客觀、難以被投機取巧的獎勵函數,這使得訓練可以跑得非常久。結果就是:RLVR 提供了極高的能力 / 成本比,大量吞噬了原本準備用于預訓練的算力。

      因此,2025 年的大部分能力提升,并不是來自模型規模的暴漲,而是來自相似規模模型 + 更長時間的 RL 訓練。這個階段還帶來了一個全新的「旋鈕」:通過在推理時生成更長的思考鏈條、投入更多測試時算力,模型能力可以繼續提升,并呈現出新的 scaling law。

      OpenAI 的 o1(2024 年底)是第一個明確展示 RLVR 思路的模型,而 2025 年初的 o3,則是那個讓人直觀感受到質變拐點的版本。

      幽靈 vs 動物:鋸齒狀智能

      2025 年,是我(以及我認為整個行業)第一次真正直覺性地理解了 LLM 智能的「形狀」。我們并不是在「培育或進化動物」,而是在「召喚幽靈」。

      LLM 的一切都和人類不同:神經結構不同、訓練數據不同、訓練算法不同,最關鍵的是優化目標完全不同。人類神經系統,是為叢林生存、部落協作而優化的;而 LLM 是為模仿人類文本、在數學謎題中拿分、在 LM Arena 里獲得點贊而優化的。

      一旦某些領域具備可驗證性,RLVR 就會在這些區域「長出尖刺」。于是我們看到的,是一種鋸齒化(jagged)明顯的能力分布:它們可以在某些領域表現得像博學的天才,同時又在另一些地方像困惑的小學生,甚至輕易被 jailbreak 套走隱私數據。



      我很喜歡一張 meme:人類智能是藍色曲線,AI 是紅色曲線。它也提醒我們:人類智能本身,同樣是鋸齒狀的,只是形狀不同。

      這也解釋了我在 2025 年對基準普遍不當回事與不信任。問題在于:基準測試本質上就是可驗證環境,因此天然容易被 RLVR 或弱化版本的「合成數據訓練」所攻破。

      在現實中,模型團隊往往會在基準所在的嵌入空間附近「培育能力突起」,把 jaggies 精準地長到測試點上。「在測試集上訓練」已經演變成了一門藝術

      那么問題來了:如果一個模型碾壓了所有基準,卻依然不是 AGI,那意味著什么?

      Cursor:LLM 應用的新一層

      Cursor 在 2025 年的爆發本身就很驚人,但對我而言,更重要的是:它清晰地揭示了一種全新的 LLM 應用層

      人們開始說,「這是某某領域的 Cursor」。在我今年 YC 演講中提到過:像 Cursor 這樣的 LLM 應用,本質是在為特定垂直領域打包和編排 LLM 能力:

      • 上下文工程(context engineering);
      • 在后臺編排多次 LLM 調用,形成越來越復雜的 DAG,同時平衡成本與性能;
      • 提供面向人的、領域專用的 GUI;
      • 提供「自主性滑塊」(autonomy slider)。

      2025 年圍繞著一個問題出現了大量討論:這一層會有多厚?LLM 實驗室會不會吞掉所有應用?還是說,LLM 應用層依然有廣闊空間?

      我個人的判斷是:基礎模型會趨向于「一個通用能力很強的大學畢業生」,而真正把他們組織成專業團隊、在具體行業中落地的會是應用層,通過私有數據、傳感器、執行器和反饋回路將模型組織并投入實際工作流程」。

      Claude Code:住在你電腦里的 AI

      Claude Code(CC)是我第一次覺得:「這才像一個真正的 LLM Agent。」它以循環方式將推理與工具調用串聯起來,能持續解決長任務。

      更重要的是:它運行在你的本地電腦上,直接使用你的環境、數據和上下文。

      我認為 OpenAI 在這里判斷失誤了:他們把 agent /codex 的重心放在云端容器、由 ChatGPT 統一調度;而在一個能力鋸齒、起飛緩慢的世界里,更合理的順序其實是先讓 agent 成為開發者身邊的伙伴。

      Claude Code 在這點上做對了,并且用一個極其優雅、極簡、極具說服力的 CLI 形態呈現出來。

      AI 不再只是一個你訪問的網站,而是一個住在你電腦里的小幽靈。

      這是一次全新的交互范式轉變。

      Vibe Coding(氛圍編程)

      2025 年,是 AI 跨過某個關鍵門檻的一年:人們可以只用英語構建復雜程序,甚至忘記代碼本身的存在。

      有趣的是,「vibe coding」這個詞,最早只是我一條隨手寫的推文,完全沒想到會流傳這么廣。

      Vibe coding 讓編程不再只是專業工程師的專利,任何人都可以上手;但同時,它也讓專業工程師可以寫出大量原本永遠不會被寫出來的軟件。

      在 nanochat 項目中,我直接用 vibe coding 寫了一個高效的 Rust BPE tokenizer;我用它快速寫了很多 demo 項目(比如 menugen、llm-council、reader3、HN time capsule);甚至為了定位一個 bug,我會 vibe coding 一個臨時應用,用完即棄。

      代碼變得不值錢、短暫存在、并可隨意改寫與丟棄

      Vibe coding 在重塑軟件形態之外,也會重塑工作角色。

      Nano Banana:LLM 的 GUI

      Google Gemini 的「Nano Banana」,是 2025 年最讓我震撼的模型之一。

      在我的世界觀里,LLM 是類似 1970–80 年代計算機的新一代通用計算范式,因此我們必然會看到類似的演化路徑:

      • 個人計算
      • 微控制器(認知核心)
      • Agent 網絡(類似互聯網)

      而在 UI/UX 層面,「聊天」就像 80 年代的命令行。文本是計算機最偏好的表示形式,但并不是人類最喜歡的輸入方式。人們更喜歡視覺化、空間化的信息 —— 這正是 GUI 出現的原因。

      同理,LLM 也應該用我們偏好的形式與我們交流:圖片、信息圖、幻燈片、白板、動畫、網頁應用……

      Emoji 和 Markdown 只是最早期、最粗糙的嘗試。那么,誰會構建真正的 LLM GUI?在我看來,Nano Banana 是一個非常早期但重要的信號。

      它的意義不只在于圖像生成,而在于:文本、圖像與世界知識在同一模型中深度糾纏

      最后總結

      2025 年,是一個令人興奮、也充滿意外的大模型之年。

      LLM 正在顯現出一種全新的智能形態:它們既比我預期的聰明得多,又比我預期的愚蠢得多

      但無論如何,它們已經極其有用,而我認為行業甚至還沒有發揮出它們 10% 的潛力。

      想法太多,空間太大,這個領域仍然是開放的。

      正如我今年在 Dwarkesh 播客中說過的那樣:

      我一方面相信進展會持續且迅猛,另一方面也清楚,還有大量艱苦而細致的工作要做。

      「系好安全帶」,接下來只會更快。

      原推鏈接:https://x.com/karpathy/status/2002118205729562949

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      54歲朱茵現狀:依舊開97年的車,住在深山殘屋,狀態一如既往的好

      54歲朱茵現狀:依舊開97年的車,住在深山殘屋,狀態一如既往的好

      小熊侃史
      2025-12-17 09:43:27
      騎車下班路被堵 成都“較真哥”9天舉報92次違停

      騎車下班路被堵 成都“較真哥”9天舉報92次違停

      封面新聞
      2025-12-19 16:09:10
      特朗普下令,美軍打劫百萬桶原油,不到72小時,中方直接甩國際法

      特朗普下令,美軍打劫百萬桶原油,不到72小時,中方直接甩國際法

      書紀文譚
      2025-12-17 20:27:14
      慶祝27歲生日,姆巴佩曬私人飛機上捧蛋糕照片:感謝大家祝福

      慶祝27歲生日,姆巴佩曬私人飛機上捧蛋糕照片:感謝大家祝福

      懂球帝
      2025-12-22 04:21:06
      日本航線取消了,但去柬埔寨機票很好買

      日本航線取消了,但去柬埔寨機票很好買

      木蹊說
      2025-12-22 13:46:18
      南博事件還未平!北京一捐贈300多件藏品者后人,表示想去查查賬

      南博事件還未平!北京一捐贈300多件藏品者后人,表示想去查查賬

      奇思妙想草葉君
      2025-12-21 14:16:38
      肥腸再次成為關注對象!醫生發現:常吃肥腸,身體會出現6大變化

      肥腸再次成為關注對象!醫生發現:常吃肥腸,身體會出現6大變化

      看世界的人
      2025-12-04 10:51:31
      哈登隊友:防不住詹姆斯!科比前隊友:詹姆斯被撞傷還能暴扣!

      哈登隊友:防不住詹姆斯!科比前隊友:詹姆斯被撞傷還能暴扣!

      氧氣是個地鐵
      2025-12-22 17:56:24
      山西廢止煙花爆竹禁令背后:5年前最嚴“禁炮令”出臺,其后略有松綁

      山西廢止煙花爆竹禁令背后:5年前最嚴“禁炮令”出臺,其后略有松綁

      澎湃新聞
      2025-12-22 15:38:31
      原來郭京飛年輕時這么帥!《老舅》他又火了,20歲顏值帥上熱搜

      原來郭京飛年輕時這么帥!《老舅》他又火了,20歲顏值帥上熱搜

      娛君墜星河
      2025-12-22 13:28:01
      日本男足遭打擊!絕對主力重傷離場,或將無緣世界杯

      日本男足遭打擊!絕對主力重傷離場,或將無緣世界杯

      綠茵舞著
      2025-12-22 11:43:16
      冬至后山西再降溫!雨雪馬上到…

      冬至后山西再降溫!雨雪馬上到…

      山西晚報
      2025-12-22 13:09:19
      現貨黃金首次站上4400美元/盎司 今年累漲近68%

      現貨黃金首次站上4400美元/盎司 今年累漲近68%

      財聯社
      2025-12-22 12:54:06
      東亞錦標賽亂了:3-0,倒數第二掀翻領頭羊,日本丟3球完敗

      東亞錦標賽亂了:3-0,倒數第二掀翻領頭羊,日本丟3球完敗

      側身凌空斬
      2025-12-22 11:28:31
      拔出蘿卜帶出泥!三星長公主越扒越有,不顧反對嫁司機是冰山一角

      拔出蘿卜帶出泥!三星長公主越扒越有,不顧反對嫁司機是冰山一角

      普陀動物世界
      2025-12-22 15:28:14
      史曉燕不再沉默,狠狠替何晴出了口惡氣,難怪許亞軍會缺席葬禮

      史曉燕不再沉默,狠狠替何晴出了口惡氣,難怪許亞軍會缺席葬禮

      以茶帶書
      2025-12-20 13:35:58
      蓉城引援信息泄露,泰山申花兩大國腳成頭號目標,還將更換三外援

      蓉城引援信息泄露,泰山申花兩大國腳成頭號目標,還將更換三外援

      體壇風之子
      2025-12-22 07:00:05
      我被辭退,收拾東西時,經理問我誰介紹來的,我答:你兒子

      我被辭退,收拾東西時,經理問我誰介紹來的,我答:你兒子

      蘭姐說故事
      2025-12-19 20:15:03
      “新冠疫苗之父”落馬,榮譽清零!打過三針的網友慌了

      “新冠疫苗之父”落馬,榮譽清零!打過三針的網友慌了

      胡嚴亂語
      2025-12-07 15:51:07
      火箭拉胯!3加時全敗+連輸倒數隊,烏度卡怒噴伊森:沒按計劃防守

      火箭拉胯!3加時全敗+連輸倒數隊,烏度卡怒噴伊森:沒按計劃防守

      球童無忌
      2025-12-22 15:12:46
      2025-12-22 18:59:00
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      11971文章數 142516關注度
      往期回顧 全部

      科技要聞

      商湯聯創親自下場 痛批主流機器人技術大錯

      頭條要聞

      東部戰區司令員楊志斌等2人晉升上將

      頭條要聞

      東部戰區司令員楊志斌等2人晉升上將

      體育要聞

      戴琳,中國足球的反向代言人

      娛樂要聞

      張柏芝不再隱瞞,三胎生父早有答案?

      財經要聞

      央行信用新政:為失信者提供"糾錯"通道

      汽車要聞

      可享88元抵2000元等多重權益 昊鉑A800開啟盲訂

      態度原創

      時尚
      親子
      家居
      藝術
      本地

      這是陳妍希?新劇開播后居然長這樣

      親子要聞

      孩子遭幼兒園師生踢打?河南鄲城:保育員被辭退 幼兒園整頓

      家居要聞

      現代手法 詮釋東方文化

      藝術要聞

      萬年松樹開花,震驚你的雙眼!

      本地新聞

      云游安徽|走進銅陵,照見三千年不滅的爐火

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 日韩AV色| 大桥未久亚洲无av码在线| 91国在线啪精品一区| 人妻口爆| 大色欧美| 国产精品一久久香蕉国产线看观看| 久久久久有精品国产麻豆| 中文字幕无码免费久久9一区9 | 97人人模人人爽人人喊网| 欧美超级乱婬视频播放| 中文字幕在线日韩| 999成人网| 伊人久久久| 九九九九精品视频在线观看| AV最新高清无码专区| 九九综合色| www.youjizz.com国产| 欧美日韩精品一区二区在线播放| 好吊视频一区二区三区人妖| 老司机在线精品| 亚洲人成网站色7799| 成年午夜无码av片在线观看| 五十路AV| 岐山县| 亚洲人成网站18禁止| 亚洲精品久久久口爆吞精| 麻豆精品在线| 99伊人网| 中文无码av一区二区三区| 亚洲精品乱码久久久久久不卡| 性夜黄a爽影免费看| 五十路熟妇| 欧美猛少妇色xxxxx| 久久久久国产a免费观看rela | 色窝窝无码一区二区三区| 自拍偷拍网站| 毛色444综合网| 熟女人妇 成熟妇女系列视频| julia无码中文字幕一区| 福利小导航| 99蜜桃在线观看免费视频网站|