<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      大模型比預期聰明得多,也愚笨得多 | 卡帕西點評2025

      0
      分享至


      2025 年是大語言模型取得顯著進展、且事件頻發的一年。下面列出的是一些在我個人看來尤為重要、并且略顯出人意料的“范式變化”——它們改變了大模型面貌,也改變了我的理解。

      1. 來自可驗證獎勵的強化學習(RLVR)

      在 2025 年初,幾乎所有實驗室的大模型生產級技術棧和工程流程體系大致都是這樣:

      預訓練(GPT-2/3,大約 2020 年)

      監督微調(InstructGPT,大約 2022 年)

      以及來自人類反饋的強化學習(RLHF,大約 2022 年)

      一段時間以來,這一套方法被證明是訓練可用于生產的大模型的穩定配方。到了 2025 年,來自可驗證獎勵的強化學習(RLVR)出現,并事實上成為新的主要階段。

      通過在多個環境中針對可自動驗證的獎勵來訓練大模型(例如數學或代碼謎題),模型會自發地產生在人類看來像是“推理”的策略——它們學會把問題拆解為中間計算步驟,也學會多種來回求解的策略(可參見 DeepSeek R1 論文中的示例)。在此前的范式下,這些策略極難獲得,因為并不清楚對大模型而言,什么樣的推理軌跡和恢復路徑才是最優的——模型必須通過獎勵優化自行發現哪些方式對它有效。

      與 SFT 和 RLHF 這兩個相對薄/短(計算量較小的微調)的階段不同,RLVR 是在客觀(無法投機利用)的獎勵函數下進行訓練,因此允許更長時間的優化。實踐證明,運行 RLVR 帶來了高能力/成本比,直接吞噬了原本打算用于預訓練的算力。因此,2025 年的大部分能力進展,實際上來自于各大實驗室消化這一新增階段的積壓,總體表現為模型規模相近,但 RL 運行時間顯著拉長。

      這一新階段還有一個獨特之處:我們獲得了一個全新的調節旋鈕(以及與之對應的縮放規律),可以通過在測試時生成更長的推理軌跡、增加“思考時間”,來控制模型能力。OpenAI 的 o1(2024 下半年)是第一個 RLVR 模型的演示,而 o3(2025 年初)的發布,則是一個明顯的拐點,人們可以直觀地感受到差異。

      1. 幽靈 vs 動物 / 鋸齒狀智能

      2025 年,是我(我想也是整個行業)第一次以更直覺的方式真正理解大模型智能“形狀”的一年。我們并不是在“進化或培育動物”,而是在“召喚幽靈”。

      大模型體系的方方面面都與生物智能不同(神經結構、訓練數據、訓練算法,尤其是優化壓力)因此我們在智能空間中得到的是完全不同的實體,用“動物”的視角去理解它們并不合適。從監督信息的角度看,人類神經網絡是為叢林中部落的生存而優化的;而大模型的神經網絡則是為模仿人類文本、在數學謎題中獲取獎勵、以及在語言模型競技場中獲得人類點贊而優化的。

      隨著可驗證領域為 RLVR 打開空間,大模型在這些領域附近會出現能力的“尖峰”,整體表現出一種頗為有趣的鋸齒狀性能特征——它們一方面像是博學的天才通才,另一方面又像是認知混亂、容易受騙的小學生,隨時可能被一次越獄攻擊誘導交出你的數據。


      (人類智能為藍色,AI 智能為紅色。我很喜歡這個梗圖,它指出人類智能本身也以另一種方式呈現出鋸齒狀。)

      與此相關的,是我在 2025 年對基準測試普遍產生的冷淡與不信任。核心問題在于:基準測試幾乎在結構上就是可驗證環境,因此極易受到 RLVR 及其弱化形式(通過合成數據)影響。在典型的“刷榜”過程中,實驗室團隊不可避免地會構建環境,靠近一個角落,位于基準測試所占據的嵌入空間,并在這些地方“長出鋸齒”。在測試集上訓練,已經成為一種新的藝術形式。

      把所有基準測試都碾壓一遍,卻仍然得不到 AGI,這是怎么回事?

      我在以下文章中對這一主題寫了更多內容:

      Animals vs. Ghosts (動物 vs.幽靈)

      Verifiability (可驗證)

      The Space of Minds (心智空間)

      1. Cursor / 新一層的大模型應用

      Cursor 今年最讓我印象深刻的,并不僅是它的爆發式增長,而是它清晰地揭示了一種全新的“大模型應用層”——人們開始談論“某領域的 Cursor”。

      正如我在今年的 Y Combinator 演講中所強調的那樣,像 Cursor 這樣的應用會為特定垂直領域打包并編排大模型調用:

      它們負責“上下文工程”;

      在后臺將多次模型調用串聯成越來越復雜的有向無環圖(DAG),在性能與成本之間精細權衡;

      為人類參與者提供特定應用的圖形界面;

      并提供一個“自主程度滑塊”。

      2025 年有大量討論圍繞這一新應用層到底有多“厚”。大模型實驗室會不會吃下所有應用?是否仍有空間留給獨立應用?我個人的判斷是:實驗室會培養出通用能力相當于大學生的模型,而具體的大模型應用則會通過提供私有數據、傳感器、執行器和反饋回路,把這些模型組織、微調并真正“激活”為特定領域中的專業團隊。

      1. Claude Code / 駐留在你電腦里的 AI

      Claude Code(CC)是我見到的第一個真正令人信服的大模型智能體示例——它以一種循環的方式,將工具使用與推理串聯起來,完成長時間的問題求解。

      同時,它運行在你的電腦上,使用你的私有環境、數據和上下文。這一點在我看來非常重要。我認為OpenAI在這里的方向是錯誤的,因為它早期將 Codex /智能體聚焦于由 ChatGPT 編排的云端容器,而不是直接運行在本地。

      雖然云端運行的智能體集群可能是“AGI 終局”,但我們目前身處的是一個能力鋸齒、起飛速度較慢的中間階段,在這種情況下,把智能體直接運行在開發者的電腦上更合理。真正重要的區別并不在于 AI 運算發生在哪里,而在于:已經啟動的電腦本身、其安裝環境、上下文、數據、密鑰、配置,以及低延遲的交互。

      Anthropic 把優先級順序理清了,并將 CC 打包成一個令人愉悅、極簡的 CLI (命令行界面)形態,改變了 AI 的樣貌——它不再只是一個你訪問的網站,而是一個“住在你電腦里”的小幽靈。這是一種全新的、獨立的 AI 交互范式。

      1. 氛圍編程(Vibe Coding)

      2025 年,是 AI 跨過一個關鍵能力門檻的一年:人們可以僅通過英語構建各種令人印象深刻的程序,甚至忘記代碼的存在。有趣的是,我是在一條隨手寫下的推文中無意創造了“vibe coding”這個詞,完全沒想到它會流傳開來。

      在這種模式下,編程不再只是專業人士的專利,而成為任何人都能做的事情。這也再次印證了我在《權力歸于大眾》中寫過的觀點:與此前所有技術不同,大模型讓普通人獲得的收益遠大于專業人士、企業或政府。

      (2025/4/8) 閱讀全文>

      與此同時,氛圍編程也讓專業開發者能夠寫出大量原本不會被寫出來的軟件。今年我用這種方式寫了多個項目,只是為了快速驗證某個想法。代碼突然變得廉價、短暫、可塑,用完即棄。

      氛圍編程將重塑軟件,并改變工作描述。

      1. NanoBanana /大模型GUI

      Google 的 Gemini Nano Banana 是 2025 年最令人震撼、最具范式意義的模型之一。在我看來,大模型是繼 1970、80 年代計算機之后的下一代計算范式,因此我們將看到類似的創新:個人計算、微控制器、互聯網等。

      在 UI/UX 層面,與大模型“聊天”,就像 1980 年代在命令行里給計算機下指令。文本是計算機偏好的數據形式,但并不是人類偏好的輸入形式。人們更喜歡視覺和空間化的信息呈現,這正是 GUI 出現的原因。

      同樣,大模型也應該用人類偏好的方式與我們交流——圖像、信息圖、幻燈片、白板、動畫、網頁應用等。Nano Banana 是這一方向的早期信號,它的重要之處不僅在于生成圖像,而在于文本生成、圖像生成與世界知識在模型權重中的糾纏。

      總結

      2025 年是令人興奮、略顯意外的一年。大模型正在顯現為一種全新的智能形態:既比我預期的聰明得多,又比我預期的愚笨得多。它們極其有用,而行業甚至還沒有意識到它們潛力的 10%。

      與此同時,想法多得令人應接不暇,整個領域依然是一片廣闊的開放空間。正如我今年早些時候在 Dwarkesh 播客中提到的那樣,我同時相信(表面看似矛盾):我們既會看到快速而持續的進展,也還有大量工作要做。

      系好安全帶。

      原文來自卡帕西的博客:

      https://karpathy.bearblog.dev/year-in-review-2025/

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      外媒炸鍋了!當著日本航母的面,055竟然發射鷹擊-20?

      外媒炸鍋了!當著日本航母的面,055竟然發射鷹擊-20?

      走進事件的中心
      2026-04-26 22:43:47
      上海地鐵互毆后續!兩女身份曝光,均被拘留,知情人講述更多細節

      上海地鐵互毆后續!兩女身份曝光,均被拘留,知情人講述更多細節

      逍遙浪騰云
      2026-04-27 12:13:07
      23萬的特斯拉,和21萬的小米,我勸你想清楚再下手

      23萬的特斯拉,和21萬的小米,我勸你想清楚再下手

      阿芒娛樂說
      2026-04-26 06:08:57
      廣東將有兩次降水過程,暴雨再度來襲!省三防辦要求應轉盡轉

      廣東將有兩次降水過程,暴雨再度來襲!省三防辦要求應轉盡轉

      南方都市報
      2026-04-27 18:08:27
      中美歐關系重構,美前助理國務卿:中歐抱怨、適應并利用現狀

      中美歐關系重構,美前助理國務卿:中歐抱怨、適應并利用現狀

      澎湃新聞
      2026-04-26 14:04:27
      臺灣女生考上同濟大學,瞞著家人偷偷來上海上學,剛下飛機就落淚

      臺灣女生考上同濟大學,瞞著家人偷偷來上海上學,剛下飛機就落淚

      白云故事
      2025-07-30 21:25:03
      “院方錯把2粒寫成21粒,患者一天吃42粒藥”,官方通報

      “院方錯把2粒寫成21粒,患者一天吃42粒藥”,官方通報

      澎湃新聞
      2026-04-25 12:58:02
      初夏“小白裙”穿搭公式:藍+白,清爽不挑人

      初夏“小白裙”穿搭公式:藍+白,清爽不挑人

      虎哥說衣不二
      2026-04-27 20:40:03
      王牌被廢!伊朗破解美軍“地堡殺手”,14枚實戰鉆地彈盡數報廢

      王牌被廢!伊朗破解美軍“地堡殺手”,14枚實戰鉆地彈盡數報廢

      健身狂人
      2026-04-27 08:40:19
      男子從內地偷運51公斤盒飯放在車尾箱,企圖入境澳門,被查獲

      男子從內地偷運51公斤盒飯放在車尾箱,企圖入境澳門,被查獲

      新民周刊
      2026-04-27 11:04:31
      25萬噸!美國對華封鎖打響,解放軍在南海集結世界最強航母戰斗群

      25萬噸!美國對華封鎖打響,解放軍在南海集結世界最強航母戰斗群

      軍機Talk
      2026-04-24 17:32:10
      連續7個漲停板!股民:勇敢者的游戲!

      連續7個漲停板!股民:勇敢者的游戲!

      數據挖掘分析
      2026-04-27 15:15:53
      2859.2克黃金制品被警方扣押三十年 最新進展:雙方約定見面溝通賠償事宜 代理律師:和解的可能性很大

      2859.2克黃金制品被警方扣押三十年 最新進展:雙方約定見面溝通賠償事宜 代理律師:和解的可能性很大

      每日經濟新聞
      2026-04-27 18:05:32
      獲刑十年!臺積電2納米泄密案宣判

      獲刑十年!臺積電2納米泄密案宣判

      EETOP半導體社區
      2026-04-27 20:42:06
      諜戰劇《驚變》,于和偉、富大龍“雙雄對決”,辛柏青、曹磊加盟

      諜戰劇《驚變》,于和偉、富大龍“雙雄對決”,辛柏青、曹磊加盟

      樂楓電影
      2026-04-27 14:47:40
      052D過橫當水道后,遼寧艦抵臺海,日本向中國抗議,不滿東海行動

      052D過橫當水道后,遼寧艦抵臺海,日本向中國抗議,不滿東海行動

      老赳說歷史
      2026-04-23 16:08:53
      大眾CEO談第九代高爾夫:像“高4”那樣漂亮,我們正在走正確的路

      大眾CEO談第九代高爾夫:像“高4”那樣漂亮,我們正在走正確的路

      IT之家
      2026-04-25 08:29:11
      小鼠研究表明,挖鼻孔與阿爾茨海默病之間存在令人驚訝的聯系

      小鼠研究表明,挖鼻孔與阿爾茨海默病之間存在令人驚訝的聯系

      心中的麥田
      2026-01-21 20:18:15
      被錘!連續出軌3次!!克萊你太野了!

      被錘!連續出軌3次!!克萊你太野了!

      柚子說球
      2026-04-26 18:19:10
      世錦賽16進8最新戰報:吳宜澤領先四冠王,趙心童晉級八強戰墨菲

      世錦賽16進8最新戰報:吳宜澤領先四冠王,趙心童晉級八強戰墨菲

      夜深聊球
      2026-04-27 20:58:41
      2026-04-27 21:28:49
      未盡研究 incentive-icons
      未盡研究
      新能源、人工智能、合成生物、地緣X
      365文章數 63關注度
      往期回顧 全部

      科技要聞

      DeepSeek V4上線三天,第一批實測出來了

      頭條要聞

      上海男子開啟輔助駕駛超速行駛 撞上2名道路養護工人

      頭條要聞

      上海男子開啟輔助駕駛超速行駛 撞上2名道路養護工人

      體育要聞

      最抽象的天才,正在改變瓜迪奧拉

      娛樂要聞

      黃楊鈿甜為“耳環風波”出鏡道歉:謠言已澄清

      財經要聞

      Meta 140億收購Manus遭中國發改委否決

      汽車要聞

      不那么小眾也可以 smart的路會越走越寬

      態度原創

      藝術
      教育
      游戲
      家居
      公開課

      藝術要聞

      你絕對想不到,攝影能讓她成為女神!

      教育要聞

      文科大撤退,歷史首當其沖

      山水絕景隨心拼 休閑建造游戲《千里山河錄》Steam商店頁公開

      家居要聞

      江景風格 流動的秩序

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 国产999| 国产欧美另类久久久精品丝瓜| 怀远县| 亚洲熟妇丰满多毛xxxx| 精品久久久久中文慕人妻| 久热综合在线亚洲精品| 在线a视频网站| 金溪县| 大胸少妇午夜三级| 99视频在线播放| 欧美色日本| 久久88香港三级台湾三级播放| 潮州市| 久久精品国产99久久六动漫| 色婷婷7777| 精品国产av一区二区三区| 超碰人人草| AV不卡在线观看| 色吊丝永久访问A| 免费人成再在线观看视频| 香港日本三级亚洲三级| 国产av永久无码天堂影院| 国产精品性色一区二区三区| 情欲少妇人妻100篇| 夹江县| 中文字幕乱码无码人妻系列蜜桃| 爱3P| 96无码| 内射在线播放| 国产人妖视频一区在线观看| 日韩精品一区二区蜜臀av| 公喝错春药让我高潮| 一区二区三区中文字幕| 国产制服丝袜亚洲日本在线| 久久99精品久久久久久不卡| 免费A片国产毛无码A片| 特黄少妇60分钟在线观看播放| 每日av| 中文字幕人妻熟女在线| A片网| 久久精品国产久精国产果冻传媒|