<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      大模型比預期聰明得多,也愚笨得多 | 卡帕西點評2025

      0
      分享至


      2025 年是大語言模型取得顯著進展、且事件頻發的一年。下面列出的是一些在我個人看來尤為重要、并且略顯出人意料的“范式變化”——它們改變了大模型面貌,也改變了我的理解。

      1. 來自可驗證獎勵的強化學習(RLVR)

      在 2025 年初,幾乎所有實驗室的大模型生產級技術棧和工程流程體系大致都是這樣:

      預訓練(GPT-2/3,大約 2020 年)

      監督微調(InstructGPT,大約 2022 年)

      以及來自人類反饋的強化學習(RLHF,大約 2022 年)

      一段時間以來,這一套方法被證明是訓練可用于生產的大模型的穩定配方。到了 2025 年,來自可驗證獎勵的強化學習(RLVR)出現,并事實上成為新的主要階段。

      通過在多個環境中針對可自動驗證的獎勵來訓練大模型(例如數學或代碼謎題),模型會自發地產生在人類看來像是“推理”的策略——它們學會把問題拆解為中間計算步驟,也學會多種來回求解的策略(可參見 DeepSeek R1 論文中的示例)。在此前的范式下,這些策略極難獲得,因為并不清楚對大模型而言,什么樣的推理軌跡和恢復路徑才是最優的——模型必須通過獎勵優化自行發現哪些方式對它有效。

      與 SFT 和 RLHF 這兩個相對薄/短(計算量較小的微調)的階段不同,RLVR 是在客觀(無法投機利用)的獎勵函數下進行訓練,因此允許更長時間的優化。實踐證明,運行 RLVR 帶來了高能力/成本比,直接吞噬了原本打算用于預訓練的算力。因此,2025 年的大部分能力進展,實際上來自于各大實驗室消化這一新增階段的積壓,總體表現為模型規模相近,但 RL 運行時間顯著拉長。

      這一新階段還有一個獨特之處:我們獲得了一個全新的調節旋鈕(以及與之對應的縮放規律),可以通過在測試時生成更長的推理軌跡、增加“思考時間”,來控制模型能力。OpenAI 的 o1(2024 下半年)是第一個 RLVR 模型的演示,而 o3(2025 年初)的發布,則是一個明顯的拐點,人們可以直觀地感受到差異。

      1. 幽靈 vs 動物 / 鋸齒狀智能

      2025 年,是我(我想也是整個行業)第一次以更直覺的方式真正理解大模型智能“形狀”的一年。我們并不是在“進化或培育動物”,而是在“召喚幽靈”。

      大模型體系的方方面面都與生物智能不同(神經結構、訓練數據、訓練算法,尤其是優化壓力)因此我們在智能空間中得到的是完全不同的實體,用“動物”的視角去理解它們并不合適。從監督信息的角度看,人類神經網絡是為叢林中部落的生存而優化的;而大模型的神經網絡則是為模仿人類文本、在數學謎題中獲取獎勵、以及在語言模型競技場中獲得人類點贊而優化的。

      隨著可驗證領域為 RLVR 打開空間,大模型在這些領域附近會出現能力的“尖峰”,整體表現出一種頗為有趣的鋸齒狀性能特征——它們一方面像是博學的天才通才,另一方面又像是認知混亂、容易受騙的小學生,隨時可能被一次越獄攻擊誘導交出你的數據。


      (人類智能為藍色,AI 智能為紅色。我很喜歡這個梗圖,它指出人類智能本身也以另一種方式呈現出鋸齒狀。)

      與此相關的,是我在 2025 年對基準測試普遍產生的冷淡與不信任。核心問題在于:基準測試幾乎在結構上就是可驗證環境,因此極易受到 RLVR 及其弱化形式(通過合成數據)影響。在典型的“刷榜”過程中,實驗室團隊不可避免地會構建環境,靠近一個角落,位于基準測試所占據的嵌入空間,并在這些地方“長出鋸齒”。在測試集上訓練,已經成為一種新的藝術形式。

      把所有基準測試都碾壓一遍,卻仍然得不到 AGI,這是怎么回事?

      我在以下文章中對這一主題寫了更多內容:

      Animals vs. Ghosts (動物 vs.幽靈)

      Verifiability (可驗證)

      The Space of Minds (心智空間)

      1. Cursor / 新一層的大模型應用

      Cursor 今年最讓我印象深刻的,并不僅是它的爆發式增長,而是它清晰地揭示了一種全新的“大模型應用層”——人們開始談論“某領域的 Cursor”。

      正如我在今年的 Y Combinator 演講中所強調的那樣,像 Cursor 這樣的應用會為特定垂直領域打包并編排大模型調用:

      它們負責“上下文工程”;

      在后臺將多次模型調用串聯成越來越復雜的有向無環圖(DAG),在性能與成本之間精細權衡;

      為人類參與者提供特定應用的圖形界面;

      并提供一個“自主程度滑塊”。

      2025 年有大量討論圍繞這一新應用層到底有多“厚”。大模型實驗室會不會吃下所有應用?是否仍有空間留給獨立應用?我個人的判斷是:實驗室會培養出通用能力相當于大學生的模型,而具體的大模型應用則會通過提供私有數據、傳感器、執行器和反饋回路,把這些模型組織、微調并真正“激活”為特定領域中的專業團隊。

      1. Claude Code / 駐留在你電腦里的 AI

      Claude Code(CC)是我見到的第一個真正令人信服的大模型智能體示例——它以一種循環的方式,將工具使用與推理串聯起來,完成長時間的問題求解。

      同時,它運行在你的電腦上,使用你的私有環境、數據和上下文。這一點在我看來非常重要。我認為OpenAI在這里的方向是錯誤的,因為它早期將 Codex /智能體聚焦于由 ChatGPT 編排的云端容器,而不是直接運行在本地。

      雖然云端運行的智能體集群可能是“AGI 終局”,但我們目前身處的是一個能力鋸齒、起飛速度較慢的中間階段,在這種情況下,把智能體直接運行在開發者的電腦上更合理。真正重要的區別并不在于 AI 運算發生在哪里,而在于:已經啟動的電腦本身、其安裝環境、上下文、數據、密鑰、配置,以及低延遲的交互。

      Anthropic 把優先級順序理清了,并將 CC 打包成一個令人愉悅、極簡的 CLI (命令行界面)形態,改變了 AI 的樣貌——它不再只是一個你訪問的網站,而是一個“住在你電腦里”的小幽靈。這是一種全新的、獨立的 AI 交互范式。

      1. 氛圍編程(Vibe Coding)

      2025 年,是 AI 跨過一個關鍵能力門檻的一年:人們可以僅通過英語構建各種令人印象深刻的程序,甚至忘記代碼的存在。有趣的是,我是在一條隨手寫下的推文中無意創造了“vibe coding”這個詞,完全沒想到它會流傳開來。

      在這種模式下,編程不再只是專業人士的專利,而成為任何人都能做的事情。這也再次印證了我在《權力歸于大眾》中寫過的觀點:與此前所有技術不同,大模型讓普通人獲得的收益遠大于專業人士、企業或政府。

      (2025/4/8) 閱讀全文>

      與此同時,氛圍編程也讓專業開發者能夠寫出大量原本不會被寫出來的軟件。今年我用這種方式寫了多個項目,只是為了快速驗證某個想法。代碼突然變得廉價、短暫、可塑,用完即棄。

      氛圍編程將重塑軟件,并改變工作描述。

      1. NanoBanana /大模型GUI

      Google 的 Gemini Nano Banana 是 2025 年最令人震撼、最具范式意義的模型之一。在我看來,大模型是繼 1970、80 年代計算機之后的下一代計算范式,因此我們將看到類似的創新:個人計算、微控制器、互聯網等。

      在 UI/UX 層面,與大模型“聊天”,就像 1980 年代在命令行里給計算機下指令。文本是計算機偏好的數據形式,但并不是人類偏好的輸入形式。人們更喜歡視覺和空間化的信息呈現,這正是 GUI 出現的原因。

      同樣,大模型也應該用人類偏好的方式與我們交流——圖像、信息圖、幻燈片、白板、動畫、網頁應用等。Nano Banana 是這一方向的早期信號,它的重要之處不僅在于生成圖像,而在于文本生成、圖像生成與世界知識在模型權重中的糾纏。

      總結

      2025 年是令人興奮、略顯意外的一年。大模型正在顯現為一種全新的智能形態:既比我預期的聰明得多,又比我預期的愚笨得多。它們極其有用,而行業甚至還沒有意識到它們潛力的 10%。

      與此同時,想法多得令人應接不暇,整個領域依然是一片廣闊的開放空間。正如我今年早些時候在 Dwarkesh 播客中提到的那樣,我同時相信(表面看似矛盾):我們既會看到快速而持續的進展,也還有大量工作要做。

      系好安全帶。

      原文來自卡帕西的博客:

      https://karpathy.bearblog.dev/year-in-review-2025/

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      近7場6敗,遼籃難求一勝,沈陽日報發文,四個字直戳4冠王心窩

      近7場6敗,遼籃難求一勝,沈陽日報發文,四個字直戳4冠王心窩

      鄒維體育
      2026-01-25 22:35:46
      狂降約1.3億!揚州一五星級酒店,苦尋買主...

      狂降約1.3億!揚州一五星級酒店,苦尋買主...

      揚州房產觀察
      2026-01-25 16:40:57
      老天都站在中國這邊!中美博弈最激烈時刻,內蒙發現超級核礦

      老天都站在中國這邊!中美博弈最激烈時刻,內蒙發現超級核礦

      史行途
      2026-01-24 13:59:27
      重大轉向!美國發布最新國防戰略報告:特朗普總統尋求與中國建立穩定的和平、公平的貿易以及互相尊重的關系

      重大轉向!美國發布最新國防戰略報告:特朗普總統尋求與中國建立穩定的和平、公平的貿易以及互相尊重的關系

      每日經濟新聞
      2026-01-25 09:56:41
      大蒜塞耳朵里太厲害了,10個人9個都用得到,看完趕快叮囑家人

      大蒜塞耳朵里太厲害了,10個人9個都用得到,看完趕快叮囑家人

      妙招酷
      2025-12-02 00:06:08
      隱退美少女~相澤南!巔峰時期的她,真的美

      隱退美少女~相澤南!巔峰時期的她,真的美

      素然追光
      2026-01-08 01:02:44
      張學友回應欠債傳聞:我很節儉,沒有借錢的習慣

      張學友回應欠債傳聞:我很節儉,沒有借錢的習慣

      半島晨報
      2026-01-25 19:30:43
      賴清德即將離臺,馬英九號召全島2300萬人反抗,只字不提兩岸統一

      賴清德即將離臺,馬英九號召全島2300萬人反抗,只字不提兩岸統一

      嘆知
      2026-01-25 22:30:49
      國家動真格了!封殺大批網紅,原因全一致,網友:他們吃相太難看

      國家動真格了!封殺大批網紅,原因全一致,網友:他們吃相太難看

      趙昉是個熱血青年
      2026-01-23 13:01:34
      澳網八強出爐!8號種子小米拉出局,王欣瑜明日出戰

      澳網八強出爐!8號種子小米拉出局,王欣瑜明日出戰

      格斗社
      2026-01-25 20:07:42
      廣西最大牌的10位明星排行榜,第一名是中國最有錢的明星!

      廣西最大牌的10位明星排行榜,第一名是中國最有錢的明星!

      動物奇奇怪怪
      2026-01-26 00:30:08
      真愛!41歲董方卓數次落淚:向U23國足道歉,但只防守真沒法贏球

      真愛!41歲董方卓數次落淚:向U23國足道歉,但只防守真沒法贏球

      風過鄉
      2026-01-25 09:18:11
      女子稱為籌治病錢賣掉勞力士 收錢后賬戶被凍結:系涉詐資金 案件在辦理無法解封

      女子稱為籌治病錢賣掉勞力士 收錢后賬戶被凍結:系涉詐資金 案件在辦理無法解封

      紅星新聞
      2026-01-24 11:33:24
      失去最富一角,GDP縮水20%,西班牙為何承受不起這場分手

      失去最富一角,GDP縮水20%,西班牙為何承受不起這場分手

      經緯史觀
      2026-01-15 14:39:42
      黎智英女兒叫囂,如果她父親能夠獲釋,他會把重心放在家庭上

      黎智英女兒叫囂,如果她父親能夠獲釋,他會把重心放在家庭上

      百態人間
      2025-12-20 05:25:03
      中央定調!退休新規實施,公務員事業單位不能申請延退,啥原因?

      中央定調!退休新規實施,公務員事業單位不能申請延退,啥原因?

      社保小達人
      2026-01-20 10:50:09
      槍魔大戰混亂8分鐘!利馬烏龍球,蘇比門迪烏龍助攻,塔帥暴怒

      槍魔大戰混亂8分鐘!利馬烏龍球,蘇比門迪烏龍助攻,塔帥暴怒

      奧拜爾
      2026-01-26 01:14:28
      美為何不跟中國打?德國軍事專家的一番話,回答了這個問題

      美為何不跟中國打?德國軍事專家的一番話,回答了這個問題

      安安說
      2026-01-06 11:10:35
      日本裕仁天皇逝世,中國被邀請出席葬禮,中方代表4字霸氣回應

      日本裕仁天皇逝世,中國被邀請出席葬禮,中方代表4字霸氣回應

      老歿體育解說
      2026-01-22 16:39:49
      再次提醒,紅旗河工程全是騙局!所有工程人,一定要遠離

      再次提醒,紅旗河工程全是騙局!所有工程人,一定要遠離

      荷蘭豆愛健康
      2026-01-12 11:32:56
      2026-01-26 04:28:49
      未盡研究 incentive-icons
      未盡研究
      新能源、人工智能、合成生物、地緣X
      292文章數 61關注度
      往期回顧 全部

      科技要聞

      黃仁勛在上海逛菜市場,可能惦記著三件事

      頭條要聞

      男孩打碎電視屏為"還債"在小區創業 不到2個月賺了6千

      頭條要聞

      男孩打碎電視屏為"還債"在小區創業 不到2個月賺了6千

      體育要聞

      中國足球不會一夜變強,但他們已經創造歷史

      娛樂要聞

      央八開播 楊紫胡歌主演的40集大劇來了

      財經要聞

      隋廣義等80人被公訴 千億騙局進入末路

      汽車要聞

      別克至境E7內飾圖曝光 新車將于一季度正式發布

      態度原創

      親子
      藝術
      數碼
      公開課
      軍事航空

      親子要聞

      真是你哥的好妹妹~

      藝術要聞

      這些肖像看完直呼“爽”!真是好久都沒有看到了!

      數碼要聞

      AMD最強APU更新!銳龍AI Max+ 400詳細規格曝光:5.2GHz CPU、3.0GHz GPU

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      俄美烏三方首輪會談細節披露

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 屄视频| 91视频?-?sebo99| 色综合久久中文| 亚洲一区二区在线无码| 亚洲国产综合精品 在线 一区| 疯狂做受xxxx高潮不断| 久草在线观看视频| 国产精品va在线观看无码| 91牛| 日本一区二区视频在线播放| 女人被爽到高潮视频免费国产| 熟女成人国产精品视频| 亚洲国产精品久久艾草| 丹阳市| 亚洲精品久久久久午夜福禁果tⅴ| 欧美顶级metart祼体全部自慰| 日韩欧美亚洲| 毛片网站在线观看| 久久天天躁狠狠躁夜夜2020一| 亚洲精品无码永久在线观看性色| 麻豆人妻| 99久久国语露脸精品国产| 蓬溪县| awww在线天堂bd资源在线| 51国精产品自偷自偷综合| 天天色成人| 一本加勒比HEZYO黑人| 色又黄又爽18禁免费网站现观看| 国产日韩久久免费影院| 五十路熟妇高熟无码视频| 青青青青久久精品国产| 成人麻豆日韩在无码视频| AV不卡在线观看| 看国产黄大片在线观看| 老太脱裤让老头玩ⅹxxxx| 国产精品国产精品国产专区| 妇女bbbb插插插视频| 亚洲成人性爱网| 看黄a大片日本真人视频直播| 9191av| 日韩一区二区在线观看视频 |