<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      DeepSeek的模型,讓AI第一次學會了反思。

      0
      分享至

      大數據文摘受權轉載自數字生命卡茲克

      作者:卡茲克

      昨天有一個有趣的事,真的太魔幻了,感覺劇本都不會寫的這么巧。

      就在昨天晚上,DeepSeek悄悄地上了一個新模型,DeepSeekMath-V2。


      一個基于DeepSeek-V3.2-Exp-Base構建的685B的數學專用模型。

      這個模型特殊的點,說人話就是,它不僅能給出答案,還能自己檢查自己的解題步驟,自己給自己挑錯,自己跟自己辯論,直到它自己覺得自己整個推理過程,完美無瑕。

      而且,能力上,達到了奧林匹克金牌水平。


      并在 IMO 2025(解決了 5/6 道題)和 Putnam 2024(接近滿分 118/120 分)等競賽中表現出色。

      同時,按照DeepSeek傳統,直接開源+送論文。

      論文名字很直接:《DeepSeekMath-V2: Towards Self-Verifiable Mathematical Reasoning》。

      而我之所以說魔幻的原因在于。

      就在2天前,大洋彼岸,被譽為AI教父之一、前OpenAI首席科學家Ilya Sutskever,剛剛出來發聲,錄了一期播客。


      在這期播客里,他拋出了一個非常有意思的擔憂。

      就是,現在的AI模型很奇怪。

      一方面,它們在各種評測集上刷出了逆天的分數,什么考試、什么競賽,都能名列前茅。

      但另一方面,你把它扔到真實世界里去解決實際問題,它又蠢得讓人想砸電腦。

      他舉了個例子,特別寫實:

      就是你讓AI幫你修一個代碼里的bug A,它說“好嘞”,然后給你引入了一個新的bug B。

      你再讓它修bug B,它又說“沒問題”,然后轉身就把bug A又給改回來了。

      就這么來來回回,修了半天修不好,我相信大家玩vibe coding的人,都遇到過這個問題。

      Ilya自己一直在思考,為什么會這樣?為什么評測表現和真實世界表現之間,有這么大的鴻溝?

      他在這個播客里面,給出了一個非常深刻的類比。

      他說,現在的AI模型,就像一個特長生A,這個學生的目標呢,就是成為最牛逼的算法競賽選手。

      于是他花了一萬個小時,刷遍了所有競賽題,背熟了所有解題技巧。最后,他確實成了這個領域的王者。

      但還有一個通才生B。他對競賽也感興趣,但只花了100個小時去練習,成績也不錯。

      但他把更多的時間,花在了理解世界、廣泛閱讀、與人交流這些務虛的事情上。

      Ilya問:這兩個學生,誰未來的職業發展會更好?

      答案不言而喻,是學生B。

      因為學生A的強大,是一種應試的強大。

      他的所有能力,都是為了在評測中拿高分這個單一目標而優化的。這種訓練,就像把一個人的視野強行壓縮成一根針,他在這根針里能看到原子,但在針以外的世界,他是個盲人。

      而學生B,他擁有一種更可貴的東西,Ilya也不知道該怎么描述,所以他的原話就是“那股勁兒”(the "it"),一種更深刻的、更具泛化性的理解力。

      所以,最后就會導致,經過重度 RL 對齊的模型往往顯得更笨或更缺乏創造力,RL強行讓 AI 去討好人類的某個單一指標,卻可能犧牲了它原本寬廣的通用智力。

      其實最近一些大模型,比如GPT-5、Gemini 3 Pro在寫作能力上的下降,我覺得就能看出一些端倪了。

      Ilya的這段話,還是引起了非常大的反響的。

      然后,就在這個問題還余音繞梁的時候,DeepSeekMath-V2來了。

      直接說,我搞定了。

      特別有意思。

      可以說,DeepSeekMath-V2,已經開始解決Ilya的一些擔憂了。

      在講DeepSeekMath-V2之前,我覺得還是先有必要,來聊聊以前的AI是怎么做數學題的。超級簡單,也超級粗暴。

      就是,結果導向。

      就像一個公司的銷售,老板只看你月底的業績報表,不管你這單子是怎么簽下來的。你用盡九牛二虎之力,還是用了一些骯臟的手段,還是瞎貓碰上死耗子,無所謂,只要最后那個數字是對的,模型就能得到獎勵。

      這種模式,在做一些簡單的計算題時,問題不大。

      但一旦涉及到復雜的證明題,就徹底廢了。

      我相信大家上學時肯定也都被數學老師折磨過,我自己最常聽到的一句話,就是。。。

      “答題是看過程的!你的過程呢?!”

      一道大題15分,答案可能只占2分,剩下13分,全在過程里。


      你就算最后答案蒙對了,過程一塌糊涂,照樣拉跨。

      因為數學這門學科,從本質上來說,它追求的就不是那個最終的答案,而是那個無懈可擊、一步一響的邏輯鏈。

      是從公理這個地基開始,一磚一瓦,蓋起一座真理的大廈。

      中間任何一環有瑕疵,整個大廈都會崩塌。

      之前的AI,就是這樣的,你讓他寫出答案,他可能還真的沒啥問題,但是你讓他寫證明過程,那就完特么蛋了,經常給你生編硬造。

      甚至有時候,它給你的最終答案,是靠著某個計算失誤+另一個邏輯錯誤負負得正,最后歪打正著搞出來的。

      這就是過去AI的通病,你說他對了吧,他也真對了,但是你要是跟他在過程中較個真吧,那也經常錯的離譜。

      本質上,還是模型沒有反思能力。

      雖然模型有所謂的思維鏈,但是這個思維鏈,或者說這個邏輯,也分幾個級別。

      第一個級別,我稱之為Prompt級cosplay反思。

      就是你跟他說你要好好想一想,其實就是多寫幾句CoT,訓練時根本沒強約束它真的檢查過,這個就不說了,純文案。

      第二個級別,就是OpenAI o1、DeepSeek R1等等,有自己的思維鏈的,這種其實可以稱為,答案導向的反思。

      這類所謂的“reasoning model”的典型套路其實就是,用RL來獎勵最后答案對不對,可以允許模型在中間多想、多分支、自己評估幾個方案,再選一個。

      這套模式你不能說他不行,確實很強,通過獎勵最終答案的正確,一年內,確實把AIME、HMMT這種只看答案的競賽打滿分。

      但有兩個硬傷。

      1. 正確答案 ≠ 推理真的對,中間瞎算、走錯路、蒙對都算贏。

      2. 像定理證明這種題,根本沒有單一數值答案可以獎勵,所以也就容易拉了。

      而第三個級別,就是這次的DeepSeekMath-V2,真正把過程當任務的反思。

      這個點,也是源于DeepSeek對人的觀察。


      DeepSeekMath-V2的做法,也很有意思,甚至有點精神分裂的哲學味。

      他們其實搞了兩個AI出來。

      一個叫生成器(Generator)。這哥們兒就是那個天馬行空、才華橫溢的學生。你把題給他,他奮筆疾書,洋洋灑灑,給你寫出一套解題過程。

      另一個叫驗證器(Verifier)。這哥們兒是個極其刻薄、吹毛求疵、毫無感情的老師。生成器寫完的每一個字,都要經過它的審判。它就像拿著放大鏡一樣,逐行檢查,尋找任何可能的邏輯漏洞、計算錯誤、概念不清。

      然后,他們讓驗證器去當生成器的老師。生成器每寫完一步,驗證器就在旁邊打分:

      “你這里邏輯不嚴謹,扣分。”,“你這個公式用錯了,扣分。”,“你這里跳步了,扣分。”

      “生成器”為了得到老師也就是驗證器的表揚,就必須不斷地修改、完善自己的證明過程。

      它慢慢地就學會了,不能只圖快,每一步都得想清楚,都得有理有據。

      經過這種反復的自我搏斗,AI就不再是一個只會輸出答案的機器了。

      它開始擁有了一種真正的最寶貴的能力:

      “反思”。

      這個能力,也讓DeepSeekMath-V2在證明題的能力上,薄紗同行。


      它不再盲目地相信自己的第一直覺。

      在這個過程中,它學會了懷疑,學會了審視,學會了批判性思維。

      而且,這還沒完。

      DeepSeek覺得,這還不夠精神分裂。所以,他們又來了一個更狠的:

      元驗證(Meta-Verification)。

      大概就是,就是他們又搞了個總教導主任,這個主任不去看學生的卷子,而是去看老師批改的卷子有沒有問題。

      畢竟有時候,驗證器這個老師也會犯錯。

      比如它可能會冤枉一個好學生,把對的步驟判成錯的,或者自己老眼昏花,沒發現學生隱藏得很深的錯誤。

      元驗證器的作用,就是確保驗證器的每一次評判都是公平、準確、有效的。

      這套組合拳下來,就形成了一個極其強大的正向循環:

      1. 生成器努力寫出更完美的證明。

      2. 驗證器在元驗證器的監督下,變得越來越準確。

      3. 更強的驗證器又能反過來訓練出更強的生成器。

      左腳蹬右腳,螺旋登天。

      最終,他們把這兩種能力,合二為一,注入到了同一個AI的身體里。于是,DeepSeekMath-V2誕生了。

      再看看它的成績。

      IMO(國際數學奧林匹克競賽):這是全世界高中生的最高殿堂。DeepSeekMath-V2在2025年的模擬賽里,6道題解出了5道。金牌水平。

      CMO(中國數學奧林匹克競賽):中國最頂尖的數學競賽。它也拿到了金牌水平的成績。

      最恐怖的是這個:Putnam Competition(普特南數學競賽)。


      這個競賽,是全世界大學生數學競賽里,公認的地獄難度。

      它的題目,出的極其刁鉆、深刻,因為難度過大,所以中位數得分通常為0或1分,而滿分,是120分。。。。

      說實話,在這種競賽里,能考個十幾二十分,就已經是人中龍鳳了。

      而去年的人類最高分,是90分。


      而DeepSeekMath-V2的得分。

      118分。

      在12道題里,它完整、嚴謹地解出了11道,還有1道也拿到了大部分分數。

      太離譜了。

      這就是知道學會反思,學會過程以后的,真正的AI的實力。

      不知道為什么,讓我想起了Alpha GO。。。

      DeepSeek這篇論文,實際上是給Ilya的問題,提供了一個可能的答案:

      也許,要彌合評測與現實的鴻溝,我們不應該再給AI增加更多的外部RL環境去刷題,而是應該教會AI一種向內看的能力。

      讓它從追求讓別人滿意(獲得獎勵),轉變為追求讓自己滿意(邏輯自洽)。

      王陽明的心學,其實很早就提過這個觀點。

      心即理,真理不在外部,而在我們每個人的內心。

      真正的學習,不是向外尋求標準答案,而是向內致良知,達到一種內在的和諧與通透。

      DeepSeekMath-V2,就是AI領域的一次非常有趣的,“致良知”。

      有的時候我經常在想,人類的理性,到底是什么?

      康德覺得,理性是人類為自然立法的能力。我們通過先驗的邏輯框架去理解、整理這個混亂的世界。

      我感覺,DeepSeekMath-V2,有一點像。

      過去我們總覺得,AI的智能和人類的智能,隔著一道鴻溝。

      我們的智能里,有靈感、有頓悟、有情感、有那些說不清道不明的“Aha Moment”。

      可也許,人類的靈感,只是我們大腦在算力不足的情況下,為了走捷徑而產生的一種邏輯的跳躍。

      而AI,正在用我們無法想象的算力,把我們跳過的每一步,都踏踏實實地走一遍。

      它走的,是一條更慢、更笨,但可能也更接近本質的道路。

      我們,這些習慣于跳躍的物種,站在AI這條堅實的邏輯長梯面前,難免會感到一絲震撼,和一絲……迷茫。

      那我們未來的位置。

      又在哪里呢?

      GPU 訓練特惠!

      H100/H200 GPU算力按秒計費,平均節省開支30%以上!

      掃碼了解詳情?

      點「贊」的人都變好看了哦!

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      驚魂一夜!特朗普俯身撤離,魯比奧趴到桌子底

      驚魂一夜!特朗普俯身撤離,魯比奧趴到桌子底

      中國新聞周刊
      2026-04-26 12:35:35
      87歲劉詩昆:住美國600平豪宅,和三婚妻子兒女雙全,享天倫之樂

      87歲劉詩昆:住美國600平豪宅,和三婚妻子兒女雙全,享天倫之樂

      白面書誏
      2026-04-22 14:46:57
      70歲老人哭訴:請親戚當住家保姆,本以為很靠譜,結果卻很窩火

      70歲老人哭訴:請親戚當住家保姆,本以為很靠譜,結果卻很窩火

      烙任情感
      2026-04-25 11:41:04
      成龍和克里斯·塔克因不滿片酬,已拒絕《尖峰時刻4》的初步邀約;特朗普曾催拍《尖峰時刻4》,渴望讓傳統男子氣概在好萊塢文化中重現光彩

      成龍和克里斯·塔克因不滿片酬,已拒絕《尖峰時刻4》的初步邀約;特朗普曾催拍《尖峰時刻4》,渴望讓傳統男子氣概在好萊塢文化中重現光彩

      魯中晨報
      2026-04-25 15:48:13
      CBA最新消息!沈梓捷或離開北控男籃,郭昊文合同到期

      CBA最新消息!沈梓捷或離開北控男籃,郭昊文合同到期

      體壇瞎白話
      2026-04-26 09:53:56
      98年我在東莞當保安,一個舞女為躲追殺藏我宿舍,竟是臥底女警

      98年我在東莞當保安,一個舞女為躲追殺藏我宿舍,竟是臥底女警

      千秋文化
      2026-04-22 20:17:38
      1.9秒一單狂破世界紀錄!安徽小縣城憑三樣小吃,火遍整個長三角

      1.9秒一單狂破世界紀錄!安徽小縣城憑三樣小吃,火遍整個長三角

      青眼財經
      2026-04-25 23:05:36
      大學“倒閉潮”倒計時?7年后你的文憑,或許還不如一張電工證

      大學“倒閉潮”倒計時?7年后你的文憑,或許還不如一張電工證

      小談食刻美食
      2026-04-25 09:37:54
      “骨盆前傾成這樣,還不去醫院?”家長曬一年級女兒體態,被群嘲

      “骨盆前傾成這樣,還不去醫院?”家長曬一年級女兒體態,被群嘲

      妍妍教育日記
      2026-04-24 11:15:25
      華晨宇演唱會延期哭了,撫仙湖居民發聲:那我們之前的犧牲算什么

      華晨宇演唱會延期哭了,撫仙湖居民發聲:那我們之前的犧牲算什么

      離離言幾許
      2026-04-23 20:05:27
      劉曉慶 75 歲聚餐照曝光!耳垂垂到嘴角,網友吵翻

      劉曉慶 75 歲聚餐照曝光!耳垂垂到嘴角,網友吵翻

      南萬說娛26
      2026-04-26 10:26:45
      20年代,林徽因與冰心郊游的唯一合影,這是他們的真實容顏

      20年代,林徽因與冰心郊游的唯一合影,這是他們的真實容顏

      以茶帶書
      2026-04-25 19:22:44
      香港明明是中國的領土,為何他們回歸多年,依然還在使用港幣?

      香港明明是中國的領土,為何他們回歸多年,依然還在使用港幣?

      抽象派大師
      2026-04-25 18:47:51
      豪門闊太只拍一部戲就隱退,獲演員丈夫寵愛30年

      豪門闊太只拍一部戲就隱退,獲演員丈夫寵愛30年

      眼底星碎
      2026-04-25 11:35:30
      賴清德或將被彈劾下臺!這一票,即將改寫臺灣的命運

      賴清德或將被彈劾下臺!這一票,即將改寫臺灣的命運

      命運自認幽默
      2026-04-25 16:33:34
      G3裁判報告:漏吹斯馬特進線+詹姆斯出界 火箭本該不打加時贏球?

      G3裁判報告:漏吹斯馬特進線+詹姆斯出界 火箭本該不打加時贏球?

      羅說NBA
      2026-04-26 05:02:11
      被許家印坑慘的8位大佬!損失超2000億,從巔峰跌回塵埃

      被許家印坑慘的8位大佬!損失超2000億,從巔峰跌回塵埃

      洞見小能手
      2026-04-24 10:21:16
      鄭州一村吃席只有3個菜!煙酒不超40,每桌140,網友:請全國推廣

      鄭州一村吃席只有3個菜!煙酒不超40,每桌140,網友:請全國推廣

      小秋情感說
      2026-04-26 09:35:44
      18歲康克清嫁43歲朱德,沒生半個親骨肉,晚年究竟憑啥讓十幾個子孫承歡膝下?

      18歲康克清嫁43歲朱德,沒生半個親骨肉,晚年究竟憑啥讓十幾個子孫承歡膝下?

      歷史回憶室
      2026-04-23 22:43:15
      笑不活了!女孩把雞畫得圓肥被判不合格,家長把雞的照片發給老師

      笑不活了!女孩把雞畫得圓肥被判不合格,家長把雞的照片發給老師

      夜深愛雜談
      2026-04-25 07:33:34
      2026-04-26 14:19:00
      大數據文摘 incentive-icons
      大數據文摘
      專注大數據,每日有分享!
      6853文章數 94542關注度
      往期回顧 全部

      科技要聞

      漲價浪潮下,DeepSeek推動AI“價格戰”

      頭條要聞

      白宮槍手系教師兼游戲開發者 曾向哈里斯總統競選捐款

      頭條要聞

      白宮槍手系教師兼游戲開發者 曾向哈里斯總統競選捐款

      體育要聞

      那一刻開始,兩支球隊的命運悄然改變了

      娛樂要聞

      《八千里路云和月》大結局意難平

      財經要聞

      DeepSeek V4背后,梁文鋒的轉身

      汽車要聞

      預售19.38萬元起 哈弗猛龍PLUS七座版亮相

      態度原創

      藝術
      游戲
      親子
      旅游
      公開課

      藝術要聞

      鄭麗文訪問清華附中引發熱議,蔣中正信札字跡真實性遭質疑

      《光與影:33號遠征隊》迎來發售一周年紀念

      親子要聞

      媽媽記錄下寶寶的第一次擁抱,最幸福的瞬間

      旅游要聞

      春光正好迎假期 文旅消費暖意濃 多元“微度假”體驗解鎖小城引流密碼

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 久久精品人人做人人爽97| 精品国产91天堂嫩模在线观看| 成人另类稀缺在线观看| 无码精品a∨在线观看十八禁| 欧美午夜福利| 晋州市| 日韩人妻一区二区三区免费| 中文字幕亚洲在线| 国产三级精品三级男人的天堂| 天堂а√在线中文在线| 国产l精品国产亚洲区| 亚洲人成色7777在线观看不卡| 国产高清精品自在线看| 国色天香中文字幕在线视频| 夜色福利导航| 国内外精品成人免费视频| 欧美18videosex性欧美黑吊| 尹人香蕉久久99天天拍欧美p7| 大竹县| 全部免费a级毛片| 亚洲熟妇网| 巴塘县| 久久无码人妻丰满熟妇区毛片| 欧美寡妇xxxx黑人猛交| 久久久久免费看少妇高潮A片 | 国产精品国色综合久久| 中国产无码一区二区三区| 成人福利一区二区视频在线| 天天摸日日摸狠狠添| 中文无码毛片又爽又刺激| 亚洲国产精华液网站w| 国产综合视频一区二区三区| 中文字幕精品无码亚| 国产AV巨作丝袜秘书| 国产VA网站| 久久精品中文字幕无码绿巨人| 成年女人免费毛片视频永久| 国产偷自一区二区三区在线 | 中文字幕日本最新乱码视频| 亚洲AV无码电影在线播放| www插插插无码免费视频网站|