<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      DeepSeek的模型,讓AI第一次學會了反思。

      0
      分享至

      大數據文摘受權轉載自數字生命卡茲克

      作者:卡茲克

      昨天有一個有趣的事,真的太魔幻了,感覺劇本都不會寫的這么巧。

      就在昨天晚上,DeepSeek悄悄地上了一個新模型,DeepSeekMath-V2。


      一個基于DeepSeek-V3.2-Exp-Base構建的685B的數學專用模型。

      這個模型特殊的點,說人話就是,它不僅能給出答案,還能自己檢查自己的解題步驟,自己給自己挑錯,自己跟自己辯論,直到它自己覺得自己整個推理過程,完美無瑕。

      而且,能力上,達到了奧林匹克金牌水平。


      并在 IMO 2025(解決了 5/6 道題)和 Putnam 2024(接近滿分 118/120 分)等競賽中表現出色。

      同時,按照DeepSeek傳統,直接開源+送論文。

      論文名字很直接:《DeepSeekMath-V2: Towards Self-Verifiable Mathematical Reasoning》。

      而我之所以說魔幻的原因在于。

      就在2天前,大洋彼岸,被譽為AI教父之一、前OpenAI首席科學家Ilya Sutskever,剛剛出來發聲,錄了一期播客。


      在這期播客里,他拋出了一個非常有意思的擔憂。

      就是,現在的AI模型很奇怪。

      一方面,它們在各種評測集上刷出了逆天的分數,什么考試、什么競賽,都能名列前茅。

      但另一方面,你把它扔到真實世界里去解決實際問題,它又蠢得讓人想砸電腦。

      他舉了個例子,特別寫實:

      就是你讓AI幫你修一個代碼里的bug A,它說“好嘞”,然后給你引入了一個新的bug B。

      你再讓它修bug B,它又說“沒問題”,然后轉身就把bug A又給改回來了。

      就這么來來回回,修了半天修不好,我相信大家玩vibe coding的人,都遇到過這個問題。

      Ilya自己一直在思考,為什么會這樣?為什么評測表現和真實世界表現之間,有這么大的鴻溝?

      他在這個播客里面,給出了一個非常深刻的類比。

      他說,現在的AI模型,就像一個特長生A,這個學生的目標呢,就是成為最牛逼的算法競賽選手。

      于是他花了一萬個小時,刷遍了所有競賽題,背熟了所有解題技巧。最后,他確實成了這個領域的王者。

      但還有一個通才生B。他對競賽也感興趣,但只花了100個小時去練習,成績也不錯。

      但他把更多的時間,花在了理解世界、廣泛閱讀、與人交流這些務虛的事情上。

      Ilya問:這兩個學生,誰未來的職業發展會更好?

      答案不言而喻,是學生B。

      因為學生A的強大,是一種應試的強大。

      他的所有能力,都是為了在評測中拿高分這個單一目標而優化的。這種訓練,就像把一個人的視野強行壓縮成一根針,他在這根針里能看到原子,但在針以外的世界,他是個盲人。

      而學生B,他擁有一種更可貴的東西,Ilya也不知道該怎么描述,所以他的原話就是“那股勁兒”(the "it"),一種更深刻的、更具泛化性的理解力。

      所以,最后就會導致,經過重度 RL 對齊的模型往往顯得更笨或更缺乏創造力,RL強行讓 AI 去討好人類的某個單一指標,卻可能犧牲了它原本寬廣的通用智力。

      其實最近一些大模型,比如GPT-5、Gemini 3 Pro在寫作能力上的下降,我覺得就能看出一些端倪了。

      Ilya的這段話,還是引起了非常大的反響的。

      然后,就在這個問題還余音繞梁的時候,DeepSeekMath-V2來了。

      直接說,我搞定了。

      特別有意思。

      可以說,DeepSeekMath-V2,已經開始解決Ilya的一些擔憂了。

      在講DeepSeekMath-V2之前,我覺得還是先有必要,來聊聊以前的AI是怎么做數學題的。超級簡單,也超級粗暴。

      就是,結果導向。

      就像一個公司的銷售,老板只看你月底的業績報表,不管你這單子是怎么簽下來的。你用盡九牛二虎之力,還是用了一些骯臟的手段,還是瞎貓碰上死耗子,無所謂,只要最后那個數字是對的,模型就能得到獎勵。

      這種模式,在做一些簡單的計算題時,問題不大。

      但一旦涉及到復雜的證明題,就徹底廢了。

      我相信大家上學時肯定也都被數學老師折磨過,我自己最常聽到的一句話,就是。。。

      “答題是看過程的!你的過程呢?!”

      一道大題15分,答案可能只占2分,剩下13分,全在過程里。


      你就算最后答案蒙對了,過程一塌糊涂,照樣拉跨。

      因為數學這門學科,從本質上來說,它追求的就不是那個最終的答案,而是那個無懈可擊、一步一響的邏輯鏈。

      是從公理這個地基開始,一磚一瓦,蓋起一座真理的大廈。

      中間任何一環有瑕疵,整個大廈都會崩塌。

      之前的AI,就是這樣的,你讓他寫出答案,他可能還真的沒啥問題,但是你讓他寫證明過程,那就完特么蛋了,經常給你生編硬造。

      甚至有時候,它給你的最終答案,是靠著某個計算失誤+另一個邏輯錯誤負負得正,最后歪打正著搞出來的。

      這就是過去AI的通病,你說他對了吧,他也真對了,但是你要是跟他在過程中較個真吧,那也經常錯的離譜。

      本質上,還是模型沒有反思能力。

      雖然模型有所謂的思維鏈,但是這個思維鏈,或者說這個邏輯,也分幾個級別。

      第一個級別,我稱之為Prompt級cosplay反思。

      就是你跟他說你要好好想一想,其實就是多寫幾句CoT,訓練時根本沒強約束它真的檢查過,這個就不說了,純文案。

      第二個級別,就是OpenAI o1、DeepSeek R1等等,有自己的思維鏈的,這種其實可以稱為,答案導向的反思。

      這類所謂的“reasoning model”的典型套路其實就是,用RL來獎勵最后答案對不對,可以允許模型在中間多想、多分支、自己評估幾個方案,再選一個。

      這套模式你不能說他不行,確實很強,通過獎勵最終答案的正確,一年內,確實把AIME、HMMT這種只看答案的競賽打滿分。

      但有兩個硬傷。

      1. 正確答案 ≠ 推理真的對,中間瞎算、走錯路、蒙對都算贏。

      2. 像定理證明這種題,根本沒有單一數值答案可以獎勵,所以也就容易拉了。

      而第三個級別,就是這次的DeepSeekMath-V2,真正把過程當任務的反思。

      這個點,也是源于DeepSeek對人的觀察。


      DeepSeekMath-V2的做法,也很有意思,甚至有點精神分裂的哲學味。

      他們其實搞了兩個AI出來。

      一個叫生成器(Generator)。這哥們兒就是那個天馬行空、才華橫溢的學生。你把題給他,他奮筆疾書,洋洋灑灑,給你寫出一套解題過程。

      另一個叫驗證器(Verifier)。這哥們兒是個極其刻薄、吹毛求疵、毫無感情的老師。生成器寫完的每一個字,都要經過它的審判。它就像拿著放大鏡一樣,逐行檢查,尋找任何可能的邏輯漏洞、計算錯誤、概念不清。

      然后,他們讓驗證器去當生成器的老師。生成器每寫完一步,驗證器就在旁邊打分:

      “你這里邏輯不嚴謹,扣分。”,“你這個公式用錯了,扣分。”,“你這里跳步了,扣分。”

      “生成器”為了得到老師也就是驗證器的表揚,就必須不斷地修改、完善自己的證明過程。

      它慢慢地就學會了,不能只圖快,每一步都得想清楚,都得有理有據。

      經過這種反復的自我搏斗,AI就不再是一個只會輸出答案的機器了。

      它開始擁有了一種真正的最寶貴的能力:

      “反思”。

      這個能力,也讓DeepSeekMath-V2在證明題的能力上,薄紗同行。


      它不再盲目地相信自己的第一直覺。

      在這個過程中,它學會了懷疑,學會了審視,學會了批判性思維。

      而且,這還沒完。

      DeepSeek覺得,這還不夠精神分裂。所以,他們又來了一個更狠的:

      元驗證(Meta-Verification)。

      大概就是,就是他們又搞了個總教導主任,這個主任不去看學生的卷子,而是去看老師批改的卷子有沒有問題。

      畢竟有時候,驗證器這個老師也會犯錯。

      比如它可能會冤枉一個好學生,把對的步驟判成錯的,或者自己老眼昏花,沒發現學生隱藏得很深的錯誤。

      元驗證器的作用,就是確保驗證器的每一次評判都是公平、準確、有效的。

      這套組合拳下來,就形成了一個極其強大的正向循環:

      1. 生成器努力寫出更完美的證明。

      2. 驗證器在元驗證器的監督下,變得越來越準確。

      3. 更強的驗證器又能反過來訓練出更強的生成器。

      左腳蹬右腳,螺旋登天。

      最終,他們把這兩種能力,合二為一,注入到了同一個AI的身體里。于是,DeepSeekMath-V2誕生了。

      再看看它的成績。

      IMO(國際數學奧林匹克競賽):這是全世界高中生的最高殿堂。DeepSeekMath-V2在2025年的模擬賽里,6道題解出了5道。金牌水平。

      CMO(中國數學奧林匹克競賽):中國最頂尖的數學競賽。它也拿到了金牌水平的成績。

      最恐怖的是這個:Putnam Competition(普特南數學競賽)。


      這個競賽,是全世界大學生數學競賽里,公認的地獄難度。

      它的題目,出的極其刁鉆、深刻,因為難度過大,所以中位數得分通常為0或1分,而滿分,是120分。。。。

      說實話,在這種競賽里,能考個十幾二十分,就已經是人中龍鳳了。

      而去年的人類最高分,是90分。


      而DeepSeekMath-V2的得分。

      118分。

      在12道題里,它完整、嚴謹地解出了11道,還有1道也拿到了大部分分數。

      太離譜了。

      這就是知道學會反思,學會過程以后的,真正的AI的實力。

      不知道為什么,讓我想起了Alpha GO。。。

      DeepSeek這篇論文,實際上是給Ilya的問題,提供了一個可能的答案:

      也許,要彌合評測與現實的鴻溝,我們不應該再給AI增加更多的外部RL環境去刷題,而是應該教會AI一種向內看的能力。

      讓它從追求讓別人滿意(獲得獎勵),轉變為追求讓自己滿意(邏輯自洽)。

      王陽明的心學,其實很早就提過這個觀點。

      心即理,真理不在外部,而在我們每個人的內心。

      真正的學習,不是向外尋求標準答案,而是向內致良知,達到一種內在的和諧與通透。

      DeepSeekMath-V2,就是AI領域的一次非常有趣的,“致良知”。

      有的時候我經常在想,人類的理性,到底是什么?

      康德覺得,理性是人類為自然立法的能力。我們通過先驗的邏輯框架去理解、整理這個混亂的世界。

      我感覺,DeepSeekMath-V2,有一點像。

      過去我們總覺得,AI的智能和人類的智能,隔著一道鴻溝。

      我們的智能里,有靈感、有頓悟、有情感、有那些說不清道不明的“Aha Moment”。

      可也許,人類的靈感,只是我們大腦在算力不足的情況下,為了走捷徑而產生的一種邏輯的跳躍。

      而AI,正在用我們無法想象的算力,把我們跳過的每一步,都踏踏實實地走一遍。

      它走的,是一條更慢、更笨,但可能也更接近本質的道路。

      我們,這些習慣于跳躍的物種,站在AI這條堅實的邏輯長梯面前,難免會感到一絲震撼,和一絲……迷茫。

      那我們未來的位置。

      又在哪里呢?

      GPU 訓練特惠!

      H100/H200 GPU算力按秒計費,平均節省開支30%以上!

      掃碼了解詳情?

      點「贊」的人都變好看了哦!

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      "第一軟飯男"去世了,伺候美國老婦13年,繼承268億,死后錢給誰

      "第一軟飯男"去世了,伺候美國老婦13年,繼承268億,死后錢給誰

      毒sir財經
      2025-12-08 22:57:40
      芬蘭小姐歧視中國人后續來了!冠軍頭銜被取消,直播換人大快人心

      芬蘭小姐歧視中國人后續來了!冠軍頭銜被取消,直播換人大快人心

      萌神木木
      2025-12-11 20:34:19
      硬剛外賣平臺,寧波餐飲商家集體掀桌子,釋放什么信號?

      硬剛外賣平臺,寧波餐飲商家集體掀桌子,釋放什么信號?

      保德全
      2025-12-12 19:30:03
      41犯46罰!鄒雨宸血濺當場,鬼才邱彪迷信高鐵,成就里勒一戰封神

      41犯46罰!鄒雨宸血濺當場,鬼才邱彪迷信高鐵,成就里勒一戰封神

      后仰大風車
      2025-12-13 21:54:09
      不要忙著打日本,中國應該去全國各地的武器倉庫突擊大檢查!

      不要忙著打日本,中國應該去全國各地的武器倉庫突擊大檢查!

      時分秒說
      2025-12-09 12:11:20
      茅臺強勢打擊炒作!837萬黃牛賠本離場,開放1169元飛天企業無限購!

      茅臺強勢打擊炒作!837萬黃牛賠本離場,開放1169元飛天企業無限購!

      藍色海邊
      2025-12-14 00:44:24
      北京今冬初雪,融雪劑“缺席”背后的城市治理新考題

      北京今冬初雪,融雪劑“缺席”背后的城市治理新考題

      漫川舟船
      2025-12-14 06:17:03
      豐田終于"狠"了一把!新皇冠275馬力+四驅系統,2.4T動力完爆ES

      豐田終于"狠"了一把!新皇冠275馬力+四驅系統,2.4T動力完爆ES

      華庭講美食
      2025-12-13 13:56:00
      空調「銅管」時代終結!美的、海爾們如何用技術破局?

      空調「銅管」時代終結!美的、海爾們如何用技術破局?

      雷科技
      2025-12-12 19:46:10
      美谷朱音退役后作為舞者重新出道,日媒對她進行了采訪

      美谷朱音退役后作為舞者重新出道,日媒對她進行了采訪

      隨波蕩漾的漂流瓶
      2025-12-13 17:25:05
      國家發改委肖渭明:加快出臺實施首發經濟、賽事經濟、電子商務、“人工智能+”消費等領域提振消費的政策

      國家發改委肖渭明:加快出臺實施首發經濟、賽事經濟、電子商務、“人工智能+”消費等領域提振消費的政策

      財聯社
      2025-12-13 14:00:05
      為審訊日本女特務,戴笠獨創“洗陰溝”刑罰,日本女特務十分羞恥

      為審訊日本女特務,戴笠獨創“洗陰溝”刑罰,日本女特務十分羞恥

      歷史點行
      2025-12-06 20:33:20
      離譜,蘋果悄悄閹割了 iPhone 17 Pro!

      離譜,蘋果悄悄閹割了 iPhone 17 Pro!

      花果科技
      2025-12-11 14:47:41
      打120自救后,這位醫生從此告別夜班!同行艷羨:好幸運,我身患癌癥卻一直被迫上夜班

      打120自救后,這位醫生從此告別夜班!同行艷羨:好幸運,我身患癌癥卻一直被迫上夜班

      梅斯醫學
      2025-12-14 07:52:23
      令人發指!英超148年老店打進3球卻1-2輸阿森納:9連敗+20場不勝

      令人發指!英超148年老店打進3球卻1-2輸阿森納:9連敗+20場不勝

      風過鄉
      2025-12-14 06:38:12
      男子投資共享充電寶,自稱利潤被“一女二嫁”;雙方對簿公堂,市監立案調查

      男子投資共享充電寶,自稱利潤被“一女二嫁”;雙方對簿公堂,市監立案調查

      大風新聞
      2025-12-13 20:02:21
      央視直播14日WTT香港總決賽,林詩棟戰張本智和,王曼昱對蒯曼

      央視直播14日WTT香港總決賽,林詩棟戰張本智和,王曼昱對蒯曼

      乒乓球球
      2025-12-13 23:22:19
      孫穎莎腳踝受傷堅持2局后退賽,蒯曼晉級總決賽女單決賽

      孫穎莎腳踝受傷堅持2局后退賽,蒯曼晉級總決賽女單決賽

      澎湃新聞
      2025-12-13 21:00:26
      爭議!北京國安名宿被曝參與賭球:曾下注3百萬,如今成球隊高管

      爭議!北京國安名宿被曝參與賭球:曾下注3百萬,如今成球隊高管

      國足風云
      2025-12-13 14:26:52
      日本為什么挑釁中國,西班牙專家:中國錯就錯在沒跟日本徹底清算

      日本為什么挑釁中國,西班牙專家:中國錯就錯在沒跟日本徹底清算

      我心縱橫天地間
      2025-12-08 18:32:33
      2025-12-14 08:32:49
      大數據文摘 incentive-icons
      大數據文摘
      專注大數據,每日有分享!
      6806文章數 94518關注度
      往期回顧 全部

      科技要聞

      比亞迪、小鵬、北汽,集體表態

      頭條要聞

      女子225個快遞"僅退款"被披露后又有商家發聲:也是她

      頭條要聞

      女子225個快遞"僅退款"被披露后又有商家發聲:也是她

      體育要聞

      有了風騷白人禿頭,忘掉談了10年的前任

      娛樂要聞

      插刀門后,印小天一舉動實現口碑逆轉

      財經要聞

      鎂信健康闖關港交所:被指竊取商業秘密

      汽車要聞

      表面風平浪靜 內里翻天覆地!試駕銀河星艦7 EM-i

      態度原創

      本地
      旅游
      時尚
      親子
      公開課

      本地新聞

      云游安徽|阜陽三朝風骨,傳承千年墨香

      旅游要聞

      江西上饒通報:望仙谷景區明火已被撲滅 無人員傷亡

      法式方頭靴的30種穿法,時髦不重樣!

      親子要聞

      七小七:用清潔配方重新定義兒童食品健康標準,獲雙品類銷量第一

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 丁香婷婷综合激情五月色| 人妻社区| 香格里拉县| 噜妇插内射精品| 88国产精品视频一区二区三区| 国产 另类 在线 欧美日韩| 日韩欧美精品一区二区| 欧美日韩久久| 正在播放东北夫妻内射| 欧美巨大巨粗黑人性aaaaaa| 久久人搡人人玩人妻精品首页 | 欧洲成人一区二区三区| 欧美涩色| 嘉兴市| 97人人模人人爽人人少妇 | 91中文字幕一区在线| 最新日韩无码中文字幕| 平和县| 欧美视频网站www色| 伊人久久大香线蕉综合影院| aV无码av高潮aV三区| 青浦区| 午夜福制92视频| 国产av普通话对白国语| 中文字幕无码Av在线看| 棋牌| 人妻少妇精品系列| 美女一级毛片无遮挡内谢| 丝袜人妻| 99中文视频| 欧美日韩中文国产一区| 国产美女久久久亚洲综合| 亚洲激情av| 出国| 亚洲国产av无码综合原创国产| 日韩精品一区二区三区中文无码| 亚欧女AV| 天天干-天天日| 国产av一区二区三区无码野战| 无码国模国产在线观看免费| 超碰97人人天天蜜芽|