<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      梁文鋒領銜團隊在《自然》發論文了…

      0
      分享至

      設置星標 關注,從此你的世界多點科學~


      今年1月,來自杭州的深度求索公司攜開源推理模型DeepSeek-R1火爆全網。

      AI專家盛贊其“純強化學習”的創新范式讓模型自我進化、擺脫對人工標注文本的依賴,業內同行驚嘆于其超高性能背后的超低投入,金融市場則以股價巨震向這位物美價廉的數學大師、編程高手、推理王者致敬。

      DeepSeek-R1是開放權重模型(訓練參數對公眾公開),可供任何人下載使用。時至今日,它在AI開源社區Hugging Face上的下載量已超過1090萬次,是目前同類模型里最受歡迎的。此外,它還剛剛成為全球第一款經過完整同行評審的大語言模型(LLM)。

      9月17日,深度求索創始人梁文鋒及其團隊正式于《自然》雜志發表封面文章,詳細闡述了他們強化標準LLM、升級推理策略的方式和過程。

      DeepSeek的核心創新在于采用純強化學習(pure reinforcement learning)這一自動化試錯方法構建R1:通過獎勵機制驅動模型自己得出正確答案,而非教它遵循人類選擇的推理示例。因此,DeepSeek-R1能在“獨立思考”中學習形成自己的推理策略,例如“怎樣不受人類思維影響地驗證自己的結果”。

      為提升效率,模型選擇估計值(而非獨立算法)來給自己的工作評分——此項技術被稱為“群體相對策略優化”(GRPO),屬于強化學習中的一種優化方法,允許模型在訓練時通過自我評估和群體比較以求增效。

      有同行表示,DeepSeek-R1已對人工智能學界產生“相當顯著的影響”,2025年幾乎所有給大語言模型上強化學習的研究都“或多或少受到R1啟發”。

      另一方面,新論文在補充材料中首次披露了R1模型的訓練成本——區區29.4萬美元。構建基礎LLM的投入則為600萬美元。這是什么概念呢?OpenAI、谷歌DeepMind、Meta等AI巨頭的模型訓練成本都是幾千萬起步的。

      值得一提的是,R1主要采用英偉達H800芯片進行訓練,而該芯片在2023年因美國出口管制禁令而被禁止對華銷售。

      此外,梁文鋒等人根據評審意見減少了擬人化表述,并補充了技術細節說明,包括模型訓練數據類型和安全性方面的內容。

      Hugging Face的機器學習工程師劉易斯·坦斯托爾(Lewis Tunstall)是這篇《自然》新作的評審者之一。在他看來,如果不樹立“將模型的大部分開發過程與學界共享”的規范,同行就沒法評估系統是否存在風險。

      俄亥俄州立大學的人工智能研究員孫歡則指出,嚴格的同行評審過程確實有助于驗證模型的有效性和實用性,其他公司應當效仿DeepSeek。

      此前有媒體報道OpenAI方面對DeepSeek-R1的質疑:深度求索團隊可能使用了OpenAI模型的輸出數據來訓練R1,這幫助他們以更少資源取得更高性能。

      梁文鋒等人未通過論文公開訓練數據,但根據他們與評審人員的交流內容,R1并未復制OpenAI模型生成的推理示例以開展學習。不過他們也承認,與大多數大語言模型一樣,R1的基礎模型確實“上網”練過,因此必然吸收互聯網上既有的AI生成內容。

      坦斯托爾認為,雖無法百分百確定R1未使用OpenAI的示例進行訓練,但其他實驗室的復現結果已證明,DeepSeek的推理方案可能足夠優秀了,優秀到不必做那種事。“僅靠純強化學習就可實現極高性能!”

      他還表示,目前很多同行正嘗試運用R1的開發方法,既增強現有LLM的類推理能力,又將其應用領域拓展至數學和編程之外。“R1成功引領了一場變革。”

      孫歡指出,對研究者來說,R1很強很好用。在做數據分析和可視化等科學任務時,R1的準確率并未遙遙領先,但它最好地平衡了性能與成本。

      資料來源:


      《世界科學》雜志版在售中 歡迎訂閱

      月刊定價

      15元/期

      全年訂閱價

      180元

      點擊左側圖片或以下方訂閱方式選購

      方式一

      掃描二維碼,“雜志鋪”訂閱有折扣~

      方式二

      全國各地郵局訂閱 郵發代號:4-263

      方式三

      機構訂閱,請撥打

      021-53300839;

      021-53300838

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      86年,總政要演長征的話劇,尤太忠卻怒道:不管是誰的指示都不演

      86年,總政要演長征的話劇,尤太忠卻怒道:不管是誰的指示都不演

      搜史君
      2026-02-15 07:00:08
      中美被爆黃海對峙,不到24小時,特朗普發聲:中國陣容太強大了

      中美被爆黃海對峙,不到24小時,特朗普發聲:中國陣容太強大了

      現代小青青慕慕
      2026-02-21 10:25:25
      反轉!釣魚大哥救了跳河的女高中生,對方轉9000感激,評論區炸鍋

      反轉!釣魚大哥救了跳河的女高中生,對方轉9000感激,評論區炸鍋

      火山詩話
      2026-02-20 07:58:23
      李兆會的18年復仇路

      李兆會的18年復仇路

      詩意世界
      2025-10-10 14:09:20
      美媒感慨:若不是中國還在反抗特朗普,幾乎全世界都向他投降了

      美媒感慨:若不是中國還在反抗特朗普,幾乎全世界都向他投降了

      娛樂小可愛蛙
      2026-02-20 20:22:59
      東契奇轟38+11仍無緣今日最佳!對不起,你碰到創紀錄的華子了

      東契奇轟38+11仍無緣今日最佳!對不起,你碰到創紀錄的華子了

      世界體育圈
      2026-02-21 14:08:27
      中俄伊軍演開始前最后一刻,伊朗也沒等來中國軍艦?

      中俄伊軍演開始前最后一刻,伊朗也沒等來中國軍艦?

      隨遇而安之心
      2026-02-20 23:11:13
      重磅傳聞!世界杯后阿爾瓦雷斯將加盟巴薩,鋒線新組合呼之欲出!

      重磅傳聞!世界杯后阿爾瓦雷斯將加盟巴薩,鋒線新組合呼之欲出!

      田先生籃球
      2026-02-20 20:15:52
      倫納德傷退!詹姆斯邊線球失誤!泰倫盧不滿湖人騙犯規

      倫納德傷退!詹姆斯邊線球失誤!泰倫盧不滿湖人騙犯規

      籃球教學論壇
      2026-02-21 14:59:11
      超越馬英九,蓋過洪秀柱,他才是臺灣藍營內最堅定的統派人物

      超越馬英九,蓋過洪秀柱,他才是臺灣藍營內最堅定的統派人物

      墨蘭史書
      2026-02-07 18:25:03
      這就是回家要脫褲子才能上床的原因!網友:看完天都塌了!

      這就是回家要脫褲子才能上床的原因!網友:看完天都塌了!

      夜深愛雜談
      2026-02-07 19:05:55
      大多數上海老人退休金并不高,主要表現是在68歲到80歲...

      大多數上海老人退休金并不高,主要表現是在68歲到80歲...

      白淺娛樂聊
      2026-02-18 17:18:38
      中國打造重機槍,不小心犯一個低級錯誤,結果卻意外造就世界之最

      中國打造重機槍,不小心犯一個低級錯誤,結果卻意外造就世界之最

      墨蘭史書
      2026-02-08 16:55:05
      今日晴好氣溫升,初七冷空氣伴雨水→

      今日晴好氣溫升,初七冷空氣伴雨水→

      上海預警發布
      2026-02-21 10:46:04
      一家三口春節返鄉途中突生變故:車輛拋錨,患病兒子離世……之后的事太暖心

      一家三口春節返鄉途中突生變故:車輛拋錨,患病兒子離世……之后的事太暖心

      臺州交通廣播
      2026-02-20 12:14:08
      C羅遭雙重打擊:射手榜被拉開差距,爭冠難了:聯賽排名第3

      C羅遭雙重打擊:射手榜被拉開差距,爭冠難了:聯賽排名第3

      足球狗說
      2026-02-20 17:14:18
      鄭麗文稱臺灣是“國家”,反對兩岸統一?喊話大陸:美國讓我過去

      鄭麗文稱臺灣是“國家”,反對兩岸統一?喊話大陸:美國讓我過去

      傲傲講歷史
      2026-01-26 17:46:47
      93年顧城殺妻后自盡,留下他極厭惡的兒子,如今活成他所愿的樣子

      93年顧城殺妻后自盡,留下他極厭惡的兒子,如今活成他所愿的樣子

      云霄紀史觀
      2026-01-26 20:03:44
      幸虧還沒結婚!一女生哭訴第一次去男友家過年,被他“冷落拋棄”

      幸虧還沒結婚!一女生哭訴第一次去男友家過年,被他“冷落拋棄”

      火山詩話
      2026-02-20 08:39:05
      斯大林死在地上10小時,滿身屎尿沒人管:那個讓世界害怕的人。

      斯大林死在地上10小時,滿身屎尿沒人管:那個讓世界害怕的人。

      房產衫哥
      2026-02-13 17:22:30
      2026-02-21 15:40:49
      世界科學 incentive-icons
      世界科學
      《世界科學》編輯部運營賬號
      1849文章數 26921關注度
      往期回顧 全部

      科技要聞

      智譜上市1月漲5倍,市值超越京東、快手

      頭條要聞

      在貝加爾湖遇難的3名中國游客身份已確認:系一家人

      頭條要聞

      在貝加爾湖遇難的3名中國游客身份已確認:系一家人

      體育要聞

      冬奧第一"海王"?一人和13國選手都有關系

      娛樂要聞

      鏢人反超驚蟄無聲拿下單日票房第二!

      財經要聞

      一覺醒來,世界大變,特朗普改新打法了

      汽車要聞

      比亞迪的“顏值擔當”來了 方程豹首款轎車路跑信息曝光

      態度原創

      親子
      教育
      時尚
      數碼
      藝術

      親子要聞

      假期別讓手機悄悄傷害孩子大腦!

      教育要聞

      新春走基層 | 慢飛天使捏出 “年的形狀”

      2026紐約秋冬時裝周,在春天開啟美的新故事!

      數碼要聞

      英特爾Bartlett Lake-S系列處理器陣容曝光:全大核、睿頻5.9GHz

      藝術要聞

      史洪生油畫作品

      無障礙瀏覽 進入關懷版