<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      再見,數據標注!騰訊發布R-Zero框架,讓AI自己訓練自己

      0
      分享至


      大數據文摘出品

      一個不再依賴人類數據標注的大模型訓練框架,它來了!

      由騰訊AI Lab與美國圣路易斯華盛頓大學聯合開發的新框架“R-Zero”,成功展示出大語言模型(LLM)如何靠自己訓練自己,不再需要人類提供任務或答案。


      論文地址: https://www.arxiv.org/pdf/2508.05004

      這個突破的核心,是徹底擺脫人類標注數據的依賴,靠模型之間的博弈,自動生成、篩選和吸收新的訓練內容。

      他們用強化學習的方法,讓兩個AI模型互相挑戰、不斷進化,從零開始構建出一個高質量的訓練體系。


      R-Zero采用的結構,是將一個基礎模型一分為二,分別扮演“挑戰者”和“解答者”兩個角色,分別訓練,但共同進化。

      挑戰者的目標是設計剛好夠難的問題,逼迫解答者必須進步;而解答者在解決這些問題中獲得獎勵和提升。

      “不是找到答案難,而是提出好問題難。”顯然,真正稀缺的是“好老師”,而不是“好學生”。

      R-Zero就是通過自動化產生“老師”,讓模型不斷面對新的、更難的考題,從而不斷突破原有水平。

      01 R-Zero的實驗結果

      R-Zero的實驗效果遠超預期,尤其是在推理能力方面,不同規模的開源大模型均出現明顯性能躍升


      騰訊測試了多個模型家族,包括Qwen3系列和OctoThinker,在基礎模型上僅通過R-Zero訓練,就讓推理能力顯著提升。

      例如,Qwen3-4B-Base在數學推理測試中得分平均提升+6.49分;Qwen3-8B-Base在三輪訓練后得分也提升了+5.51分。

      更重要的是,這種通過數學任務訓練得到的推理能力,可以成功遷移到通用推理任務上

      在MMLU-Pro和SuperGPQA等通用領域測試中,Qwen3-4B-Base同樣表現出+7.54分的躍升,說明R-Zero訓練的不只是技巧,而是底層能力。

      甚至在后續再用傳統標注數據微調時,經過R-Zero預訓練的模型也能表現得更好。

      對企業而言,R-Zero的“從零數據”方式尤其具有吸引力,因為許多垂直行業領域,壓根沒有高質量的大規模數據集可供使用


      騰訊的這項研究直接繞開了數據收集、人工標注這些最昂貴、最耗時的流程,變相打破了AI發展的最大天花板:人類知識和數據的邊界。

      02 但問題同樣存在

      盡管R-Zero在性能上令人振奮,但它也暴露出自我進化AI的核心風險:數據質量的失控

      研究者發現,隨著挑戰者不斷提出更復雜的問題,解答者給出的“多數票答案”正確率開始下降。


      第一輪訓練中,自動生成數據的準確率為79%,而到第三輪下降至63%

      相比之下,一個“強大而理想”的大模型如GPT-4,可以保持更高的正確率,這種落差說明自我進化的過程可能存在精度塌陷的風險。這是這個新范式面臨的最大瓶頸。

      目前論文成果只是概念驗證,要真正做到持續穩定進化,不出現性能平臺期,是接下來整個研究社區要攻克的難關。

      此外,R-Zero目前僅適用于“答案可驗證”的任務,如數學推理、科學問答等,其優勢來自于能夠清晰判斷“對”與“錯”。

      那在沒有“標準答案”的領域怎么辦?比如營銷文案、情感寫作、摘要生成?

      騰訊提出了未來的一種可能方向:引入第三個模型角色“驗證者”或“評論員”。

      驗證者將不再判斷對錯,而是評價內容的質量,從多個維度給予評分。

      如此一來,挑戰者繼續生成題目,解答者負責作答,而驗證者則提供反饋。三方協同進化,形成更復雜、更全面的智能結構。

      或許會推動AI從“邏輯能力”邁向“主觀判斷”,不僅懂計算,更懂人類世界的模糊與語境。

      注:頭圖AI生成

      作者長期關注 AI 產業與學術,歡迎對這些方向感興趣的朋友添加微信Q1yezi,共同交流行業動態與技術趨勢!

      GPU 訓練特惠!

      H100/H200 GPU算力按秒計費,平均節省開支30%以上!

      掃碼了解詳情?

      點「贊」的人都變好看了哦!

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      伊朗國防部隊: 進入全面備戰狀態

      伊朗國防部隊: 進入全面備戰狀態

      每日經濟新聞
      2026-02-19 16:07:49
      意大利知名地標“愛情拱門”突然崩塌,永久消失,當地市長:曾有成千上萬的情侶來打卡,旅游業遭“毀滅性打擊”

      意大利知名地標“愛情拱門”突然崩塌,永久消失,當地市長:曾有成千上萬的情侶來打卡,旅游業遭“毀滅性打擊”

      大風新聞
      2026-02-17 19:26:03
      南京一商場晚上突發火災,看電影的觀眾緊急逃生,應急部門:火已撲滅,無人傷亡

      南京一商場晚上突發火災,看電影的觀眾緊急逃生,應急部門:火已撲滅,無人傷亡

      極目新聞
      2026-02-19 12:49:48
      浙江一地通知:即日起全域禁止銷售

      浙江一地通知:即日起全域禁止銷售

      都市快報橙柿互動
      2026-02-19 17:58:37
      后續,江蘇一家人吃飯父親酒后掀桌,兒子透露更多,以后不回家了

      后續,江蘇一家人吃飯父親酒后掀桌,兒子透露更多,以后不回家了

      離離言幾許
      2026-02-18 23:24:35
      第3金還要耐心等待!天公不作美,中國隊冬奧熱門沖金項再次延期

      第3金還要耐心等待!天公不作美,中國隊冬奧熱門沖金項再次延期

      全景體育V
      2026-02-19 10:10:31
      南方大米產量第一,為啥超市里大部分還是東北米?南方米去哪了?

      南方大米產量第一,為啥超市里大部分還是東北米?南方米去哪了?

      天下十三洲獵奇
      2026-02-18 23:53:55
      突發!美國出手封殺多家中國機構

      突發!美國出手封殺多家中國機構

      芯火相承
      2026-02-19 10:02:18
      42歲王濛再破天花板!退役12年,再次讓李琰和整個冰壇“沉默”了

      42歲王濛再破天花板!退役12年,再次讓李琰和整個冰壇“沉默”了

      翰飛觀事
      2026-02-16 11:29:39
      林丹在西班牙過年,別墅內景曝光,全家人與朋友除夕吃海鮮大餐

      林丹在西班牙過年,別墅內景曝光,全家人與朋友除夕吃海鮮大餐

      手工制作阿殲
      2026-02-19 11:58:33
      再立新功!俄價值超1.2億美元的S-300VM與道爾防空系統遭摧毀

      再立新功!俄價值超1.2億美元的S-300VM與道爾防空系統遭摧毀

      軍迷戰情室
      2026-02-18 23:58:09
      2018年,張扣扣向王家復仇,唯獨不殺王自新妻子:她有不死的理由

      2018年,張扣扣向王家復仇,唯獨不殺王自新妻子:她有不死的理由

      米果說識
      2026-02-19 09:32:34
      凌晨發送恐嚇信息?桔子酒店涉事門店:已報警,非員工發送

      凌晨發送恐嚇信息?桔子酒店涉事門店:已報警,非員工發送

      大風新聞
      2026-02-19 09:46:23
      12死!湖北煙花店爆炸:店主身份被扒,大量內幕披露,知情者發聲

      12死!湖北煙花店爆炸:店主身份被扒,大量內幕披露,知情者發聲

      博士觀察
      2026-02-19 00:06:41
      2月17日俄烏最新: 2.5 年來的最大戰果

      2月17日俄烏最新: 2.5 年來的最大戰果

      西樓飲月
      2026-02-17 20:49:47
      湖北12死煙花爆燃:死者身份公布,大量內部照流出,責任人被控制

      湖北12死煙花爆燃:死者身份公布,大量內部照流出,責任人被控制

      博士觀察
      2026-02-19 11:41:09
      尹錫悅庭審細節曝光:被判無期只瞥了一眼法官,離庭時與律師相視一笑!法官闡述為何不判死刑

      尹錫悅庭審細節曝光:被判無期只瞥了一眼法官,離庭時與律師相視一笑!法官闡述為何不判死刑

      紅星新聞
      2026-02-19 17:28:30
      太尷尬了!大年初一,上海網友哭訴稱大門被鄰居貼兩張“大字報”

      太尷尬了!大年初一,上海網友哭訴稱大門被鄰居貼兩張“大字報”

      火山詩話
      2026-02-19 15:05:12
      襄陽宜城煙花店才50多平米,要了12條人命!最害人的,或是防盜網

      襄陽宜城煙花店才50多平米,要了12條人命!最害人的,或是防盜網

      火山詩話
      2026-02-19 13:50:13
      坐3.6億飛機,戴1000萬名表,拿5000萬炒股的秦奮究竟什么背景

      坐3.6億飛機,戴1000萬名表,拿5000萬炒股的秦奮究竟什么背景

      涵豆說娛
      2026-01-19 17:21:55
      2026-02-19 18:43:00
      大數據文摘 incentive-icons
      大數據文摘
      專注大數據,每日有分享!
      6825文章數 94529關注度
      往期回顧 全部

      科技要聞

      怒燒45億,騰訊字節阿里決戰春節

      頭條要聞

      媒體:高市2.0 日本政局發生了意料之中的變動

      頭條要聞

      媒體:高市2.0 日本政局發生了意料之中的變動

      體育要聞

      中國隊第二金!徐夢桃贏女子空中技巧兩連冠 邵琪銅牌

      娛樂要聞

      明星過年百態!黃曉明等現身三亞

      財經要聞

      面條火腿香菇醬!上市公司這些年請你吃

      汽車要聞

      量產甲醇插混 吉利銀河星耀6甲醇插混版申報圖

      態度原創

      手機
      數碼
      游戲
      房產
      藝術

      手機要聞

      全球限14臺:Caviar推“愛之翼”限量iPhone 17 Pro/Max

      數碼要聞

      內存價格崩了 國內最高降價20%:去華強北市場揭秘實情!

      《巫師》劇情設計師:初代結局受到了公司高層干預

      房產要聞

      頂豪搶房潮席卷全國! 中旅馥棠公館項目395㎡大平層加推入市!

      藝術要聞

      震驚!安徒生竟是畫家,他的田園生活太美了!

      無障礙瀏覽 進入關懷版