![]()
大數(shù)據(jù)文摘出品
一個不再依賴人類數(shù)據(jù)標注的大模型訓練框架,它來了!
由騰訊AI Lab與美國圣路易斯華盛頓大學聯(lián)合開發(fā)的新框架“R-Zero”,成功展示出大語言模型(LLM)如何靠自己訓練自己,不再需要人類提供任務或答案。
![]()
論文地址: https://www.arxiv.org/pdf/2508.05004
這個突破的核心,是徹底擺脫人類標注數(shù)據(jù)的依賴,靠模型之間的博弈,自動生成、篩選和吸收新的訓練內容。
他們用強化學習的方法,讓兩個AI模型互相挑戰(zhàn)、不斷進化,從零開始構建出一個高質量的訓練體系。
![]()
R-Zero采用的結構,是將一個基礎模型一分為二,分別扮演“挑戰(zhàn)者”和“解答者”兩個角色,分別訓練,但共同進化。
挑戰(zhàn)者的目標是設計剛好夠難的問題,逼迫解答者必須進步;而解答者在解決這些問題中獲得獎勵和提升。
“不是找到答案難,而是提出好問題難。”顯然,真正稀缺的是“好老師”,而不是“好學生”。
R-Zero就是通過自動化產生“老師”,讓模型不斷面對新的、更難的考題,從而不斷突破原有水平。
01 R-Zero的實驗結果
R-Zero的實驗效果遠超預期,尤其是在推理能力方面,不同規(guī)模的開源大模型均出現(xiàn)明顯性能躍升。
![]()
騰訊測試了多個模型家族,包括Qwen3系列和OctoThinker,在基礎模型上僅通過R-Zero訓練,就讓推理能力顯著提升。
例如,Qwen3-4B-Base在數(shù)學推理測試中得分平均提升+6.49分;Qwen3-8B-Base在三輪訓練后得分也提升了+5.51分。
更重要的是,這種通過數(shù)學任務訓練得到的推理能力,可以成功遷移到通用推理任務上。
在MMLU-Pro和SuperGPQA等通用領域測試中,Qwen3-4B-Base同樣表現(xiàn)出+7.54分的躍升,說明R-Zero訓練的不只是技巧,而是底層能力。
甚至在后續(xù)再用傳統(tǒng)標注數(shù)據(jù)微調時,經過R-Zero預訓練的模型也能表現(xiàn)得更好。
對企業(yè)而言,R-Zero的“從零數(shù)據(jù)”方式尤其具有吸引力,因為許多垂直行業(yè)領域,壓根沒有高質量的大規(guī)模數(shù)據(jù)集可供使用。
![]()
騰訊的這項研究直接繞開了數(shù)據(jù)收集、人工標注這些最昂貴、最耗時的流程,變相打破了AI發(fā)展的最大天花板:人類知識和數(shù)據(jù)的邊界。
02 但問題同樣存在
盡管R-Zero在性能上令人振奮,但它也暴露出自我進化AI的核心風險:數(shù)據(jù)質量的失控。
研究者發(fā)現(xiàn),隨著挑戰(zhàn)者不斷提出更復雜的問題,解答者給出的“多數(shù)票答案”正確率開始下降。
![]()
第一輪訓練中,自動生成數(shù)據(jù)的準確率為79%,而到第三輪下降至63%。
相比之下,一個“強大而理想”的大模型如GPT-4,可以保持更高的正確率,這種落差說明自我進化的過程可能存在精度塌陷的風險。這是這個新范式面臨的最大瓶頸。
目前論文成果只是概念驗證,要真正做到持續(xù)穩(wěn)定進化,不出現(xiàn)性能平臺期,是接下來整個研究社區(qū)要攻克的難關。
此外,R-Zero目前僅適用于“答案可驗證”的任務,如數(shù)學推理、科學問答等,其優(yōu)勢來自于能夠清晰判斷“對”與“錯”。
那在沒有“標準答案”的領域怎么辦?比如營銷文案、情感寫作、摘要生成?
騰訊提出了未來的一種可能方向:引入第三個模型角色“驗證者”或“評論員”。
驗證者將不再判斷對錯,而是評價內容的質量,從多個維度給予評分。
如此一來,挑戰(zhàn)者繼續(xù)生成題目,解答者負責作答,而驗證者則提供反饋。三方協(xié)同進化,形成更復雜、更全面的智能結構。
或許會推動AI從“邏輯能力”邁向“主觀判斷”,不僅懂計算,更懂人類世界的模糊與語境。
注:頭圖AI生成
作者長期關注 AI 產業(yè)與學術,歡迎對這些方向感興趣的朋友添加微信Q1yezi,共同交流行業(yè)動態(tài)與技術趨勢!
GPU 訓練特惠!
H100/H200 GPU算力按秒計費,平均節(jié)省開支30%以上!
掃碼了解詳情?
點「贊」的人都變好看了哦!
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.