![]()
這項由中科院自動化研究所邢興潤、張家俊與小紅書技術團隊合作完成的突破性研究發表于2025年12月,論文編號為arXiv:2512.03442v1。感興趣的讀者可以通過這個編號查詢完整的研究論文。
當我們學習一門新技能時,比如學做菜,我們不會漫無目的地翻看所有食譜。相反,我們會主動選擇那些看起來有趣、難度適中、能教給我們新東西的菜譜。我們會跳過那些太簡單或者看不懂的內容,專注于那些"正好超出我們當前能力一點點"的挑戰。這種主動選擇學習內容的能力,正是人類學習如此高效的秘密。
然而,目前的AI大語言模型卻完全不是這樣學習的。它們就像一個被迫按照固定菜譜順序學做菜的學徒,必須從第一頁開始,逐字逐句地"啃"完整本食譜,無論內容是否對自己有用。這種被動的學習方式不僅效率低下,更重要的是,當遇到需要深度推理的復雜問題時,這些AI往往表現得力不從心。
為了解決這個問題,中科院的研究團隊開發了一個名為"PretrainZero"的革命性系統。這個系統最大的突破在于:它是世界上第一個能夠讓AI像人類一樣"主動學習"的預訓練框架。更令人震驚的是,它完全不需要人工標注的數據,就能讓AI自己從維基百科這樣的通用文本中挑選有價值的內容來學習。
一、當前AI學習的根本問題:被動灌輸vs主動探索
要理解這項研究的重要意義,我們需要先了解當前AI訓練面臨的核心困境。
目前訓練大語言模型主要有兩個階段,就像培養一個專業廚師的過程。第一階段叫"預訓練",相當于讓AI讀遍所有的基礎食譜書,學會基本的語言理解能力。第二階段叫"后訓練",通過強化學習讓AI學會解決特定問題,比如數學題或編程任務,就像讓廚師專門訓練做法式料理或中式點心。
預訓練階段雖然能讓AI獲得廣泛的知識,但就像讓學生死記硬背教科書一樣,AI并不真正理解如何運用這些知識進行復雜推理。而后訓練階段雖然能讓AI在特定任務上表現出色,但面臨一個嚴重問題:需要大量經過專家驗證的高質量數據。
研究團隊形象地將這個問題稱為"驗證數據壁壘"。比如,要訓練AI解數學題,就需要大量帶有標準答案的數學題;要訓練AI寫代碼,就需要大量經過驗證的代碼樣本。這就像培訓一個廚師,必須有經驗豐富的大廚在旁邊不斷糾正和指導。這種方式雖然有效,但成本極高,而且很難擴展到更廣泛的推理領域。
更關鍵的是,現有的強化學習方法只能在那些有明確對錯標準的特定領域工作,比如數學計算或代碼編寫。但對于更廣泛的常識推理、文本理解等任務,我們很難找到這樣明確的驗證標準。這就導致AI的推理能力被嚴重限制在幾個狹窄的專業領域內。
二、PretrainZero的核心創新:讓AI學會"主動挑食"
PretrainZero最令人驚嘆的創新,就是讓AI學會了"主動挑食"。就像一個聰明的學生不會盲目地從頭到尾背誦整本教科書,而是會主動識別哪些內容對自己最有價值一樣,PretrainZero讓AI獲得了這種主動學習的能力。
這個系統的工作原理可以用一個有趣的比喻來理解:把AI想象成一個學習小組里的兩個角色。第一個角色是"出題者",負責從課本中挑選練習題;第二個角色是"答題者",負責解答這些題目。但這里有個巧妙的設計:出題者的目標是找到那些"剛好難倒答題者"的題目,而答題者的目標是正確回答盡可能多的問題。
具體來說,PretrainZero面對一段維基百科文本時,會啟動一個雙重過程。首先,"出題者"會掃描這段文本,主動選擇其中最有信息量的詞匯或短語進行遮蓋,就像在課文中挖空白一樣。這個選擇過程不是隨機的,而是經過深思熟慮的:它會避開那些太簡單或太難的內容,專注于那些具有適當挑戰性的部分。
接著,"答題者"看到這個挖空的文本后,需要通過推理來填補空白。關鍵是,它不能簡單地猜測答案,而必須展示完整的推理過程,就像學生在考試中不僅要寫出答案,還要寫出解題步驟一樣。這個推理過程往往包含多個步驟的邏輯分析,確保AI真正理解了文本內容,而不是簡單地記憶答案。
這種設計的巧妙之處在于創造了一個自我進化的學習循環。當答題者答對了太多問題時,出題者就會選擇更有挑戰性的內容;當答題者頻繁答錯時,出題者就會適當降低難度。這樣,整個系統始終保持在最適合學習的"甜蜜點"上,既不會因為太簡單而浪費時間,也不會因為太難而無法學習。
三、技術實現:巧妙的對抗式學習機制
PretrainZero的技術實現采用了一個精巧的對抗式學習框架,就像兩個棋手在博弈中共同提高技藝一樣。
在傳統的AI訓練中,模型只能被動接受固定的訓練任務,就像學生只能按照老師事先準備好的習題冊做練習。而PretrainZero則讓同一個AI模型扮演兩個角色:既是老師又是學生,既是出題者又是答題者。這種設計讓AI獲得了前所未有的主動學習能力。
當系統遇到一段文本時,比如關于古羅馬歷史的維基百科文章,"出題者"角色會仔細分析這段文本,尋找最有價值的學習目標。它不會簡單地隨機選擇單詞進行遮蓋,而是會考慮多個因素:這個詞匯是否包含重要信息?根據上下文推斷這個詞匯的難度如何?這個詞匯是否能夠通過邏輯推理得出答案?
經過這種智能篩選,出題者可能會選擇遮蓋"凱撒"這個關鍵人物名稱,或者"公元前44年"這個重要時間點,而不是"的"、"在"這樣的功能詞匯。這種選擇確保了學習過程始終聚焦于最有價值的內容。
當"答題者"角色接收到這個挖空文本后,它需要展開詳細的推理過程。比如,面對"[遮蓋詞]在公元前44年遇刺身亡,結束了羅馬共和國的歷史"這樣的句子,答題者不會簡單地輸出"凱撒",而是會進行一系列推理:首先分析時間背景,然后考慮歷史背景,最后得出這個人物最可能是凱撒,并詳細解釋推理過程。
這種對抗式訓練的精妙之處在于,兩個角色的目標是相互矛盾的。出題者希望找到能夠"難倒"答題者的問題,而答題者希望正確回答盡可能多的問題。這種矛盾推動了持續的進步:當答題者變得更強時,出題者也必須變得更聰明;當出題者找到更有挑戰性的問題時,答題者也被迫提升自己的推理能力。
四、實驗驗證:顯著超越傳統方法的推理能力
研究團隊在多個基礎模型上驗證了PretrainZero的效果,結果令人印象深刻。他們選擇了不同規模的語言模型進行測試,包括30億到300億參數的各種模型,就像在不同年級的學生身上驗證同一種教學方法的效果。
在Qwen3-4B基礎模型上,PretrainZero在三個重要的推理基準測試中都取得了顯著提升。在MMLU-Pro這個綜合推理測試中,性能提升了8.43分;在SuperGPQA這個研究生級別的多學科測試中,提升了5.96分;在數學推理的平均表現上,更是提升了10.60分。這些提升幅度在AI領域屬于非常顯著的進步。
更重要的是,研究團隊還驗證了PretrainZero訓練出的模型在后續專門任務訓練中的表現。就像一個通過廣泛閱讀提高了基礎能力的學生,在學習特定科目時也會表現得更出色。實驗表明,經過PretrainZero預訓練的模型在接受專門的數學或科學推理訓練后,最終性能比傳統方法訓練的模型高出2到3分。
特別值得注意的是訓練過程中模型推理能力的逐步提升。研究團隊觀察到,隨著訓練的進行,模型生成的推理過程越來越詳細和準確。初期,模型可能只能進行簡單的填空,但隨著訓練的深入,它開始展現出多步驟的邏輯推理能力,能夠從多個角度分析問題,考慮不同的可能性,最終得出合理的結論。
研究團隊還發現了一個有趣的現象:盡管訓練過程中模型的回答變得更長更詳細,但在實際應用中,模型的推理效率反而提高了。這說明模型學會了在需要深度思考時進行充分推理,而在處理簡單問題時保持簡潔,顯示出了類似人類的智能推理模式。
五、與傳統方法的關鍵差異:從被動接受到主動探索
PretrainZero與傳統AI訓練方法的差異,就像主動學習的優秀學生與被動聽講的普通學生之間的差異一樣根本。
傳統的AI預訓練就像讓學生按順序閱讀整套百科全書,不管內容是否對自己有用,都必須逐字逐句地學習。這種方法雖然能讓AI獲得廣泛的知識覆蓋,但學習效率極低,而且很難培養出深度推理能力。更重要的是,這種被動學習方式無法讓AI學會區分什么是重要信息,什么是次要信息。
傳統的強化學習后訓練則面臨另一個極端:需要大量專家標注的高質量數據,就像需要一對一的私人導師時時刻刻進行指導。這種方法雖然在特定任務上效果顯著,但成本極高,而且很難擴展到更廣泛的推理領域。
PretrainZero的革命性突破在于找到了這兩種方法之間的最佳平衡點。它既利用了預訓練階段豐富而廉價的文本數據,又實現了強化學習的深度推理訓練,關鍵是整個過程完全不需要人工標注。這就像培養出了一個既有廣博知識又有深度思考能力的全才學生,而且這個培養過程不需要昂貴的一對一輔導。
另一個重要差異在于學習目標的設定。傳統方法的學習目標是固定的,比如預測下一個詞匯或者完成特定格式的任務。而PretrainZero的學習目標是動態變化的,隨著模型能力的提升,學習任務的難度也會相應調整。這種適應性學習確保了模型始終處于最佳學習狀態,既不會因為任務太簡單而停滯不前,也不會因為任務太難而無法進步。
六、實際應用前景:重塑AI能力邊界
PretrainZero的成功不僅是學術界的突破,更預示著AI應用領域的根本性變革。這種主動學習能力的獲得,將讓AI在許多之前無法勝任的場景中發揮重要作用。
在教育領域,PretrainZero式的AI可以成為真正智能的個人導師。它不會像傳統的教學軟件那樣機械地按照預設程序授課,而是能夠主動識別學生的知識盲點,自動調整教學內容的難度和重點,就像一位經驗豐富的老師能夠根據學生的反應靈活調整教學策略一樣。
在科研領域,這種主動學習能力將讓AI成為研究人員的得力助手。面對海量的科學文獻,AI不再需要人工標注哪些內容重要,而是能夠自主識別最有價值的信息,主動發現不同研究之間的潛在聯系,甚至可能提出新的研究假設。這將大大加速科學發現的進程。
在內容創作領域,PretrainZero訓練的AI將具備更強的創造性推理能力。它不僅能夠生成文本,更能夠進行深度思考,分析不同觀點,探索創新角度,創作出更有深度和洞察力的內容。
特別值得期待的是,這種技術將讓AI的推理能力從狹窄的專業領域擴展到更廣泛的常識推理。目前的AI雖然在數學、編程等有明確對錯標準的領域表現出色,但在需要常識判斷、道德推理、創意思考等更復雜的人類智能活動中仍然表現有限。PretrainZero開辟的這條技術路徑,為解決這些挑戰提供了新的可能。
七、技術挑戰與未來發展方向
盡管PretrainZero取得了突破性進展,但研究團隊也坦誠地指出了當前技術面臨的挑戰和限制。
首先是計算效率的問題。由于需要同時訓練"出題者"和"答題者"兩個角色,而且每個角色都需要生成復雜的推理過程,PretrainZero的計算需求比傳統方法更高。這就像培養一個既會出題又會答題的全能學生,需要投入更多的教育資源。研究團隊正在探索各種優化方法,包括更高效的模型架構和訓練策略。
其次是學習穩定性的挑戰。在對抗式學習過程中,出題者和答題者的能力必須保持相對平衡,否則可能出現一方壓倒另一方的情況。比如,如果出題者變得過于"刁鉆",可能會選擇一些無法通過合理推理得出答案的問題,導致整個學習過程崩潰。研究團隊開發了多種平衡機制來確保訓練過程的穩定性。
第三個挑戰是如何評估學習質量。由于PretrainZero是一個完全自主的學習系統,如何確保它學到的是有價值的知識而不是錯誤的關聯,這需要更精細的評估方法。研究團隊正在開發更全面的評估框架,不僅關注最終任務的表現,也要評估推理過程的合理性和知識的準確性。
展望未來,研究團隊計劃在幾個方向上繼續深化這項技術。他們希望將PretrainZero的主動學習機制擴展到多模態學習中,讓AI不僅能從文本中主動學習,也能從圖像、音頻等其他類型的數據中主動提取知識。另外,他們也在探索如何將這種主動學習能力應用到持續學習中,讓AI能夠在不斷變化的環境中持續適應和進步。
說到底,PretrainZero為我們展示了一種全新的AI訓練哲學:不是被動地灌輸知識,而是主動地探索和學習。這種轉變不僅提升了AI的推理能力,更重要的是,它讓AI獲得了類似人類的學習智慧。當AI學會了如何學習,它就真正開始走向智能的本質。
這項研究的成功證明,我們不需要等待更大的模型或更多的數據,通過巧妙的算法設計,就能讓現有的AI系統獲得質的提升。這為整個AI領域提供了新的發展思路:與其單純追求模型規模的擴大,不如專注于讓AI學會更智能的學習方式。
歸根結底,PretrainZero不僅僅是一個技術突破,更是對AI發展方向的深刻思考。它提醒我們,真正的智能不在于記住多少知識,而在于能夠主動地、有選擇地從環境中學習,并運用這些知識進行創造性的思考。有興趣深入了解這項研究細節的讀者,可以通過arXiv:2512.03442v1查詢完整的技術論文。
Q&A
Q1:PretrainZero如何實現AI的主動學習能力?
A:PretrainZero讓同一個AI模型扮演兩個角色:出題者負責從文本中挑選有挑戰性的內容進行遮蓋,答題者負責通過推理填補空白。出題者會主動選擇那些既不太簡單也不太難的內容,而答題者必須展示完整的推理過程。這種對抗式設計讓AI學會了像人類一樣主動選擇學習內容。
Q2:PretrainZero相比傳統AI訓練方法有什么優勢?
A:傳統方法要么是被動學習所有內容(預訓練),要么需要大量人工標注數據(強化學習后訓練)。PretrainZero既利用了廉價的通用文本數據,又實現了深度推理訓練,關鍵是完全不需要人工標注。它還能動態調整學習難度,確保AI始終處于最佳學習狀態,這比固定難度的傳統方法更高效。
Q3:PretrainZero訓練出的AI模型性能提升有多大?
A:在Qwen3-4B基礎模型上,PretrainZero在MMLU-Pro綜合推理測試中提升了8.43分,在SuperGPQA研究生級測試中提升了5.96分,數學推理平均提升了10.60分。更重要的是,經過PretrainZero預訓練的模型在后續專門任務訓練中,最終性能比傳統方法訓練的模型還要高出2到3分。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.