網易首頁 > 網易號 > 正文申請入駐

微軟AI首次讓小型語言模型變身超級推理機：8B參數媲美600B巨無霸

2025-12-05 23:09:15　來源: 科技行者

北京舉報

分享至

這項由北京大學劉子涵、微軟亞洲研究院鄭舜等研究團隊共同完成的突破性研究，發表于2025年10月的arXiv預印本，論文編號為arXiv:2510.17498v1。對于那些希望深入了解技術細節的讀者，可以通過這個編號查詢完整的學術論文。

在人工智能領域，有一個長期困擾研究者的難題：為什么小型AI模型在面對復雜推理任務時總是力不從心？就好比一個聰明但經驗不足的學生，雖然基礎知識扎實，但在解決奧數競賽題目時卻屢屢碰壁。傳統觀點認為，要想獲得強大的推理能力，就必須訓練更大規模的模型，這就像認為只有博士生才能解決復雜問題一樣。

然而，微軟亞洲研究院的研究團隊卻提出了一個顛覆性的觀點：即使是相對較小的AI模型，只要給它足夠的時間和正確的方法來"深度思考"，同樣可以解決那些看似不可能完成的復雜問題。這就像讓一個高中生通過反復思考、驗證和修正，最終也能解出大學生才能解決的難題。

研究團隊將他們的方法命名為"深度自進化推理"（Deep Self-Evolving Reasoning，簡稱DSER）。這個名字聽起來很學術，但它的核心思想卻非常直觀。設想你在解決一道特別困難的數學題，傳統方法是一次性給出答案，要么對要么錯。而DSER的方法則是讓AI模型像人類學生一樣，先給出一個初步答案，然后自己檢查這個答案是否正確，如果發現問題就重新思考和修正，然后再次檢查，如此反復循環，直到找到正確答案為止。

這種方法的妙處在于，它不依賴于模型每次驗證和修正都必須完美無缺。就像擲硬幣一樣，雖然單次結果具有隨機性，但如果改進的概率哪怕只是略微超過退步的概率，經過足夠多次的嘗試，最終還是會朝著正確方向發展。研究團隊用數學中的馬爾科夫鏈理論證明了這種方法的理論基礎，就像證明了為什么堅持朝著大致正確的方向走，最終總能到達目的地一樣。

為了驗證這個想法，研究團隊選擇了一個只有80億參數的AI模型進行實驗。這個模型的規模相比目前最先進的模型來說是相當小的，就像拿一臺普通筆記本電腦去挑戰超級計算機一樣。他們測試的題目是美國數學邀請賽（AIME）2024和2025年的競賽題目，這些題目的難度相當于高中數學競賽的最高水平，即使是數學專業的大學生也需要仔細思考才能解答。

實驗結果令人震驚。在常規方法下，這個80億參數的小模型面對最困難的9道題目時完全束手無策，就像一個普通學生面對奧數競賽的壓軸題一樣。但是，當使用DSER方法后，這個小模型竟然成功解決了其中的5道題目。更令人驚訝的是，通過多次并行運行這種深度思考過程，小模型在整體表現上甚至超越了它的"老師"——一個擁有6000億參數的超大模型。

這就好比一個高中生通過反復思考和自我修正，最終在數學競賽中擊敗了博士生導師。這種現象的背后蘊含著深刻的道理：智慧不僅僅來自于知識的數量，更來自于思考的深度和方法的正確性。

研究團隊是如何實現這個看似不可能的突破的呢？他們的方法可以用一個簡單的比喻來理解。設想你在解決一個復雜的拼圖游戲，傳統的AI方法就像一次性把所有拼片放到正確位置，成功率很低。而DSER方法則像是這樣一個過程：首先隨意拼一個大概的形狀，然后檢查哪些地方不對，調整那些明顯錯誤的拼片，再次檢查和調整，如此反復。雖然每次調整不一定都是正確的，但只要正確調整的次數稍微多于錯誤調整，最終就能完成整個拼圖。

這種方法的核心在于三個簡單而強大的步驟，這三個步驟就像一個永不停歇的循環。首先是"求解"步驟，AI模型針對問題給出一個初步答案，就像學生第一次嘗試解題一樣。然后是"驗證"步驟，模型檢查自己的答案是否合理，尋找可能存在的錯誤，這就像學生檢查自己的計算過程一樣。最后是"改進"步驟，基于驗證中發現的問題，模型嘗試給出一個更好的答案，就像學生根據發現的錯誤重新解題一樣。

這個循環會重復進行很多次，有時候需要幾十次甚至上百次的迭代。在某些特別困難的問題上，研究團隊讓模型進行了80輪這樣的循環思考，消耗了大約1000萬個推理步驟，這相當于讓一個學生連續思考幾個小時來解決一道超難題目。

研究團隊還發現了一個有趣的現象：即使在某些情況下，模型退步的概率比進步的概率更高，通過同時運行多個這樣的思考過程，仍然可以通過"投票"的方式得到正確答案。這就像讓多個學生獨立解決同一道題目，雖然每個學生都可能犯錯，但如果大多數學生的答案指向同一個方向，這個答案往往是正確的。

更重要的是，這種方法揭示了當前AI推理能力的一些根本限制。通過詳細分析模型在驗證和改進過程中的表現，研究團隊發現了現有開源推理模型的幾個關鍵弱點。這些發現為未來開發更強大的AI推理系統指明了方向，就像醫生通過診斷發現病因，從而找到了治療方案一樣。

在技術實現層面，研究團隊使用了非常簡潔的提示詞來引導模型進行自我驗證和改進。驗證提示詞要求模型逐步檢查給定解答的正確性，提供簡短的驗證報告，包含解答的關鍵點和發現的錯誤，最后嚴格按照格式給出判斷。改進提示詞則要求模型根據之前的解答和驗證報告，重新仔細考慮問題并提供修正后的解答。這種簡潔而有效的設計體現了"大道至簡"的哲學思想。

實驗結果表明，DSER方法不僅能解決之前無法解決的難題，還能整體提升模型的推理性能。在AIME 2024測試中，準確率從82.8%提升到89.3%，在AIME 2025測試中，準確率從74.4%提升到83.4%。這種提升不僅體現在解決新問題的能力上，還體現在處理各種難度問題的穩定性上。

研究團隊還將他們的方法與之前的一些類似方法進行了對比。他們發現，傳統的驗證-改進框架往往過分依賴于準確的驗證能力，當模型的驗證能力不夠強時，容易過早終止思考過程或者被錯誤的驗證結果誤導。而DSER方法通過弱化對單次驗證準確性的依賴，轉而依靠統計意義上的改進趨勢，展現出了更強的魯棒性和適用性。

這項研究的意義遠不止于技術層面的突破。它證明了一個重要觀點：在人工智能發展的道路上，并不是只有增加模型規模這一條路可走。通過設計更聰明的推理方法，我們可以讓相對較小的模型展現出驚人的能力。這就像證明了通過正確的訓練方法，業余選手也能在某些方面挑戰專業選手一樣。

從實用角度來看，這項研究開辟了一條用計算時間換取模型能力的新路徑。對于許多實際應用場景，用戶寧愿等待更長時間來獲得更準確的結果，而不是部署一個體積龐大、成本高昂的超大模型。這種權衡在許多領域都是非常有價值的，比如在線教育、智能客服、法律咨詢等需要準確推理但對實時性要求不是特別嚴格的場景。

研究團隊通過詳細的案例分析，展示了DSER方法是如何一步步解決一道復雜幾何題的。在這個案例中，模型經歷了80輪迭代，從最初的錯誤答案逐漸修正，最終找到了正確解答。這個過程就像看著一個學生從完全不會到豁然開朗的完整學習過程，充分展現了深度思考的威力。

值得注意的是，這種方法也暴露了當前AI模型的一些根本性限制。在某些極其困難的問題上，即使經過大量的迭代，模型仍然無法找到正確答案。這提醒我們，雖然DSER方法是一個重要突破，但它并不是萬能的解決方案。就像再好的學習方法也無法讓所有人都成為天才一樣，技術進步是一個漸進的過程。

研究團隊還探討了這種方法對未來AI訓練的啟示。他們指出，傳統的強化學習訓練往往只關注最終答案的正確性，而忽略了推理過程的質量。DSER方法的成功表明，我們需要設計新的訓練目標，明確提升模型的自我驗證能力和改進傾向，而不僅僅是追求單次推理的準確性。

從更廣闊的視角來看，這項研究體現了人工智能發展的一個重要趨勢：從追求模型規模的粗放式發展，轉向追求方法精巧的集約式發展。這種轉變不僅有助于降低AI技術的使用門檻和成本，還能讓更多的研究團隊和組織參與到AI技術的創新中來。

研究的局限性也值得關注。DSER方法需要消耗大量的計算資源進行多輪迭代，這在某些對響應速度要求很高的應用場景中可能不太適用。此外，這種方法目前主要在數學推理任務上得到了驗證，在其他類型的推理任務上的效果還需要進一步探索。

展望未來，這項研究為AI推理能力的提升開辟了多個新的研究方向。研究團隊建議，未來的工作可以專注于開發更精確的自我驗證算法，設計更高效的改進策略，以及將這種深度思考的理念集成到模型的訓練過程中。這些方向的探索有望進一步縮小開源模型與商業模型之間的性能差距。

總的來說，這項研究以一種優雅而實用的方式證明了一個簡單而深刻的道理：在追求智能的道路上，深度思考往往比龐大規模更為重要。通過讓AI模型學會像人類一樣反復思考、驗證和改進，我們不僅能夠提升它們解決復雜問題的能力，還能為構建更加智能、高效和可及的人工智能系統奠定基礎。

這個發現的重要性不僅在于技術層面的突破，更在于它為AI民主化指明了一條新路徑。當小型模型也能通過巧妙的方法展現出強大的推理能力時，AI技術將不再是少數大公司的專利，而可能成為更多研究者和開發者手中的有力工具。這種技術的普及化對于推動整個人工智能領域的發展具有深遠的意義。

研究團隊在論文的最后部分還提供了詳細的實驗數據和案例分析，感興趣的技術人員可以通過這些資料深入了解DSER方法的具體實現細節。對于那些希望在自己的項目中應用類似方法的開發者來說，這些信息將是非常寶貴的參考資料。

Q&A

Q1：深度自進化推理DSER是什么原理？

A：DSER讓AI模型像學生解難題一樣，先給出初步答案，然后自己檢查是否正確，發現問題就重新思考修正，如此反復循環。關鍵在于只要改進概率略大于退步概率，經過足夠多次嘗試就能找到正確答案，就像擲硬幣雖然單次隨機但長期有規律一樣。

Q2：80億參數的小模型怎么能擊敗6000億參數的大模型？

A：這并不是模型本身更聰明，而是通過深度思考的方法彌補了規模不足。就像高中生通過反復思考能解出博士生的題目一樣，小模型通過80輪迭代思考，用時間換取了推理能力，最終在數學競賽題目上的表現超越了大模型的單次推理。

Q3：深度自進化推理方法有什么實際應用價值？

A：這種方法開辟了用計算時間換取模型能力的新路徑，讓小型AI模型也能處理復雜推理任務。在在線教育、智能客服、法律咨詢等對準確性要求高但對實時性要求不嚴格的場景中，用戶可以等待更長時間獲得更準確的結果，而不需要部署昂貴的超大模型。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.