![]()
這項由OPPO AI團隊完成的突破性研究發表于2025年10月,研究成果被發表在arXiv預印本平臺(論文編號:arXiv:2510.12838v2),并于同年10月17日正式公開。有興趣深入了解的讀者可以通過該編號在學術平臺上查詢完整論文。
當前的人工智能領域正面臨著一個有趣的分化現象。一邊是善于深度思考的"學者型"AI,它們能夠進行復雜的數學推理和邏輯分析,但卻無法使用搜索引擎或運行代碼等外部工具。另一邊是"實干型"AI智能體,它們能熟練地操作各種工具、搜索信息、執行代碼,但在需要深度思考的問題上往往表現平平。更讓人頭疼的是,兩種AI都有個共同毛病:面對簡單問題時總是"小題大做",要么過度思考,要么動用一堆工具,既浪費時間又消耗資源。
針對這個痛點,OPPO AI團隊提出了一個頗具創意的解決方案——A2FM(自適應智能體基礎模型)。這個模型就像一個聰明的管家,會根據問題的難易程度自動選擇最合適的處理方式。面對簡單問題時直接給答案,遇到需要深度思考的問題時會仔細推理,而當需要查找信息或執行代碼時則會熟練地使用各種工具。
在實際測試中,A2FM表現出色。在需要工具使用的任務中獲得了13.4%的成績(BrowseComp基準),在數學推理任務中達到70.4%(AIME25基準),在綜合知識任務中取得16.7%(HLE基準)。更令人驚喜的是,通過智能選擇處理方式,A2FM將每個正確答案的成本降至僅0.00487美元,相比傳統的推理模式節省了45.2%的成本,相比工具使用模式節省了33.5%的成本。
一、智能分工的藝術:三種模式各司其職
A2FM的核心創新在于將AI的能力分為三個專門的"工作模式",就像一個全能型員工根據任務性質切換不同的工作狀態。這種設計并非簡單的功能堆砌,而是對AI處理不同類型問題的本質需求的深刻理解。
第一種是"即時模式",專門處理那些一眼就能看出答案的簡單問題。當有人問"地球赤道的長度是多少"這類基礎知識問題時,AI不會啟動復雜的推理鏈條,而是直接從知識庫中提取答案并立即回復。這就像一個經驗豐富的圖書管理員,對于常見問題能夠脫口而出,無需翻閱任何資料。這種模式的優勢在于速度快、消耗資源少,特別適合處理大量簡單的日常詢問。
第二種是"推理模式",專門應對需要深度思考和邏輯分析的復雜問題。當面臨數學證明、邏輯推理或需要多步驟分析的問題時,AI會進入這種專注的思考狀態。整個過程類似于一個數學家解決難題,會在內部進行詳細的推理過程,每一步都經過仔細考慮,最后得出可靠的結論。這種模式特別擅長處理那些答案無法直接獲得,需要通過邏輯推導才能解決的問題。
第三種是"智能體模式",負責處理需要與外部世界交互的任務。當問題涉及實時信息查詢、代碼執行或需要使用特定工具時,AI會切換到這種模式。它就像一個能干的助理,會制定詳細的行動計劃,然后并行使用多種工具來收集信息或執行任務。比如需要查詢最新的股價信息時,它會使用搜索工具獲取數據,然后可能還會運行計算代碼來分析趨勢。
這三種模式的設計哲學體現了"術業有專攻"的思想。正如一個優秀的團隊需要不同專長的成員配合,A2FM通過模式切換實現了在單一系統內的專業化分工。更重要的是,系統還內置了一個智能路由器,能夠準確判斷當前問題最適合用哪種模式來處理,避免了"殺雞用牛刀"的資源浪費。
二、訓練策略:先學分工再學配合
A2FM的訓練過程采用了獨特的"路由-對齊"策略,就像培養一個全能型人才,需要先讓他掌握各項專業技能,然后再學會在什么情況下使用哪項技能。這個過程分為兩個階段,每個階段都有其特定的目標和方法。
第一階段是"路由-對齊"監督微調階段。在這個階段,研究團隊首先教會模型如何識別問題類型并選擇合適的處理模式。這個過程類似于訓練一個新員工學會分類處理不同類型的工作任務。模型需要學會分析問題的特征,然后在開頭輸出特定的分類標簽,明確聲明將使用哪種模式來處理。
接下來,模型需要學會在每種模式下生成相應類型的回答。在即時模式下,模型學會直接輸出簡潔準確的答案,避免不必要的解釋或推理過程。在推理模式下,模型學會生成詳細的思考過程,就像展示數學題的解題步驟一樣,讓整個推理鏈條清晰可見。在智能體模式下,模型學會制定計劃、調用工具、處理工具返回的信息,并最終整合得出答案。
為了讓智能體模式能夠真正與外部世界交互,研究團隊為模型配備了三種關鍵工具。網絡搜索工具讓模型能夠獲取最新的信息,就像給它配備了一個高效的搜索引擎。網頁爬取工具使模型能夠深入分析網頁內容,提取關鍵信息。代碼執行工具則讓模型具備了編程和計算能力,能夠處理需要數值計算或數據分析的任務。
在訓練數據的準備上,研究團隊采用了精心設計的策略。他們特意調整了訓練樣本的難度分布,減少那些過于簡單或過于困難的樣本比例,增加中等難度樣本的權重。這種調整確保模型能夠更好地學會處理那些"介于簡單和復雜之間"的邊界案例,提高路由決策的準確性。
第二階段是自適應策略優化階段,這是A2FM訓練過程中的關鍵創新。在這個階段,模型不僅要學會正確回答問題,還要學會以最經濟高效的方式來回答。研究團隊設計了一套巧妙的獎勵機制,既鼓勵準確性,又激勵效率。
這個獎勵系統的核心思想是"簡單問題簡單處理"。如果一個問題用即時模式就能正確回答,那么模型選擇即時模式會獲得滿分獎勵,而選擇更復雜的模式雖然可能也能得到正確答案,但會受到一定的"效率懲罰"。這就像在現實工作中,雖然用高射炮打蚊子也能成功,但顯然不是最佳選擇。
為了確保訓練的穩定性和有效性,研究團隊還設計了特殊的采樣策略。在每個訓練輪次中,系統會強制讓模型在每種模式下都嘗試回答同一個問題,這樣可以直接比較不同模式的效果,為獎勵分配提供可靠的依據。同時,系統也允許模型自主選擇模式,以便學習和強化正確的路由決策。
三、智能工具箱:讓AI擁有現實世界的"手腳"
A2FM的智能體模式之所以強大,很大程度上得益于其精心設計的工具系統。這些工具就像為AI配備了感官和肢體,讓它能夠真正與現實世界交互,而不再局限于純文本的內部思考。
網絡搜索工具是A2FM連接外部信息世界的第一扇窗戶。當遇到需要實時信息或超出訓練數據范圍的問題時,這個工具會像一個專業的研究助手一樣,根據問題的關鍵詞制定搜索策略,然后通過Google搜索引擎獲取最相關的信息。系統會自動篩選出最有價值的前幾個搜索結果,提取標題、摘要和鏈接信息,為后續的分析提供原材料。這個過程就像一個經驗豐富的圖書管理員,知道如何快速找到最相關的資料。
網頁內容爬取工具則進一步深化了AI對信息的獲取能力。搜索只是找到了相關網頁的"門牌號",而爬取工具則能夠"推門而入",深入網頁內部提取詳細內容。為了提高效率和準確性,系統不會盲目抓取整個網頁,而是會根據當前問題的需求,重點關注與問題相關的內容部分。更巧妙的是,系統還會調用其他AI模型來對爬取的內容進行智能摘要,確保提取的信息既全面又簡潔。
代碼執行工具為A2FM提供了強大的計算和分析能力。這個工具就像為AI配備了一個專業的編程工作臺,能夠運行Python代碼來處理各種計算任務。無論是復雜的數學計算、數據分析、圖表生成,還是邏輯算法的實現,這個工具都能勝任。為了確保安全性,代碼執行環境采用了嚴格的沙盒隔離技術,就像在一個封閉的實驗室里進行實驗,既能獲得準確的結果,又不會對外部系統造成任何影響。
在智能體模式的工作流程中,這些工具的協調使用體現了高度的智能化。當AI接到一個復雜任務時,它會首先制定一個詳細的執行計劃,將大任務分解為多個可以并行處理的子任務。然后,不同的工具會同時開始工作,就像一個高效團隊的各個成員同時執行不同的任務。搜索工具可能在查找背景信息,爬取工具在獲取具體數據,代碼執行工具在進行計算分析,所有這些工作都在同時進行。
特別值得注意的是,A2FM在使用工具時展現出了高度的策略性思維。它不會機械地逐個使用工具,而是會根據任務的性質和緊急程度來安排工具的使用順序和組合方式。對于需要實時信息的問題,搜索工具會優先啟動。對于需要深度分析的問題,爬取和代碼執行工具會協同工作。這種智能調度確保了工具使用的效率最大化。
在工具使用的整個過程中,AI還會持續監控和評估工作進展。它會定期生成工作摘要,評估已完成的子任務,識別可能的問題或瓶頸,并及時調整執行策略。這種動態管理能力使得AI即使在面對復雜多變的任務時,也能保持高效和準確的工作狀態。
四、性能表現:在準確性與效率之間找到最佳平衡
A2FM在實際應用中的表現證明了其設計理念的正確性。通過在多個標準測試集上的評估,這個模型展現出了在不同類型任務中的卓越能力,更重要的是實現了準確性與效率的理想平衡。
在需要工具使用的智能體任務中,A2FM表現尤為突出。在BrowseComp基準測試中,該模型達到了13.4%的成績,在XBench-DeepSearch中獲得56.0%的分數,在GAIA測試中取得57.3%的成績。這些數字背后反映的是AI在復雜信息檢索和分析任務中的實際能力。以BrowseComp為例,這是一個模擬真實網頁瀏覽和信息提取的測試,要求AI像人類用戶一樣在網絡上搜索信息、分析網頁內容并回答問題。A2FM的成績超越了多個專門的智能體框架,包括一些基于GPT-4等先進模型構建的系統。
在推理能力方面,A2FM同樣表現不俗。在MATH500數學測試中獲得95.0%的成績,在AIME24數學競賽中達到74.5%,在AIME25中取得70.4%的分數。這些都是極具挑戰性的數學推理任務,需要AI具備深度的邏輯思維和多步驟的問題解決能力。特別是在AIME這樣的高中數學競賽中,AI需要處理的問題往往需要創造性的解題思路和精確的計算,A2FM的表現甚至超過了許多專門為數學推理優化的模型。
在綜合知識任務中,A2FM展現了良好的通用能力。在GPQA-d測試中得分63.1%,在SuperGPQA中獲得54.7%,在MMLU-Pro中達到73.8%,在HLE測試中取得16.7%的成績。這些測試涵蓋了從科學知識到常識推理的廣泛領域,要求AI既要有扎實的知識基礎,又要能靈活運用這些知識解決實際問題。
更令人印象深刻的是A2FM在效率方面的表現。通過智能的模式選擇,系統顯著降低了處理每個問題的成本。在成本效益分析中,A2FM的每個正確答案成本僅為0.00487美元,相比純推理模式節省了45.2%的成本,相比純智能體模式節省了33.5%的成本。這種成本優勢主要來源于系統對簡單問題的快速處理能力,避免了不必要的復雜計算和工具調用。
通過對不同難度級別問題的分析,研究團隊發現A2FM表現出了很好的適應性。對于簡單問題,系統有61.1%的概率選擇即時模式,快速給出答案。而對于困難問題,這個比例下降到僅8.3%,系統會更多地依賴推理和工具使用來確保答案的準確性。這種自適應行為表明模型確實學會了根據問題特征來選擇最合適的處理策略。
特別值得注意的是,A2FM在模式路由方面表現出了很高的準確性。在GAIA測試集上,模型的路由準確率達到92.2%,在BrowseComp上達到94.0%,在AIME數學題上更是達到100%。這表明模型確實掌握了判斷問題類型和選擇合適處理模式的能力,而不是隨機選擇或簡單的規則匹配。
五、技術創新:從被動響應到主動適應
A2FM的核心技術創新體現在其獨特的自適應策略優化方法上,這種方法讓AI從傳統的"被動響應"模式轉變為"主動適應"模式。這種轉變不僅僅是技術層面的改進,更是對AI工作方式的根本性重新思考。
傳統的AI系統通常采用單一的處理模式,無論面對什么問題都使用同樣的方法。這就像一個工匠只會使用一種工具,無論是擰螺絲還是鋸木頭都用同一把錘子。A2FM的創新在于引入了多模態學習和動態路由機制,讓AI能夠像一個經驗豐富的工匠一樣,面對不同的任務自動選擇最合適的工具和方法。
自適應策略優化的核心是一套精心設計的強化學習機制。與傳統的強化學習方法不同,這套機制不僅關注任務完成的準確性,還將效率和成本納入考量范圍。系統會同時考慮"做對了沒有"和"做得是否經濟高效"這兩個維度,通過復合獎勵函數來引導模型學習最優的行為策略。
在具體實現上,研究團隊設計了一種獨特的"分組相對策略優化"方法。這種方法的巧妙之處在于,它會讓模型在每個問題上同時嘗試多種不同的處理方式,然后通過比較這些方式的效果來學習最優策略。這就像讓一個學生用不同的方法解同一道題,然后分析哪種方法最有效、最簡潔。
為了確保學習過程的穩定性,系統還采用了"強制采樣"策略。在訓練過程中,系統會強制模型在每種模式下都嘗試處理相同的問題,即使模型認為某種模式不是最優選擇。這種做法確保了模型能夠充分探索不同模式的能力邊界,避免過早陷入局部最優解。
獎勵機制的設計體現了研究團隊對AI效率的深度思考。系統引入了"自適應懲罰"概念,當模型在簡單問題上使用復雜方法時,雖然可能得到正確答案,但會受到效率懲罰。懲罰的程度與問題的實際難度成反比,越是簡單的問題,使用復雜方法的懲罰越重。這種機制有效地引導模型學會"量體裁衣",根據問題特征選擇最合適的處理方式。
在模式切換的實現上,A2FM采用了創新的"前綴注入"技術。這種技術讓模型在生成回答之前先輸出一個模式標識符,明確聲明將使用哪種處理方式。這不僅提高了系統的可解釋性,還為后續的質量評估和優化提供了清晰的依據。用戶可以清楚地看到AI是如何分析問題并選擇處理策略的,這大大增強了系統的透明度和可信度。
研究團隊還創新性地引入了"動態成本建模"概念。系統不僅考慮計算資源的消耗,還將時間成本、工具使用成本等因素納入綜合評估體系。這種全面的成本建模讓AI能夠在準確性、速度和資源消耗之間找到最佳平衡點,實現真正的效率優化。
六、實際應用場景:從實驗室走向真實世界
A2FM的設計初衷就是為了解決真實世界中AI應用面臨的實際問題,其多模式架構在各種應用場景中都展現出了獨特的優勢。這種技術不再是實驗室里的概念驗證,而是可以直接應用于實際業務場景的成熟解決方案。
在智能客服領域,A2FM的表現尤為出色。傳統的客服AI要么只能回答簡單的常見問題,要么需要調用復雜的知識庫系統來處理每個詢問。A2FM則能夠智能地區分問題類型:對于"營業時間是幾點"這類簡單問題,系統會立即給出答案;對于需要分析客戶具體情況的復雜投訴,系統會啟動深度推理模式,結合客戶歷史記錄和相關政策進行綜合分析;而對于需要查詢實時信息的問題,比如"我的訂單現在到哪里了",系統會自動調用相關的查詢工具獲取最新狀態。
在教育輔助應用中,A2FM展現了個性化教學的潛力。面對學生的不同類型問題,系統能夠提供相應級別的幫助。對于基礎概念的詢問,系統會直接給出清晰的解釋;對于復雜的解題過程,系統會展示詳細的推理步驟,幫助學生理解思維過程;而對于需要實時數據或計算驗證的問題,系統會使用相應工具提供準確的信息和計算結果。這種適應性讓AI真正成為了學生的個性化學習伙伴。
在商業分析和決策支持方面,A2FM的多模式能力顯得尤為重要。商業環境中的問題往往具有多層次、多維度的特點。簡單的數據查詢可以通過即時模式快速處理,復雜的趨勢分析需要深度推理模式的支持,而涉及外部市場信息的分析則需要智能體模式來收集和整合最新數據。A2FM能夠根據分析任務的特點自動組合使用這些模式,為決策者提供全面而高效的支持。
在內容創作和知識管理領域,A2FM也展現了獨特的價值。內容創作過程中經常需要處理不同類型的任務:事實核查需要搜索和驗證信息,創意構思需要深度思考和推理,數據分析需要計算工具的支持。A2FM能夠在一個工作流程中無縫切換這些不同的處理模式,大大提高了創作效率和質量。
特別值得注意的是,A2FM在成本控制方面的優勢使其在商業應用中具有很強的競爭力。傳統的AI解決方案往往需要為每種功能部署單獨的系統,維護成本高昂。A2FM的統一架構不僅簡化了部署和維護工作,還通過智能的模式選擇顯著降低了運行成本。這種成本優勢使得中小企業也能夠負擔得起高質量的AI服務。
在用戶體驗方面,A2FM的自適應特性也帶來了顯著改善。用戶不再需要學習如何與不同類型的AI工具交互,也不需要手動選擇使用哪種AI功能。系統會自動理解用戶的需求并選擇最合適的處理方式,這種"無感知"的智能適應大大降低了用戶的學習成本和使用門檻。
七、未來展望:智能化的新范式
A2FM的成功不僅僅是一個技術突破,更代表了AI發展的一個重要方向轉變。從單一功能的專用AI轉向多功能自適應的通用AI,這種轉變預示著未來AI應用將更加智能化、人性化和實用化。
從技術發展的角度來看,A2FM開創了"元認知AI"的新領域。這種AI不僅能夠處理具體的任務,還能夠理解和管理自己的認知過程。它知道什么時候需要深入思考,什么時候可以快速響應,什么時候需要尋求外部幫助。這種"認知的認知"能力讓AI朝著更加接近人類思維模式的方向發展。
在應用范圍上,A2FM的多模式架構為AI進入更多領域提供了可能。傳統AI系統往往只能在特定領域發揮作用,而A2FM的通用性讓它能夠適應各種不同的應用場景。從簡單的信息查詢到復雜的決策支持,從創意工作到數據分析,A2FM都能提供相應的支持。這種versatility(多功能性)將推動AI在更多行業和領域的廣泛應用。
成本效率的優勢也為AI的普及奠定了基礎。A2FM證明了高質量的AI服務不一定意味著高昂的成本。通過智能的資源配置和任務優化,AI系統能夠在保證服務質量的同時顯著降低運行成本。這種成本優勢將使得更多的組織和個人能夠享受到AI技術帶來的便利。
在用戶交互方面,A2FM展示了"無感知AI"的發展方向。用戶不再需要成為AI專家就能獲得專業級的AI服務。系統會自動理解用戶的需求,選擇合適的處理方式,并以最自然的方式提供結果。這種用戶體驗的改善將加速AI技術從專業工具向大眾應用的轉變。
從更宏觀的角度來看,A2FM代表了AI發展從"能力導向"向"效率導向"的轉變。早期的AI研究主要關注如何讓機器具備某種特定能力,而現在的重點開始轉向如何讓AI更智能地使用這些能力。這種轉變反映了AI技術正在從實驗室走向實際應用,從證明可行性轉向追求實用性。
說到底,A2FM的意義遠超出了技術本身的突破。它展示了一種新的AI設計哲學:AI不應該是一個萬能但笨重的工具,而應該是一個智能的伙伴,能夠根據具體情況選擇最合適的方式來提供幫助。這種哲學將指導未來AI系統的設計和開發,推動整個行業向更加智能化、人性化的方向發展。
當我們回顧這項研究時,不難發現OPPO AI團隊解決的不僅僅是一個技術問題,更是對AI應該如何工作這一根本問題的重新思考。他們證明了AI可以既聰明又高效,既強大又經濟,既專業又易用。這種平衡的實現為未來AI技術的發展指明了一個充滿希望的方向。
Q&A
Q1:A2FM的三種模式分別是什么,有什么區別?
A:A2FM包含即時模式、推理模式和智能體模式三種工作方式。即時模式專門處理簡單問題,直接給出答案,速度最快;推理模式負責需要深度思考的復雜問題,會展示詳細的推理過程;智能體模式則用于需要使用外部工具的任務,能夠搜索信息、執行代碼等。系統會根據問題類型自動選擇最合適的模式。
Q2:A2FM為什么能夠節省成本?
A:A2FM通過智能的模式選擇大幅降低了處理成本。對于簡單問題,系統會選擇資源消耗最少的即時模式直接回答,避免啟動復雜的推理過程或工具調用。只有在真正需要時才會使用更耗資源的推理或工具模式。這種"按需分配"的策略使每個正確答案的成本降至0.00487美元,比傳統方法節省30%-45%的成本。
Q3:A2FM的性能表現如何?
A:A2FM在多個測試基準中表現優異。在需要工具使用的BrowseComp測試中獲得13.4%的成績,在數學推理的AIME25測試中達到70.4%,在綜合知識的HLE測試中取得16.7%的分數。這些成績不僅超越了同規模的其他模型,在某些任務上甚至與更大規模的前沿模型相當。更重要的是,A2FM的模式路由準確率在不同測試中都達到90%以上。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.