![]()
新智元報道
編輯:KingHZ Aeneas
【新智元導讀】思考token在精不在多。Yuan 3.0 Flash用RAPO+RIRM雙殺過度思考,推理token砍75%,網友們驚呼:這就是下一代AI模型的發展方向!
硅谷的算力戰爭,已經不是「拼GPU」,而是「搶電網」。
OpenAI萬億豪賭Scaling,瞄準10GW級超級集群。
在孟菲斯,馬斯克豎起xAI的Colossus,55.5萬張GPU與2GW電力轟鳴待命。
還不止地面。馬斯克已經把目光看向太空:下一座「算力堡壘」,仿佛就在地球近地軌道的黑暗里發光。
![]()
奧特曼在賭,馬斯克在賭,整個硅谷都在賭:堆起最高的「算力山」,就能先摸到AGI的門把手。
可就在這場萬億級狂飆里,Anthropic的一個更刺耳的結論浮出水面——
模型越大,算力越多,不一定越聰明。更可能的是:浪費更大、思維鏈更亂、幻覺更猛。
![]()
![]()
![]()
左右滑動查看
真正決定勝負的,可能不是更多GPU,而是能讓模型在正確答案前及時剎車的算法。
而就在這個節點,Yuan 3.0 Flash悄然登場。
它出自YuanLab.ai團隊之手——沒有喧囂的發布,沒有張揚的宣告,卻也吸引了全球開發者的注意。26年伊始,YuanLab.ai團隊交出了它的階段性的成果,向行業展示了自己的節奏。
可以說,Yuan 3.0 Flash不是又一個參數爆炸的巨獸,而是一場針對「想太多」的精準手術——以更高效的機制,實現更敏捷的思考。
40B總參數的MoE(Mixture-of-Experts)架構,僅激活約3.7B參數,卻在多模態任務上展現出媲美甚至超越數百億參數模型的表現。
更關鍵的是,它讓模型學會「適可而止」,從訓練階段就教會它:什么時候該停手。
![]()
鏈接:https://arxiv.org/pdf/2601.01718
開源:https://github.com/Yuan-lab-LLM/Yuan3.0
因此,Yuan 3.0 Flash一經發布,就在全球開發者中引起了巨大轟動。
有人說,這是高效多模態AI邁出的一大步:一個400億模型僅僅激活了37億參數,這就是下一代AI模型的發展方向!
![]()
沒想到,開源模型竟然能有這種級別的控制力,這種AI,是真的可以應用于生產環境的。
![]()
打破業內魔咒
想太多,就更好嗎?
推理模型的興盛,引發了全行業對「長思維鏈」的追逐。
然而,企業AI落地時,卻存在著這樣一個「TOKEN成本悖論」——
想要高智能,就必須承擔成倍增長的Token消耗和推理延遲;
想要控制成本,往往只能犧牲模型能力。
要知道,對企業而言,每一個無效消耗的Token,都是真金白銀的流失!
真正的成本黑洞,不在「求解」,而在「答對之后」:很多推理模型一旦摸到正確答案,就開始反復確認、來回推翻、沒有新證據也要繼續「再想想」。
事實上,在數學與科學任務中,超過70%的token消耗發生在正確答案之后,卻仍在進行無效反復驗證的階段。
舉個例子,你問了AI一個數學題,它會先給出正確解,然后又開始「但是……或許……再檢查一遍」,最終輸出比答案本身長三倍的文字。
![]()
答案早已浮現,卻被淹沒在無休止的自我對話中。
這不是「幻覺」,是當下大模型的普遍頑疾:過度反思(overthinking)。
為了解決這一矛盾,Yuan 3.0 Flash正式登場了!團隊的目標是——「用更少算力,實現更高的智能」。
四兩撥千斤
更少算力,但更高智能
Yuan 3.0 Flash,在MoE架構的基礎上,實現了RIRM(反思抑制獎勵機制)和RAPO(反思感知自適應策略優化)兩項算法創新,這樣就從根本上修正了模型的「過度思考」。
由此,模型實現了以下突破:
· 精準定位:準確識別首次得出正確答案的關鍵節點
· 抑制冗余:有效抑制后續冗余推理行為
· 雙重提升:在提升精度的同時,將推理token數量降低約75%
首先,來看它在架構上的優雅革命。
傳統稠密模型像一支全員出動的軍隊,每一次推理都調動所有神經元。
Yuan 3.0 Flash則更像一支特種部隊:MoE機制只喚醒最合適的「專家」應對當前任務。
視覺編碼器處理高分辨率圖像,通過自適應分割機制將圖片拆分成高效token,避免顯存爆炸;語言主干網絡采用Local Filtered Attention(LFA),進一步降低計算開銷。
![]()
結果很出彩——
上下文長度輕松達到128K,在「needle-in-a-haystack」(大海撈針)測試中實現100%準確召回。
![]()
就是說,它能從海量文檔中精準定位關鍵信息,而不會因為長度而迷失。
想象一下,你的企業需要分析一份數百頁的財務報告,夾雜著復雜嵌套表格和圖表。
過去,模型或許卡頓、幻覺頻出,或者token消耗到天價。
而Yuan 3.0 Flash像一位專注的審計師,多模態輸入(文本+圖像+表格+文檔)無縫融合:
RAG(檢索增強生成)準確率達64.47%,
Docmatix多模態檢索65.10%,
MMTab表格理解58.30%,
SummEval摘要生成59.30%。
![]()
在企業場景,Yuan 3.0 Flash遠超GPT-5.1的46.10%,直接瞄準了LLM的痛點。
RIRM:拒絕無效內耗
真正讓Yuan 3.0 Flash脫穎而出的,就是對「過度反思」的致命一擊。
在MATH-500和AIME等數學基準上,傳統推理模型的token分布像一座冰山:
![]()
淺色部分是問題求解,深色巨大區域是后答案反思
比如,在MATH-500上,「后答案反思」占比高達71.6%,整體token在3362上居高不下。
為了顯著降低這一無效反思的占比,團隊提出了一種創新機制——反思抑制獎勵機制(RIRM)。
RIRM的原理簡單卻深刻:在強化學習中,它識別模型首次輸出正確答案的「節點」,然后對后續缺乏新證據的重復驗證、自我推翻施以負獎勵。
模型不再被鼓勵「想得越久越好」,而是學會辨別「足夠好」的邊界。
![]()
RIRM工作流程示意
從首次正確答案識別到反思階段獎勵抑制的完整鏈路
也就是說,在強化學習中,RIRM首次教導了模型識別「何時思考已足夠」。它會獎勵模型在首次得出正確答案后停止無效反思,而非鼓勵無止境的推演。
為此,團隊引入了三個維度的獎勵:首次正確答案、最終正確性,以及反思步驟數量是否落在合理區間內。
果然,Yuan 3.0Flash引入RIRM后,上面這座冰山被腰斬:反思階段token占比驟降至28.4%,總token壓縮至1777左右,減少約47%,而準確率不降反升(MATH-500從83.20%提升至89.47%)。
這就說明被壓縮的并不是有效推理,而是答案已經確定之后的反復自檢、復述與格式化解釋等低價值token。
![]()
不僅如此,該模型在數學、科學等領域也表現出強大的推理能力,直接把無效反思的Token消耗最高削減至75%,即可達到前沿模型的精度水平!
這樣,就能讓算力聚焦于真正有價值的推理步驟。可以說,RIRM的作用并非「壓長度」,而是讓模型學會在正確節點停止思考。
![]()
RIRM訓練前后Token消耗對比
反思階段(深色部分)顯著縮減,而首次解題階段基本保持不變
RAPO:高效訓練引擎
然而,僅靠對推理行為的抑制,并不足以支撐一個穩定、高效的企業級模型訓練。
由此,團隊引入了RAPO(反思感知自適應策略優化),這并非一次局部技巧的優化,而是對強化學習訓練框架的一次系統性改進。
它兼顧了訓練效率、訓練穩定性及推理效率,使模型能在多任務、異構場景中形成更具實用價值的策略。
具體來說,它從訓練框架層面實現保駕護航:
自適應動態采樣(Adaptive Dynamic Sampling,ADS):動態過濾掉低信息量的重復樣本,訓練效率提升52.91%
80/20高熵token更新規則:只更新不確定性最高的前20%的token梯度,聚焦真正需要優化的部分
優化雙剪裁:同時對策略梯度和值函數梯度進行雙重裁剪,防止MoE架構常見的梯度爆炸
多任務交替訓練+KL散度正則,讓大型MoE模型也能穩定收斂
讓整個RL過程效率提升52.91%,即使在大型MoE模型上也保持穩定。
![]()
這不是強制縮短輸出,而是重塑模型對「好推理」的認知: 從「長度即真理」,轉向「時機即智慧」。
更重要的是,RAPO與RIRM是協同設計的。
RAPO決定模型「如何學習」,而 RIRM明確模型「學到什么程度該停」。
當然,任何創新都有其張力。
RIRM在抑制冗余的同時,可能在極度不確定、需要多輪探索的任務中略微限制有益反思——這需要在實際部署中持續觀察與平衡。
AI下半場,YuanLab.ai團隊這樣想
Yuan 3.0 Flash指向一個清晰的結論:當模型具備基礎推理能力后,其進化的關鍵已非「延長思考」,而在于 「優化思考的質量與效率」。
它不僅為企業提供一種「更少算力、更高智能」的選擇,更重要的是對「長思維鏈」競賽的理性補充。
背后團隊YuanLab.ai深深理解深度推理的價值,但也知道隱藏的算力浪費風險。
因此,Yuan 3.0 Flash提供了追求「有效思考」的平衡方案,推動行業關注智能的實用性與經濟性。
![]()
Yuan 3.0 Flash被網友盛贊:這不是一個demo, 而是一個真正為生產構建的模型!
當模型能夠在獲得正確答案時主動停止推理,本質上意味著它開始進行一種隱式的成本—收益分析。從此,token成為推理過程中可被模型內部感知和調節的計算資源。
這就標志著推理目標的一次轉變:從單純模仿人類冗長、外顯的思維過程,轉向更適合機器的、以最小token預算達成正確性的效用導向智能形態。
為什么這種更高效的智能,是出自YuanLab.ai團隊之手?
實際上,這個成果可以看作YuanLab.ai團隊在此領域多年經驗的厚積薄發。作為在行業內深耕多年的大模型探索者,團隊的發展足跡本身已成為中國大模型演進歷程中一個真實而生動的縮影。
2021年,當業界對大模型的認知尚處朦朧時,YuanLab.ai團隊便已勇闖無人區,發布了2457億參數的源1.0大模型,這是對GPT-3架構的成功驗證。
發布之際,團隊開源了平臺、代碼以及珍貴的中文數據集,滋養了國內早期大模型成長土壤。
隨著ChatGPT的橫空出世,YuanLab.ai團隊立足自身技術積累與市場需求,于同期成功推出自主研發的「源2.0」大模型。
2024年5月,團隊發布了采用創新MoE架構的源2.0-M32,以僅2.25萬億Tokens的訓練量,實現了出色的性能。
![]()
站在「源2.0-M32」的肩膀上,YuanLab.ai團隊已向著下一個里程碑進發——「源3.0」 ,劍指多模態、更少算力、更高智能的AGI路徑。在此過程中,也有了團隊近期交出的階段性成果——Yuan 3.0 Flash。
AI下半場,走向哪里
回望過去,我們或許會發現,AI的下半場真的來了。
上半場,大家追求的是「大」:更大的參數、更多的顯卡、更高的智能。那是AI的青春期,迅速成長。
下半場,我們開始追求「準」:更精煉的邏輯、更克制的表達、更高效的決策。這是AI成年禮的開始。
當我們不再迷信「越大越強」,而轉向「更精煉、更適配」,AI才真正從實驗室走向生產,從昂貴的玩具變成可持續的工具。
此時,我們觸及了本質:AI智能的邊界,正在從「深度」轉向「時機」。
真正的聰明,往往不是想得最多,而是知道何時果斷收手。
人類智慧最珍貴的部分,從來不是喋喋不休的長篇大論,而是由于洞察本質而帶來的適時沉默。
所以,當你下一次面對AI冗長輸出時,不妨問自己:它是在推理,還是在演推理?
在AGI星辰大海里,我們或許不再需要追逐參數巨獸,而是學會點亮一盞更精準、更節制的燈塔。
大廠需要學會的,是參與一場「適可而止」的革命。
參考資料:
https://arxiv.org/pdf/2601.01718
https://github.com/Yuan-lab-LLM/Yuan3.0
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.