網易首頁 > 網易號 > 正文申請入駐

陳天橋攜MiroThinker 1.5開年登場：跑贏萬億模型，實現小模型大智能

2026-01-08 12:39:09　來源: 鈦媒體APP

北京舉報

分享至

圖片由AI生成

憑借成功預測Polymarket篩選題目，連續登頂FutureX全球榜首的MiroMind團隊，正式發布了其自研旗艦搜索智能體模型MiroThinker 1.5。

MiroMind由全球知名創新企業家、慈善家陳天橋，與清華大學知名AI青年學者代季峰教授聯合發起。

去年，陳天橋提出，發現式智能才是真正意義上的通用人工智能這一重磅創新理念，引發全球業內人士關注。他同時提出，建設發現式智能的5種關鍵能力，其中一項能力，是在未知條件下重建對世界的理解，這正是MiroMind的使命。

在過去7個月里，MiroMind在思考一個更本質的問題：智能的奇點究竟在哪里？

他們給出的答案不是把世界背進參數里，而是押注“發現式智能”：真正的智能不靠全知，而靠會研究、會查證、會修正——像頂級情報官一樣對外極速取證、對內嚴苛去偽存真；像嚴謹研究員一樣在不確定性里逼近真相，最終把預測未來從特權變成能力。

MiroThinker 1.5 ：30B參數，闖入全球搜索智能第一梯隊

MiroMind團隊在AGI競技場上，不信奉“大力出奇跡”，而是追求以高智效比為核心的巧勁。

MiroThinker-v1.5-30B僅用1/30的參數規模跑出了比肩眾多1T模型的性能表現，其235B的版本在多個搜索智能體基準測試中躋身全球第一梯隊。

BrowseComp性能對比

面對參數量高達30倍的萬億參數巨獸Kimi-K2-Thinking，MiroThinker-v1.5-30B用極低的成本展示了旗鼓相當的表現：

推理成本：MiroThinker-v1.5-30B單條調用成本低至$0.07，僅為Kimi-K2-Thinking的1/20，且推理更快。
性能表現：在關鍵評測集BrowseComp-ZH中實現性能超越，證明“大”不等于“強”。

MiroThinker團隊指出，以擴大模型內部參數量（Internal Parameters）為核心的傳統Scaling Law已明顯觸及邊際瓶頸；要繼續提升模型性能，必須從內部參數擴張轉向以外部信息交互（External Interaction）為核心的Interactive Scaling，將智能的增長空間從內部參數擴展到外部世界。

Agent搜索評測基準性能對比

為什么該模型能在大幅降低成本的同時，性能依然能打？

因為這不是大參數碾壓，而是一次“科學家模式”對“做題家模式”的勝利。以Scaling Law為代表的路線，更像“做題家”：試圖把全人類知識（也包括噪聲與錯誤）盡可能背進模型里；一旦遇到生物學等領域的未知問題，就容易基于概率分布“編”出一個看似合理的答案——幻覺往往由此產生。

在MiroThinker v1.0中，團隊首次系統性提出Interactive Scaling：隨著工具交互頻率與深度提升，研究式推理能力也穩定增強——這構成了與模型大小、上下文長度并列的第三個可擴展維度。

v1.5更進一步，把這套機制內化為貫穿訓練與推理全流程的核心能力：將模型訓練成“科學家”，核心不是死記硬背，而是勤查證。遇到難題時，它不會給出概率最高的瞎猜，而是執行慢思考的研究閉環：提出假設→向外部世界查數據/取證→發現對不上→修正假設→再查證，直到證據收斂。

主流大模型往往追求萬億參數，試圖把整個互聯網“背”在腦子里。而MiroThinker系列選擇了一條反共識的路線：刻意將模型控制在30B–200B的輕量級規模。研發團隊強調，省下的不是算力，而是把算力花在了更刀刃的地方——對外的信息獲取與交互。

團隊不追求讓模型擁有一顆“最重的腦子”，而是培養它擁有一雙“最勤的手”。當模型同時具備研究式確認機制與時序因果約束，這種圍繞外部信息獲取的交互過程才讓發現式智能真正落地——也正是對Interactive Scaling的深耕，使他們用小得多的模型，做到了大模型才能做到的事。

MiroThinker 1.5 核心技術揭秘

傳統的模型思維鏈本質上是在模型內部知識空間的線性外推，推理偏差會隨路徑增長而不斷累積，最終導致邏輯坍塌。

MiroThinker 1.5的核心發力點，在于通過Interactive Scaling打破孤立推理的僵局，將推理與外部環境深度耦合。通過構建“推理-驗證-修正”循環，引入外部信息作為校驗錨點，用確定性的證據流來對沖不確定性的推演，解決邏輯坍塌問題。

當智能的Scaling范式，不再局限于模型內部龐大的世界知識儲備與縝密的長程邏輯推理，而是依托模型高頻與外部世界中探索與交互并獲得閉環反饋時，小而高效的探索者模型能展現比肩于，甚至超出大而嚴謹的思考者模型的智力水平。

MiroThinker 1.5正是基于這一判斷，將Interactive Scaling從推理階段的外掛能力，前移并內化為訓練階段的核心機制。模型并非被要求盡量在腦中想清楚一切，而是被系統性地訓練成一個善于向外求證、敢于否定自己、能夠快速修正路徑的Agent。

在訓練過程中，研發團隊刻意削弱對“單次完美推理”的獎勵，轉而強化以下行為模式：

Evidence-Seeking（主動求證）：模型被鼓勵將每一個關鍵判斷拆解為可驗證的子假設，并主動發起對外查詢、檢索與比對。結論本身不再是訓練目標，找到可靠證據的過程才是。缺乏信源支撐的高置信輸出，會在訓練中被系統性地懲罰。
Iterative Verification（多輪校驗與自我修正）：推理不被視為一次性路徑，而是一個可反復回溯、修正的過程。模型在交互中被要求不斷對已有判斷進行反證測試，一旦發現證據沖突，必須顯式調整假設，而非“帶著錯誤繼續推下去”。
Anti-Hallucination（對捷徑的系統性過濾）：對那些看起來合理、但缺乏真實依據的推理捷徑保持零容忍。訓練中不僅評估答案是否正確，更關注答案是如何得到的：任何依賴統計相關性、模式記憶或隱含先驗而繞過證據驗證的路徑，都會被標記為低質量推理。

通過這種訓練方式，MiroThinker 1.5逐步形成了一種本能反應：在不確定性面前，先交互、再判斷；在高風險結論前，先查證、再收斂。這使得模型不再需要將龐大的世界知識全部內化為參數，而是學會在需要時，快速、精準地向外部世界借力。

最終，團隊用更小的參數規模，換來了更高的智能密度：不是讓模型記住更多，而是讓它學會如何找到、驗證并使用信息。這正是MiroThinker 1.5能在顯著降低推理成本的同時，依然保持一線性能的根本原因。

時序敏感訓練沙盒，是破解因果律的鑰匙：普通大模型訓練常處在上帝視角——它在數據里早已見過結果，學到的往往是復述與劇透，而不是預測。MiroThinker的訓練則約束模型只能看過去，不能看未來，在嚴格的時間可見性約束下做判斷，再用同樣受時序約束的證據去驗證與更新。

可控數據合成引擎：構建覆蓋多任務類型的、難度與時間戳可控的數據合成體系。每一道題目的“正確答案”并非靜態標簽，而是隨時間戳動態演化；模型必須在嚴格的信息可見性約束下，基于當時可獲取的信息做出判斷，而校驗過程同樣顯式引入時間戳約束，以確保推演與評分均符合真實世界的時序邏輯。
時序敏感訓練機制：采用嚴格的時間戳與信息可見性約束，徹底杜絕Future Leakage；模型在訓練過程中的每一步只能與發表于當前時間戳之前的信息進行交互。

在這種訓練范式下，模型被迫學會在信息不完備、噪聲存在、信號延遲的真實條件下進行推演與修正，而不是依賴靜態數據集中的標準答案。時間由此從一個背景變量，轉變為塑造模型行為與推理方式的核心約束，使模型更接近真實世界中的認知與決策過程。（作者｜李程程，編輯｜李玉鵬）

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.