做題家vs科學(xué)家：一個30B模型如何顛覆萬億參數(shù)的AI軍備競賽

2026-01-07 17:15:09　來源: 深思圈

北京舉報

分享至

整個行業(yè)都在比誰的參數(shù)更大、誰的上下文更長時，你有沒有想過一個問題：智能的本質(zhì)到底是什么？是把整個互聯(lián)網(wǎng)塞進(jìn)參數(shù)里，還是學(xué)會如何在需要時精準(zhǔn)地找到并驗(yàn)證信息？當(dāng)所有人都在用蠻力堆砌萬億參數(shù)的"做題家模型"時，陳天橋和代季峰卻選擇了一條完全相反的路：用30B參數(shù)的"科學(xué)家模型"，跑出了萬億參數(shù)模型的性能。這不是什么漸進(jìn)式改良，而是對整個AI發(fā)展路徑的根本性反思。

2026年1月5日，由陳天橋和清華AI學(xué)者代季峰聯(lián)合發(fā)起的MiroMind團(tuán)隊，正式發(fā)布了自研旗艦搜索智能體模型MiroThinker 1.5。這個消息本身并不算特別，畢竟最近幾個月幾乎每周都有新模型發(fā)布。但當(dāng)我深入了解后發(fā)現(xiàn)，這個模型背后代表的思路，可能會徹底改變我們對AI能力邊界的認(rèn)知。它用僅30B參數(shù)的版本，在多個基準(zhǔn)測試中跑出了與萬億參數(shù)模型旗鼓相當(dāng)甚至更好的表現(xiàn)。更關(guān)鍵的是，它的推理成本只有同類模型的1/20，推理速度還更快。這聽起來像是在違反物理定律，但MiroMind團(tuán)隊卻找到了一個非常有說服力的解釋：他們沒有讓模型變成一個死記硬背的"做題家"，而是訓(xùn)練它成為一個會主動查證、反復(fù)驗(yàn)證、不斷修正的"科學(xué)家"。

參數(shù)競賽的盡頭在哪里

我一直在思考一個問題：為什么大模型發(fā)展到現(xiàn)在，大家都在拼命堆參數(shù)？從幾十億到幾百億，再到現(xiàn)在動輒上萬億，參數(shù)規(guī)模的增長似乎永無止境。背后的邏輯其實(shí)很簡單，就是所謂的Scaling Law：模型越大，能力越強(qiáng)。這個規(guī)律在過去幾年確實(shí)有效，每次參數(shù)翻倍，模型性能都會有顯著提升。但我越來越感覺到，這條路可能正在接近它的天花板。

想想看，把參數(shù)從1000億增加到10000億，需要10倍的算力、10倍的訓(xùn)練時間、10倍的成本。但性能提升有10倍嗎？顯然沒有。邊際收益遞減的規(guī)律在這里體現(xiàn)得淋漓盡致。更重要的是，即使你把整個互聯(lián)網(wǎng)的內(nèi)容都塞進(jìn)模型參數(shù)里，它還是會出現(xiàn)幻覺，還是會在遇到訓(xùn)練數(shù)據(jù)中沒見過的問題時給出錯誤答案。因?yàn)樗举|(zhì)上只是在做模式匹配和統(tǒng)計推斷，并不是真正的理解和推理。

MiroMind團(tuán)隊提出的"做題家模式"這個比喻特別貼切。傳統(tǒng)大模型就像一個死記硬背的學(xué)生，試圖把所有知識都裝進(jìn)腦子里，考試時靠記憶和題感作答。這種方法在應(yīng)對見過的問題時確實(shí)有效，但一旦遇到新問題，就只能靠概率猜測，給出一個"看起來合理"的答案。這就是為什么大模型經(jīng)常會一本正經(jīng)地胡說八道，因?yàn)樗鼈儾⒉恢雷约翰恢朗裁矗皇歉鶕?jù)統(tǒng)計規(guī)律拼湊出一個答案。

而MiroThinker 1.5代表的是另一種思路，團(tuán)隊稱之為"科學(xué)家模式"。它不是試圖記住所有知識，而是學(xué)會如何進(jìn)行研究：遇到問題先提出假設(shè)，然后主動去外部世界查找證據(jù)，發(fā)現(xiàn)證據(jù)不符就修正假設(shè)，再次查證，不斷迭代直到證據(jù)收斂。這個過程和真正的科學(xué)研究如出一轍，也是人類解決復(fù)雜問題的方式。關(guān)鍵區(qū)別在于，它不是在參數(shù)空間里閉門造車，而是不斷與外部世界交互驗(yàn)證。

MiroThinker-v1.5

Interactive Scaling：智能增長的第三維度

我認(rèn)為MiroMind團(tuán)隊最大的貢獻(xiàn)，不是做出了一個性能更好的模型，而是系統(tǒng)性地提出了"Interactive Scaling"這個概念。過去我們談?wù)撃Ｐ湍芰Φ臄U(kuò)展，主要關(guān)注兩個維度：模型參數(shù)規(guī)模和上下文長度。參數(shù)越大，理論上能存儲的知識越多；上下文越長，能處理的信息越多。但MiroMind指出了第三個維度：與外部世界的交互頻率和深度。

這個觀點(diǎn)聽起來簡單，但意義深遠(yuǎn)。傳統(tǒng)的Scaling Law本質(zhì)上是在擴(kuò)展模型的"內(nèi)存"，試圖把世界知識都裝進(jìn)參數(shù)里。但世界是無限的，參數(shù)是有限的。無論你的模型有多大，總有它沒見過的知識、沒學(xué)過的概念、沒經(jīng)歷過的情況。而Interactive Scaling的思路是：與其把有限的算力都用來擴(kuò)大內(nèi)存，不如訓(xùn)練模型學(xué)會高效地"借力"——在需要時快速從外部世界獲取信息。

MiroThinker 1.5在訓(xùn)練階段就把這種交互能力內(nèi)化了。它不是把Interactive Scaling當(dāng)作推理時的外掛功能，而是從訓(xùn)練開始就系統(tǒng)性地強(qiáng)化這種行為模式。具體來說，訓(xùn)練過程中會刻意削弱對"單次完美推理"的獎勵，轉(zhuǎn)而強(qiáng)化三種核心能力：主動求證、多輪校驗(yàn)與自我修正、以及對推理捷徑的系統(tǒng)性過濾。

主動求證這個能力特別關(guān)鍵。模型被訓(xùn)練成會把每個關(guān)鍵判斷拆解為可驗(yàn)證的子假設(shè)，然后主動發(fā)起對外查詢、檢索和比對。它不會滿足于給出一個"看起來合理"的答案，而是要找到可靠的信源支撐。如果輸出缺乏證據(jù)支持，在訓(xùn)練中會被系統(tǒng)性懲罰。這就培養(yǎng)了模型的一種本能：在不確定時，先查證再判斷。

多輪校驗(yàn)與自我修正則讓模型學(xué)會了"慢思考"。推理不再是一次性的線性路徑，而是可以反復(fù)回溯和修正的過程。當(dāng)模型發(fā)現(xiàn)證據(jù)沖突時，它會顯式調(diào)整假設(shè)，重新查證，而不是帶著錯誤繼續(xù)推下去。這就避免了傳統(tǒng)思維鏈推理中常見的問題：一旦某一步出錯，后面的所有推理都會隨著錯誤累積而崩潰。

最后是反幻覺機(jī)制。訓(xùn)練中不僅評估答案是否正確，更關(guān)注答案是如何得到的。那些依賴統(tǒng)計相關(guān)性、模式記憶或隱含先驗(yàn)而繞過證據(jù)驗(yàn)證的路徑，都會被標(biāo)記為低質(zhì)量推理。這種訓(xùn)練方式讓模型形成了一種習(xí)慣：在高風(fēng)險結(jié)論前，必須先查證再收斂。

通過這種方式，MiroThinker 1.5用更小的參數(shù)規(guī)模，換來了更高的智能密度。它不需要記住所有知識，只需要知道如何在需要時快速、精準(zhǔn)地找到并驗(yàn)證信息。這就是為什么30B參數(shù)的模型能跑出萬億參數(shù)模型的性能——因?yàn)樗闹悄茉鲩L空間不在內(nèi)部參數(shù)，而在外部交互。

時序敏感訓(xùn)練：破解因果律的關(guān)鍵

除了Interactive Scaling，MiroThinker 1.5還有一個獨(dú)特的技術(shù)創(chuàng)新：時序敏感訓(xùn)練沙盒。這個技術(shù)解決了一個長期困擾大模型的根本性問題——如何真正預(yù)測未來，而不是復(fù)述已知結(jié)果。

我發(fā)現(xiàn)很多人在談?wù)摯竽Ｐ偷?預(yù)測能力"時，其實(shí)混淆了兩個概念。傳統(tǒng)大模型在訓(xùn)練時通常處于一種"上帝視角"，它在訓(xùn)練數(shù)據(jù)里早已"見過結(jié)果"，所學(xué)到的往往只是如何復(fù)述這些結(jié)果，而不是真正的預(yù)測。這就像讓學(xué)生做練習(xí)題，但題目和答案都已經(jīng)告訴他了，他只需要記住就行。這種訓(xùn)練方式培養(yǎng)不出真正的預(yù)測能力。

MiroMind團(tuán)隊設(shè)計的時序敏感訓(xùn)練沙盒，為模型戴上了一個"緊箍咒"：嚴(yán)格約束只能使用當(dāng)前可見的信息，在信息可見性受限的情況下做出判斷。這個約束貫穿整個訓(xùn)練過程，模型的每一步推理都只能訪問當(dāng)前時間戳之前的信息，從機(jī)制上徹底杜絕了"未來信息泄露"的可能性。

具體實(shí)現(xiàn)上，團(tuán)隊構(gòu)建了一個可控數(shù)據(jù)合成引擎，能夠生成覆蓋多任務(wù)類型、難度和時間戳都可控的訓(xùn)練數(shù)據(jù)。關(guān)鍵是，每道題目的"正確答案"不是靜態(tài)標(biāo)簽，而是隨時間戳動態(tài)演化的。模型必須在嚴(yán)格的信息可見性約束下，基于當(dāng)時可獲取的信息做出判斷，而校驗(yàn)過程同樣會顯式引入時間戳約束，確保推演與評分都符合真實(shí)世界的時序邏輯。

更令我感興趣的是，這些預(yù)測不是"玄學(xué)"或事后諸葛亮，而是可以完全復(fù)盤驗(yàn)證的。團(tuán)隊提供的每個案例都有完整的思考過程記錄，可以看到模型是如何收集信息、如何分析情緒面和板塊走勢、如何在多個候選中做出選擇的。這種可驗(yàn)證性正是時序敏感訓(xùn)練帶來的：模型被迫學(xué)會在信息不完備、噪聲存在、信號延遲的真實(shí)條件下進(jìn)行推演與修正。

實(shí)測體驗(yàn)：城鎮(zhèn)人口增長

我花了相當(dāng)長時間測試MiroThinker 1.5的實(shí)際表現(xiàn)，選了一個需要跨時間數(shù)據(jù)分析的問題："從1949年到2009年，中國城鎮(zhèn)人口數(shù)量年均增長百分之多少？"這個問題特別有意思，因?yàn)樗枰Ｐ驼业娇煽康臍v史統(tǒng)計數(shù)據(jù)，理解年均增長率的計算方法，還要確保數(shù)據(jù)源的權(quán)威性。

MiroThinker 1.5的回答過程讓我印象深刻。它首先梳理了自己需要收集的所有信息：1949年中國城鎮(zhèn)人口基數(shù)、2009年城鎮(zhèn)人口數(shù)據(jù)、數(shù)據(jù)來源的可靠性驗(yàn)證。然后逐一查證，還會在每個步驟中反思驗(yàn)證當(dāng)前數(shù)據(jù)的準(zhǔn)確性。比如它會交叉對比國家統(tǒng)計局、歷年統(tǒng)計年鑒等多個權(quán)威來源的數(shù)據(jù)，確保數(shù)字的一致性。

最終給出的結(jié)論很嚴(yán)謹(jǐn)，整個推理過程透明可見，數(shù)據(jù)來源清晰標(biāo)注，計算步驟完整展示。我注意到MiroThinker 1.5從不會直接給出一個數(shù)字就完事，而是會呈現(xiàn)完整的數(shù)據(jù)獲取、驗(yàn)證和計算過程，讓用戶可以完全復(fù)現(xiàn)和檢驗(yàn)。

實(shí)測城鎮(zhèn)居民增長案例

通過這些實(shí)測，我最深刻的感受是：MiroThinker 1.5確實(shí)實(shí)現(xiàn)了從"給答案"到"找答案"的轉(zhuǎn)變。它不是告訴你一個結(jié)論讓你相信，而是展示完整的研究過程讓你理解。這種透明性和可驗(yàn)證性，對于需要高置信度決策的場景來說，價值遠(yuǎn)超一個簡單的答案。

想自己試試的朋友可以訪問：https://dr.miromind.ai/

基準(zhǔn)測試：用數(shù)據(jù)說話

當(dāng)然，實(shí)際體驗(yàn)只是一方面，更客觀的評價還是要看基準(zhǔn)測試。MiroThinker 1.5在多個權(quán)威基準(zhǔn)測試中的表現(xiàn)都達(dá)到了全球第一梯隊水平。

在BrowseComp測試中，MiroThinker 1.5的表現(xiàn)尤為亮眼。這是一個專門針對網(wǎng)頁檢索類大模型的基準(zhǔn)測試，要求模型能夠在互聯(lián)網(wǎng)環(huán)境中高效搜索、理解和整合信息。MiroThinker 1.5的235B版本在英文測試中得分69.8%，在中文版本中更是達(dá)到71.5%，直接刷新了此前ChatGPT-Agent保持的榜單紀(jì)錄。

BrowseComp 性能對比

在GAIA驗(yàn)證集測試中，MiroThinker 1.5達(dá)到了82.4%的準(zhǔn)確率。GAIA是一個評估AI agent真實(shí)世界任務(wù)完成能力的基準(zhǔn)，包含需要多步推理、工具使用和復(fù)雜決策的任務(wù)。這個成績超過了OpenAI Deep Research的67.4%，證明了MiroThinker 1.5在復(fù)雜任務(wù)處理上的優(yōu)勢。

HLE測試的結(jié)果同樣令人印象深刻。這是一個號稱"人類終極測試"的基準(zhǔn)，包含大量需要深度推理和世界知識的問題。MiroThinker 1.5在HLE-Text測試中達(dá)到29.5%，與DeepSeek-V3.1的29.8%幾乎持平，而后者的參數(shù)規(guī)模要大得多。

更值得關(guān)注的是FutureX基準(zhǔn)測試。這是一個專門評估模型預(yù)測未來事件能力的基準(zhǔn)，MiroMind在2025年9月15日登頂排行榜第一，并保持了4個月的第一。他們將GPT-5對未來事件的預(yù)測準(zhǔn)確率提升了11%，這個提升幅度非常顯著。

這對AI行業(yè)意味著什么

我認(rèn)為MiroThinker 1.5的意義遠(yuǎn)超一個性能優(yōu)異的模型本身。它代表了AI發(fā)展路徑的一次重要反思，提出了一個根本性問題：我們是要繼續(xù)在參數(shù)規(guī)模的紅海里拼資源，還是探索更智能、更高效的增長路徑？

過去幾年，AI行業(yè)陷入了一種"軍備競賽"的狀態(tài)。每家公司都在比拼誰的模型更大、誰的訓(xùn)練數(shù)據(jù)更多、誰的算力更強(qiáng)。這種競爭推動了技術(shù)進(jìn)步，但也導(dǎo)致了資源的極度消耗和邊際收益的遞減。當(dāng)模型參數(shù)從千億增加到萬億，訓(xùn)練成本可能增加十倍，但性能提升可能只有30%。這種投入產(chǎn)出比顯然是不可持續(xù)的。

MiroThinker 1.5的出現(xiàn)，提供了一個完全不同的思路：與其把有限的算力都用來擴(kuò)大模型內(nèi)部的知識存儲，不如訓(xùn)練模型學(xué)會如何高效地與外部世界交互。這個思路的核心在于認(rèn)識到，智能不等于全知，而是等于會學(xué)習(xí)、會查證、會推理。一個30B參數(shù)的模型，如果知道如何精準(zhǔn)地從外部世界獲取信息，就能解決那些需要萬億參數(shù)才能記住的問題。

從技術(shù)演進(jìn)的角度看，Interactive Scaling可能會成為繼模型規(guī)模、上下文長度之后的第三個核心擴(kuò)展維度。未來的模型競爭，可能不再是比誰的參數(shù)更多,而是比誰的交互能力更強(qiáng)、驗(yàn)證機(jī)制更嚴(yán)密、自我修正能力更好。這種轉(zhuǎn)變會從根本上改變AI系統(tǒng)的架構(gòu)設(shè)計和訓(xùn)練方法。

對于開發(fā)者和企業(yè)來說，這意味著更低的部署成本和更高的可解釋性。一個30B參數(shù)的模型可以在單張RTX 4090上運(yùn)行，這讓更多中小企業(yè)和個人開發(fā)者能夠使用先進(jìn)的AI能力。而且由于MiroThinker 1.5的推理過程是透明可見的，企業(yè)可以更好地理解和控制AI的決策過程,這對于需要合規(guī)性和可審計性的應(yīng)用場景特別重要。

網(wǎng)站：https://dr.miromind.ai/

Github代碼：https://github.com/MiroMindAI/MiroThinker

Hugging Face模型：https://huggingface.co/miromind-ai/MiroThinker-v1.5-235B

結(jié)尾

也歡迎大家留言討論，分享你的觀點(diǎn)！

覺得內(nèi)容不錯的朋友能夠幫忙右下角點(diǎn)個贊，分享一下。您的每次分享，都是在激勵我不斷產(chǎn)出更好的內(nèi)容。

歡迎關(guān)注深思圈，一起探索更大的世界。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.