當(dāng)AI學(xué)會(huì)了驗(yàn)證自己的推理

2026-03-19 11:43:30　來源: 深思圈

北京舉報(bào)

分享至

你有沒有想過，AI 到底能不能真正解決復(fù)雜問題？大多數(shù)人用 AI 的體驗(yàn)可能是這樣的：問它一個(gè)問題，它給你一個(gè)看起來很有道理的答案，但你總覺得心里沒底，不知道該不該相信。這種不確定性正是當(dāng)前 AI 系統(tǒng)的致命弱點(diǎn)。它們善于生成流暢的文字，卻不擅長保證答案的準(zhǔn)確性。但如果我告訴你，有一個(gè) AI 系統(tǒng)能在提前 15 天預(yù)測黃金價(jià)格，誤差只有 0.08%；能在一個(gè)月前準(zhǔn)確預(yù)測超級碗冠軍；甚至能提前三周預(yù)測格萊美最大贏家，你會(huì)不會(huì)覺得這才是 AI 應(yīng)該有的樣子？

這不是科幻故事，而是由著名企業(yè)家陳天橋創(chuàng)立的 MiroMind 正在實(shí)現(xiàn)的現(xiàn)實(shí)。他們剛剛發(fā)布了最新的研究型 AI agent 家族：MiroThinker-1.7 和 MiroThinker-H1。我深入研究了這個(gè)系統(tǒng)后發(fā)現(xiàn)，它代表著一個(gè)重要的轉(zhuǎn)變：從概率性生成轉(zhuǎn)向可驗(yàn)證的準(zhǔn)確性。這不是簡單的模型升級，而是對 AI 系統(tǒng)本質(zhì)的重新思考。更讓我興奮的是，這種能力很快就能通過他們的移動(dòng)應(yīng)用體驗(yàn)到，讓普通用戶也能使用這種級別的 AI 推理能力。

為什么我們需要重型推理系統(tǒng)

我一直覺得，當(dāng)前大多數(shù) AI 系統(tǒng)有一個(gè)根本性問題：它們被設(shè)計(jì)成聊天機(jī)器人，而不是問題解決者。聊天機(jī)器人的目標(biāo)是提供看起來合理的回答，讓對話繼續(xù)下去。但真正的問題解決需要的是完全不同的能力：長鏈推理、與現(xiàn)實(shí)世界的互動(dòng)、對不確定性的處理，以及最重要的——驗(yàn)證自己的答案是否正確。

MiroMind 團(tuán)隊(duì)提出了一個(gè)我非常認(rèn)同的觀點(diǎn)：下一個(gè)前沿不是更廣泛的知識(shí)或更精致的對話，而是能夠持續(xù)進(jìn)行長鏈推理、與不確定性交互、與世界互動(dòng)，并在關(guān)鍵任務(wù)上收斂到更好答案的系統(tǒng)。這種系統(tǒng)被他們稱為"重型 AI agent"，專門用來處理那些真正困難、高價(jià)值的問題。聽起來很抽象，但當(dāng)你看到它能提前預(yù)測金融市場走勢、體育賽事結(jié)果甚至娛樂行業(yè)趨勢時(shí)，你就能理解這種能力的價(jià)值了。

從性能數(shù)據(jù)來看，MiroThinker-H1 在多個(gè)關(guān)鍵基準(zhǔn)測試上達(dá)到了業(yè)界最先進(jìn)水平。在 BrowseComp 和 BrowseComp-ZH 這兩個(gè)衡量模型在英文和中文環(huán)境下執(zhí)行高級研究能力的基準(zhǔn)測試中，MiroThinker-H1 超越了所有主要競爭模型。在科學(xué)研究和高級數(shù)學(xué)領(lǐng)域，它在 FrontierScience-Research 和 FrontierScience-Olympiad 上創(chuàng)下新紀(jì)錄，甚至超過了領(lǐng)先的閉源前沿模型。在金融領(lǐng)域，它在 FinSearchComp 上領(lǐng)先業(yè)界，展示了其在高精度經(jīng)濟(jì)分析方面的實(shí)用性。

但我更關(guān)注的不是這些冰冷的數(shù)字，而是背后的設(shè)計(jì)理念。MiroMind 團(tuán)隊(duì)認(rèn)為，與現(xiàn)實(shí)世界反饋的交互不是問題解決的輔助手段，而是核心機(jī)制。這個(gè)觀點(diǎn)徹底顛覆了傳統(tǒng) AI 的設(shè)計(jì)思路。傳統(tǒng) AI 主要依賴訓(xùn)練數(shù)據(jù)中的知識(shí)，而 MiroThinker 則被訓(xùn)練成主動(dòng)尋找證據(jù)、測試假設(shè)、不斷修正直到收斂，讓外部驗(yàn)證成為推理本身的原生部分。

交互質(zhì)量比交互數(shù)量更重要

在研究 MiroThinker 的技術(shù)細(xì)節(jié)時(shí)，我發(fā)現(xiàn)了一個(gè)特別有意思的洞察：更多的交互輪次、更多的工具調(diào)用、更多的重試，確實(shí)能在基準(zhǔn)測試上帶來快速提升。但這種簡單的交互擴(kuò)展并不等同于有效的交互擴(kuò)展。當(dāng)中間步驟無法真正推進(jìn)解決方案時(shí)，額外的交互只會(huì)放大噪音、復(fù)合錯(cuò)誤，產(chǎn)生表面上的運(yùn)動(dòng)而沒有實(shí)質(zhì)進(jìn)展。

這讓我想起自己工作中的經(jīng)歷。有時(shí)候?yàn)榱私鉀Q一個(gè)問題，我會(huì)嘗試很多不同的方法，做很多實(shí)驗(yàn)，但最后發(fā)現(xiàn)大部分嘗試都是無用功，甚至讓問題變得更復(fù)雜。真正有效的解決方案往往需要的是深思熟慮的步驟，而不是盲目的大量嘗試。MiroMind 團(tuán)隊(duì)也意識(shí)到了這一點(diǎn)，他們拒絕將交互量作為能力的代理指標(biāo)，而是轉(zhuǎn)向從兩個(gè)維度提高交互質(zhì)量。

一方面，他們繼續(xù)深化 AI agent 在各種場景下的推理深度和精確度，因?yàn)檫@是應(yīng)對更長時(shí)間跨度任務(wù)的基礎(chǔ)核心能力。另一方面，他們致力于讓每個(gè)單獨(dú)的步驟更加準(zhǔn)確可靠，加強(qiáng)中間決策的質(zhì)量，使得交互擴(kuò)展反映的是真正的進(jìn)展，而不是累積的噪音。在實(shí)踐中，這要求 AI agent 放慢速度：暫停、驗(yàn)證、權(quán)衡替代方案，然后審慎地給出答案，確保做對的事而不只是做事。

這種"慢下來"的設(shè)計(jì)哲學(xué)一開始可能讓人覺得反直覺。在這個(gè)追求速度的時(shí)代，為什么要讓 AI 變慢？但仔細(xì)想想，這恰恰是重型解決者的特征：它不是為速度而建，而是為那些真正困難、高價(jià)值、需要準(zhǔn)確性的問題而建。就像一個(gè)經(jīng)驗(yàn)豐富的工程師在做關(guān)鍵決策時(shí)，寧愿多花時(shí)間思考也不會(huì)草率下結(jié)論。

兩大技術(shù)升級讓推理更可靠

為了實(shí)現(xiàn)這種高質(zhì)量的交互，MiroMind 引入了兩項(xiàng)重大技術(shù)升級。第一項(xiàng)是升級 agent 原生訓(xùn)練，第二項(xiàng)是引入驗(yàn)證為中心的重型推理模式。我覺得這兩項(xiàng)升級的組合非常巧妙，它們從局部和全局兩個(gè)層面提升了系統(tǒng)的可靠性。

第一項(xiàng)升級從一個(gè)簡單的觀察開始：如果 AI agent 的基本動(dòng)作是嘈雜、膚淺或弱基礎(chǔ)的，那么擴(kuò)展交互只會(huì)擴(kuò)展低效率。更多的輪次無法彌補(bǔ)弱步驟質(zhì)量。為了讓交互擴(kuò)展真正有效，首先應(yīng)該提高模型的 agent 原生能力——形成可靠的局部判斷、采取可靠的中間行動(dòng)、在長時(shí)間跨度的問題解決過程中保持正軌的能力。

MiroThinker-1.7 在訓(xùn)練流程中引入了中期訓(xùn)練作為新的核心階段。在這個(gè)階段，系統(tǒng)合成了大規(guī)模專注于規(guī)劃、推理和總結(jié)的數(shù)據(jù)，同時(shí)顯著擴(kuò)展了任務(wù)領(lǐng)域的多樣性。這為模型提供了更強(qiáng)的 agent 行為原生基礎(chǔ)：它變得更能夠分解目標(biāo)、選擇合適的工具調(diào)用、解釋工具響應(yīng)并綜合最終答案。結(jié)果是，交互過程中的每個(gè)單獨(dú)步驟都變得更可靠、更有根據(jù)，為有效的交互擴(kuò)展建立了更強(qiáng)的基礎(chǔ)。

在這個(gè)新基礎(chǔ)之上，后續(xù)的訓(xùn)練階段（監(jiān)督微調(diào)、偏好優(yōu)化和強(qiáng)化學(xué)習(xí)）進(jìn)一步將這些能力塑造成更結(jié)構(gòu)化、更穩(wěn)健的長鏈行為。這些階段共同使模型能夠在擴(kuò)展的交互軌跡中保持準(zhǔn)確的推理和有根據(jù)的行動(dòng)，保持朝向任務(wù)目標(biāo)的連貫進(jìn)展，實(shí)現(xiàn)更可靠的長時(shí)間跨度問題解決。

第二項(xiàng)升級更加激進(jìn)。MiroThinker-H1 引入了驗(yàn)證為中心的重型推理模式。這個(gè)架構(gòu)背后的核心信念是，推理的可靠性最終取決于系統(tǒng)檢查自己推理過程的能力。驗(yàn)證器作為關(guān)鍵組件貫穿始終，在兩個(gè)層面運(yùn)作。在局部驗(yàn)證層面，它打破概率偏差，充分探索正確的路徑，而不僅僅是可能的路徑。在全局驗(yàn)證層面，它審計(jì)完整的證據(jù)鏈，讓支持最充分的答案勝出，而不是最自信的答案。

我特別喜歡這種設(shè)計(jì)。它讓我想起科學(xué)研究的方法：提出假設(shè)、設(shè)計(jì)實(shí)驗(yàn)、收集證據(jù)、驗(yàn)證結(jié)論。MiroThinker-H1 本質(zhì)上是在模擬這個(gè)過程，但速度快得多。在這種模式下，除了準(zhǔn)確性的顯著提升，團(tuán)隊(duì)還觀察到一個(gè)有希望的現(xiàn)象：交互步驟數(shù)量大幅減少。這表明驗(yàn)證器本質(zhì)上是在過濾掉那些不產(chǎn)生信息增益的步驟，將計(jì)算集中在真正推進(jìn)解決方案的交互上。更少的步驟并不與"重型"矛盾，相反，它們?yōu)檫M(jìn)一步擴(kuò)展有效交互奠定了基礎(chǔ)。

關(guān)于MiroThinker 1.7&H1的詳細(xì)技術(shù)解讀，可以看官方的技術(shù)報(bào)告，目前已登上了HuggingFace Daily Paper的第一名：

https://huggingface.co/papers/2603.15726

實(shí)際案例：預(yù)測能力的驚人展示

理論說得再多，不如看看實(shí)際效果。MiroMind 團(tuán)隊(duì)展示了三個(gè)令人印象深刻的預(yù)測案例，每一個(gè)都展示了系統(tǒng)在不同領(lǐng)域的能力。

第一個(gè)是金融預(yù)測案例。2026 年 2 月 10 日，系統(tǒng)被要求預(yù)測 2 月 25 日的黃金價(jià)格。MiroThinker 預(yù)測黃金價(jià)格將達(dá)到每盎司 5185 美元。實(shí)際結(jié)果是，F(xiàn)ortune 報(bào)價(jià) 5181 美元，150 Currency 報(bào)價(jià) 5185.89 美元，而 CME GCG26 期貨結(jié)算價(jià)為 5206.40 美元。與 Fortune 的現(xiàn)貨報(bào)價(jià)相比，誤差僅為 4 美元，相對誤差 0.08%。提前 15 天預(yù)測一個(gè)波動(dòng)劇烈的金融市場，誤差控制在 0.08% 以內(nèi)，這個(gè)精度讓我非常震驚。

第二個(gè)是體育預(yù)測案例。2026 年 1 月 6 日，系統(tǒng)被要求預(yù)測誰會(huì)贏得 2026 年超級碗。MiroThinker 識(shí)別出西雅圖海鷹隊(duì)最有可能成為超級碗 LX 冠軍。實(shí)際結(jié)果是，2 月 8 日，西雅圖海鷹隊(duì)以 29-13 擊敗新英格蘭愛國者隊(duì)，贏得超級碗 LX。提前一個(gè)月準(zhǔn)確預(yù)測冠軍，這不是運(yùn)氣，而是系統(tǒng)通過分析大量數(shù)據(jù)、評估各種因素后得出的結(jié)論。

第三個(gè)是娛樂預(yù)測案例。2026 年 1 月 8 日，系統(tǒng)被要求預(yù)測哪位藝術(shù)家最有可能主導(dǎo) 2026 年格萊美獎(jiǎng)。MiroThinker 識(shí)別出 Kendrick Lamar 最有可能主導(dǎo) 2026 年格萊美獎(jiǎng)。實(shí)際結(jié)果是，在 2 月 1 日舉行的第 68 屆格萊美獎(jiǎng)上，Kendrick Lamar 獲得 5 個(gè)獎(jiǎng)項(xiàng)，包括年度唱片獎(jiǎng)《Luther》，成為當(dāng)晚最大贏家。提前三周準(zhǔn)確預(yù)測，再次驗(yàn)證了系統(tǒng)的分析能力。

這三個(gè)案例覆蓋了完全不同的領(lǐng)域——金融、體育、娛樂，但都展示了相同的特點(diǎn)：系統(tǒng)不是在猜測，而是在通過嚴(yán)格的推理、證據(jù)收集和驗(yàn)證過程來得出結(jié)論。這正是 MiroMind 所追求的"可驗(yàn)證的準(zhǔn)確性"，而不是"看起來合理的答案"。

從模型到產(chǎn)品：App讓AI推理觸手可及

了解了 MiroThinker 的強(qiáng)大能力后，我最關(guān)心的問題是：普通用戶能不能用上這些能力？畢竟，再先進(jìn)的技術(shù)如果只能停留在實(shí)驗(yàn)室里，對大多數(shù)人來說都是遙不可及的。好消息是，MiroMind 剛剛在 3 月 5 日宣布正式在 iOS、Android 和網(wǎng)頁平臺(tái)公開發(fā)布他們的 AI 推理平臺(tái)，這標(biāo)志著他們在產(chǎn)品化道路上的重要里程碑。

我特別關(guān)注他們的移動(dòng)應(yīng)用，因?yàn)檫@代表著真正的普及化。MiroMind 的 App 現(xiàn)在已經(jīng)可以在 App Store 和 Google Play 下載，讓全球用戶都能體驗(yàn)到這種通用 AI 推理能力。更重要的是，MiroThinker-1.7 的最新能力即將在 App 上線，這意味著用戶很快就能在手機(jī)上使用這些先進(jìn)的推理和預(yù)測功能。

從產(chǎn)品設(shè)計(jì)來看，MiroMind 的定位很清晰：它不是又一個(gè)聊天機(jī)器人，而是一個(gè)為解決重要問題而設(shè)計(jì)的推理平臺(tái)。App 提供了幾個(gè)核心功能，每一個(gè)都體現(xiàn)了他們"驗(yàn)證為中心"的設(shè)計(jì)理念。

深度研究模式是我最感興趣的功能之一。在這個(gè)模式下，系統(tǒng)會(huì)自主搜索、瀏覽和綜合來自數(shù)百個(gè)來源的信息，提供全面的、有證據(jù)支持的報(bào)告。它不只是做表面的總結(jié)，而是深入挖掘復(fù)雜主題背后的真相。這對研究人員、分析師或任何需要深入了解某個(gè)話題的人來說都非常有價(jià)值。

高級推理功能專門用于處理數(shù)學(xué)、編程、邏輯和結(jié)構(gòu)化分析中的復(fù)雜問題。系統(tǒng)采用迭代的、多步驟的驗(yàn)證來確保推理鏈每個(gè)階段的準(zhǔn)確性。每個(gè)中間結(jié)論都會(huì)在系統(tǒng)繼續(xù)之前被檢查，消除了困擾傳統(tǒng) AI 輸出的復(fù)合錯(cuò)誤。這種嚴(yán)格的驗(yàn)證過程正是 MiroThinker 與其他 AI 系統(tǒng)的根本區(qū)別。

預(yù)測智能功能則是針對前瞻性分析優(yōu)化的。通過評估數(shù)據(jù)模式并應(yīng)用時(shí)間推理，平臺(tái)支持從金融預(yù)測、情景建模到競爭格局分析的各種應(yīng)用。它為用戶提供的是 AI 驅(qū)動(dòng)的遠(yuǎn)見，而不是回顧性總結(jié)。前面提到的那些驚人預(yù)測案例，都可以通過這個(gè)功能實(shí)現(xiàn)。

實(shí)時(shí)網(wǎng)絡(luò)智能是另一個(gè)關(guān)鍵特性。系統(tǒng)不僅僅依賴訓(xùn)練數(shù)據(jù)，而是集成實(shí)時(shí)網(wǎng)絡(luò)搜索，將每個(gè)回答都建立在當(dāng)前的、可驗(yàn)證的信息基礎(chǔ)上。它不會(huì)猜測，而是主動(dòng)根據(jù)最新的可用來源驗(yàn)證聲明，提供用戶可以信任的答案。

對于想要下載體驗(yàn)的用戶，可以通過以下方式獲取：

iOS 用戶可以在 App Store 搜索 MiroMind 或訪問 https://apps.apple.com/app/id6759390724 下載；
Android 用戶可以在 Google Play 搜索或訪問 https://play.google.com/store/apps/details?id=ai.miromind.app 下載。
網(wǎng)頁版可以直接訪問官網(wǎng)https://dr.miromind.ai/使用。

我對未來的期待

雖然 MiroMind 已經(jīng)展示了令人印象深刻的能力，但我認(rèn)為這只是開始。真正讓我興奮的是這種驗(yàn)證為中心的方法論可能帶來的長遠(yuǎn)影響。

想象一下，如果每個(gè)企業(yè)決策都能有一個(gè) AI 系統(tǒng)幫助分析、推理和驗(yàn)證，會(huì)是什么樣子？如果科研人員能夠讓 AI 幫助他們探索假設(shè)、設(shè)計(jì)實(shí)驗(yàn)、分析數(shù)據(jù)，同時(shí)確保每一步都經(jīng)過嚴(yán)格驗(yàn)證，科學(xué)發(fā)現(xiàn)的速度會(huì)加快多少？如果醫(yī)生在診斷疾病時(shí)能夠借助 AI 系統(tǒng)全面分析患者數(shù)據(jù)、文獻(xiàn)證據(jù)和治療方案，同時(shí)系統(tǒng)能夠解釋和驗(yàn)證每個(gè)推理步驟，醫(yī)療質(zhì)量會(huì)提升到什么程度？

當(dāng)然，這些應(yīng)用場景的實(shí)現(xiàn)還需要時(shí)間。AI 系統(tǒng)再強(qiáng)大，也需要與人類專家的經(jīng)驗(yàn)和判斷相結(jié)合。但 MiroMind 提供的方向是正確的：不是用 AI 替代人類，而是讓 AI 成為人類解決復(fù)雜問題的可靠伙伴。

從產(chǎn)品化的角度，我期待看到 MiroThinker-1.7 在移動(dòng)應(yīng)用上的表現(xiàn)。把如此強(qiáng)大的推理能力放到每個(gè)人的手機(jī)上，這本身就是一個(gè)壯舉。如果他們能夠在保持準(zhǔn)確性的同時(shí)優(yōu)化用戶體驗(yàn)，讓普通用戶也能輕松使用這些高級功能，那將真正實(shí)現(xiàn)技術(shù)的民主化。

API Console 的推出也值得期待。一旦開發(fā)者能夠方便地調(diào)用這些推理能力，我們可能會(huì)看到大量創(chuàng)新應(yīng)用的涌現(xiàn)。從智能投資顧問到科研助手，從法律分析工具到醫(yī)療決策支持系統(tǒng)，各種垂直領(lǐng)域的應(yīng)用都可能因?yàn)榻尤脒@種驗(yàn)證式推理能力而獲得質(zhì)的提升。

最后，我想說的是，MiroMind 代表的不只是一個(gè)公司或一個(gè)產(chǎn)品，而是一種對 AI 未來的愿景。這個(gè)愿景是：AI 不應(yīng)該只是一個(gè)會(huì)說話的工具，而應(yīng)該是一個(gè)能夠真正思考、能夠驗(yàn)證自己思考過程、能夠解決人類尚未解決問題的智能系統(tǒng)。這種愿景能否實(shí)現(xiàn)，還需要時(shí)間來驗(yàn)證。但至少，MiroMind 已經(jīng)邁出了重要的第一步。

如果你也對這種新一代 AI 推理系統(tǒng)感興趣，我建議你去下載他們的 App 親自體驗(yàn)一下。當(dāng) MiroThinker-1.7 上線后，你可以直接在手機(jī)上感受這種"驗(yàn)證為中心"的推理能力。或者，如果你是開發(fā)者，可以關(guān)注他們的 GitHub 和即將推出的 API，探索如何將這種能力集成到自己的項(xiàng)目中。

下一代智能不只是關(guān)于對話，而是關(guān)于審慎的、長鏈的、具有 99% 累積準(zhǔn)確率的推理。這個(gè)未來，正在到來。

官網(wǎng)：https://www.miromind.ai/

GitHub：https://github.com/MiroMindAI

Hugging Face：https://huggingface.co/MiroMind-ai

招聘聯(lián)系：talent@miromind.ai

App Store：https://apps.apple.com/app/id6759390724

Google Play：https://play.google.com/store/apps/details?id=ai.miromind.app

結(jié)尾

也歡迎大家留言討論，分享你的觀點(diǎn)！

覺得內(nèi)容不錯(cuò)的朋友能夠幫忙右下角點(diǎn)個(gè)贊，分享一下。您的每次分享，都是在激勵(lì)我不斷產(chǎn)出更好的內(nèi)容。

歡迎關(guān)注深思圈，一起探索更大的世界。

- END -

兩個(gè)“特別坑”的AI產(chǎn)品創(chuàng)業(yè)方向，你知道嗎

速度將成為AI時(shí)代唯一的護(hù)城河

a16z重磅預(yù)測：Vibe coding贏者通吃？錯(cuò)了，垂直專業(yè)化才是未來

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.