![]()
你有沒有想過,AI 到底能不能真正解決復(fù)雜問題?大多數(shù)人用 AI 的體驗(yàn)可能是這樣的:問它一個(gè)問題,它給你一個(gè)看起來很有道理的答案,但你總覺得心里沒底,不知道該不該相信。這種不確定性正是當(dāng)前 AI 系統(tǒng)的致命弱點(diǎn)。它們善于生成流暢的文字,卻不擅長保證答案的準(zhǔn)確性。但如果我告訴你,有一個(gè) AI 系統(tǒng)能在提前 15 天預(yù)測黃金價(jià)格,誤差只有 0.08%;能在一個(gè)月前準(zhǔn)確預(yù)測超級碗冠軍;甚至能提前三周預(yù)測格萊美最大贏家,你會(huì)不會(huì)覺得這才是 AI 應(yīng)該有的樣子?
這不是科幻故事,而是由著名企業(yè)家陳天橋創(chuàng)立的 MiroMind 正在實(shí)現(xiàn)的現(xiàn)實(shí)。他們剛剛發(fā)布了最新的研究型 AI agent 家族:MiroThinker-1.7 和 MiroThinker-H1。我深入研究了這個(gè)系統(tǒng)后發(fā)現(xiàn),它代表著一個(gè)重要的轉(zhuǎn)變:從概率性生成轉(zhuǎn)向可驗(yàn)證的準(zhǔn)確性。這不是簡單的模型升級,而是對 AI 系統(tǒng)本質(zhì)的重新思考。更讓我興奮的是,這種能力很快就能通過他們的移動(dòng)應(yīng)用體驗(yàn)到,讓普通用戶也能使用這種級別的 AI 推理能力。
為什么我們需要重型推理系統(tǒng)
我一直覺得,當(dāng)前大多數(shù) AI 系統(tǒng)有一個(gè)根本性問題:它們被設(shè)計(jì)成聊天機(jī)器人,而不是問題解決者。聊天機(jī)器人的目標(biāo)是提供看起來合理的回答,讓對話繼續(xù)下去。但真正的問題解決需要的是完全不同的能力:長鏈推理、與現(xiàn)實(shí)世界的互動(dòng)、對不確定性的處理,以及最重要的——驗(yàn)證自己的答案是否正確。
MiroMind 團(tuán)隊(duì)提出了一個(gè)我非常認(rèn)同的觀點(diǎn):下一個(gè)前沿不是更廣泛的知識(shí)或更精致的對話,而是能夠持續(xù)進(jìn)行長鏈推理、與不確定性交互、與世界互動(dòng),并在關(guān)鍵任務(wù)上收斂到更好答案的系統(tǒng)。這種系統(tǒng)被他們稱為"重型 AI agent",專門用來處理那些真正困難、高價(jià)值的問題。聽起來很抽象,但當(dāng)你看到它能提前預(yù)測金融市場走勢、體育賽事結(jié)果甚至娛樂行業(yè)趨勢時(shí),你就能理解這種能力的價(jià)值了。
從性能數(shù)據(jù)來看,MiroThinker-H1 在多個(gè)關(guān)鍵基準(zhǔn)測試上達(dá)到了業(yè)界最先進(jìn)水平。在 BrowseComp 和 BrowseComp-ZH 這兩個(gè)衡量模型在英文和中文環(huán)境下執(zhí)行高級研究能力的基準(zhǔn)測試中,MiroThinker-H1 超越了所有主要競爭模型。在科學(xué)研究和高級數(shù)學(xué)領(lǐng)域,它在 FrontierScience-Research 和 FrontierScience-Olympiad 上創(chuàng)下新紀(jì)錄,甚至超過了領(lǐng)先的閉源前沿模型。在金融領(lǐng)域,它在 FinSearchComp 上領(lǐng)先業(yè)界,展示了其在高精度經(jīng)濟(jì)分析方面的實(shí)用性。
![]()
但我更關(guān)注的不是這些冰冷的數(shù)字,而是背后的設(shè)計(jì)理念。MiroMind 團(tuán)隊(duì)認(rèn)為,與現(xiàn)實(shí)世界反饋的交互不是問題解決的輔助手段,而是核心機(jī)制。這個(gè)觀點(diǎn)徹底顛覆了傳統(tǒng) AI 的設(shè)計(jì)思路。傳統(tǒng) AI 主要依賴訓(xùn)練數(shù)據(jù)中的知識(shí),而 MiroThinker 則被訓(xùn)練成主動(dòng)尋找證據(jù)、測試假設(shè)、不斷修正直到收斂,讓外部驗(yàn)證成為推理本身的原生部分。
交互質(zhì)量比交互數(shù)量更重要
在研究 MiroThinker 的技術(shù)細(xì)節(jié)時(shí),我發(fā)現(xiàn)了一個(gè)特別有意思的洞察:更多的交互輪次、更多的工具調(diào)用、更多的重試,確實(shí)能在基準(zhǔn)測試上帶來快速提升。但這種簡單的交互擴(kuò)展并不等同于有效的交互擴(kuò)展。當(dāng)中間步驟無法真正推進(jìn)解決方案時(shí),額外的交互只會(huì)放大噪音、復(fù)合錯(cuò)誤,產(chǎn)生表面上的運(yùn)動(dòng)而沒有實(shí)質(zhì)進(jìn)展。
這讓我想起自己工作中的經(jīng)歷。有時(shí)候?yàn)榱私鉀Q一個(gè)問題,我會(huì)嘗試很多不同的方法,做很多實(shí)驗(yàn),但最后發(fā)現(xiàn)大部分嘗試都是無用功,甚至讓問題變得更復(fù)雜。真正有效的解決方案往往需要的是深思熟慮的步驟,而不是盲目的大量嘗試。MiroMind 團(tuán)隊(duì)也意識(shí)到了這一點(diǎn),他們拒絕將交互量作為能力的代理指標(biāo),而是轉(zhuǎn)向從兩個(gè)維度提高交互質(zhì)量。
一方面,他們繼續(xù)深化 AI agent 在各種場景下的推理深度和精確度,因?yàn)檫@是應(yīng)對更長時(shí)間跨度任務(wù)的基礎(chǔ)核心能力。另一方面,他們致力于讓每個(gè)單獨(dú)的步驟更加準(zhǔn)確可靠,加強(qiáng)中間決策的質(zhì)量,使得交互擴(kuò)展反映的是真正的進(jìn)展,而不是累積的噪音。在實(shí)踐中,這要求 AI agent 放慢速度:暫停、驗(yàn)證、權(quán)衡替代方案,然后審慎地給出答案,確保做對的事而不只是做事。
這種"慢下來"的設(shè)計(jì)哲學(xué)一開始可能讓人覺得反直覺。在這個(gè)追求速度的時(shí)代,為什么要讓 AI 變慢?但仔細(xì)想想,這恰恰是重型解決者的特征:它不是為速度而建,而是為那些真正困難、高價(jià)值、需要準(zhǔn)確性的問題而建。就像一個(gè)經(jīng)驗(yàn)豐富的工程師在做關(guān)鍵決策時(shí),寧愿多花時(shí)間思考也不會(huì)草率下結(jié)論。
兩大技術(shù)升級讓推理更可靠
為了實(shí)現(xiàn)這種高質(zhì)量的交互,MiroMind 引入了兩項(xiàng)重大技術(shù)升級。第一項(xiàng)是升級 agent 原生訓(xùn)練,第二項(xiàng)是引入驗(yàn)證為中心的重型推理模式。我覺得這兩項(xiàng)升級的組合非常巧妙,它們從局部和全局兩個(gè)層面提升了系統(tǒng)的可靠性。
第一項(xiàng)升級從一個(gè)簡單的觀察開始:如果 AI agent 的基本動(dòng)作是嘈雜、膚淺或弱基礎(chǔ)的,那么擴(kuò)展交互只會(huì)擴(kuò)展低效率。更多的輪次無法彌補(bǔ)弱步驟質(zhì)量。為了讓交互擴(kuò)展真正有效,首先應(yīng)該提高模型的 agent 原生能力——形成可靠的局部判斷、采取可靠的中間行動(dòng)、在長時(shí)間跨度的問題解決過程中保持正軌的能力。
![]()
MiroThinker-1.7 在訓(xùn)練流程中引入了中期訓(xùn)練作為新的核心階段。在這個(gè)階段,系統(tǒng)合成了大規(guī)模專注于規(guī)劃、推理和總結(jié)的數(shù)據(jù),同時(shí)顯著擴(kuò)展了任務(wù)領(lǐng)域的多樣性。這為模型提供了更強(qiáng)的 agent 行為原生基礎(chǔ):它變得更能夠分解目標(biāo)、選擇合適的工具調(diào)用、解釋工具響應(yīng)并綜合最終答案。結(jié)果是,交互過程中的每個(gè)單獨(dú)步驟都變得更可靠、更有根據(jù),為有效的交互擴(kuò)展建立了更強(qiáng)的基礎(chǔ)。
在這個(gè)新基礎(chǔ)之上,后續(xù)的訓(xùn)練階段(監(jiān)督微調(diào)、偏好優(yōu)化和強(qiáng)化學(xué)習(xí))進(jìn)一步將這些能力塑造成更結(jié)構(gòu)化、更穩(wěn)健的長鏈行為。這些階段共同使模型能夠在擴(kuò)展的交互軌跡中保持準(zhǔn)確的推理和有根據(jù)的行動(dòng),保持朝向任務(wù)目標(biāo)的連貫進(jìn)展,實(shí)現(xiàn)更可靠的長時(shí)間跨度問題解決。
第二項(xiàng)升級更加激進(jìn)。MiroThinker-H1 引入了驗(yàn)證為中心的重型推理模式。這個(gè)架構(gòu)背后的核心信念是,推理的可靠性最終取決于系統(tǒng)檢查自己推理過程的能力。驗(yàn)證器作為關(guān)鍵組件貫穿始終,在兩個(gè)層面運(yùn)作。在局部驗(yàn)證層面,它打破概率偏差,充分探索正確的路徑,而不僅僅是可能的路徑。在全局驗(yàn)證層面,它審計(jì)完整的證據(jù)鏈,讓支持最充分的答案勝出,而不是最自信的答案。
![]()
我特別喜歡這種設(shè)計(jì)。它讓我想起科學(xué)研究的方法:提出假設(shè)、設(shè)計(jì)實(shí)驗(yàn)、收集證據(jù)、驗(yàn)證結(jié)論。MiroThinker-H1 本質(zhì)上是在模擬這個(gè)過程,但速度快得多。在這種模式下,除了準(zhǔn)確性的顯著提升,團(tuán)隊(duì)還觀察到一個(gè)有希望的現(xiàn)象:交互步驟數(shù)量大幅減少。這表明驗(yàn)證器本質(zhì)上是在過濾掉那些不產(chǎn)生信息增益的步驟,將計(jì)算集中在真正推進(jìn)解決方案的交互上。更少的步驟并不與"重型"矛盾,相反,它們?yōu)檫M(jìn)一步擴(kuò)展有效交互奠定了基礎(chǔ)。
關(guān)于MiroThinker 1.7&H1的詳細(xì)技術(shù)解讀,可以看官方的技術(shù)報(bào)告,目前已登上了HuggingFace Daily Paper的第一名:
https://huggingface.co/papers/2603.15726
實(shí)際案例:預(yù)測能力的驚人展示
理論說得再多,不如看看實(shí)際效果。MiroMind 團(tuán)隊(duì)展示了三個(gè)令人印象深刻的預(yù)測案例,每一個(gè)都展示了系統(tǒng)在不同領(lǐng)域的能力。
第一個(gè)是金融預(yù)測案例。2026 年 2 月 10 日,系統(tǒng)被要求預(yù)測 2 月 25 日的黃金價(jià)格。MiroThinker 預(yù)測黃金價(jià)格將達(dá)到每盎司 5185 美元。實(shí)際結(jié)果是,F(xiàn)ortune 報(bào)價(jià) 5181 美元,150 Currency 報(bào)價(jià) 5185.89 美元,而 CME GCG26 期貨結(jié)算價(jià)為 5206.40 美元。與 Fortune 的現(xiàn)貨報(bào)價(jià)相比,誤差僅為 4 美元,相對誤差 0.08%。提前 15 天預(yù)測一個(gè)波動(dòng)劇烈的金融市場,誤差控制在 0.08% 以內(nèi),這個(gè)精度讓我非常震驚。
![]()
第二個(gè)是體育預(yù)測案例。2026 年 1 月 6 日,系統(tǒng)被要求預(yù)測誰會(huì)贏得 2026 年超級碗。MiroThinker 識(shí)別出西雅圖海鷹隊(duì)最有可能成為超級碗 LX 冠軍。實(shí)際結(jié)果是,2 月 8 日,西雅圖海鷹隊(duì)以 29-13 擊敗新英格蘭愛國者隊(duì),贏得超級碗 LX。提前一個(gè)月準(zhǔn)確預(yù)測冠軍,這不是運(yùn)氣,而是系統(tǒng)通過分析大量數(shù)據(jù)、評估各種因素后得出的結(jié)論。
![]()
第三個(gè)是娛樂預(yù)測案例。2026 年 1 月 8 日,系統(tǒng)被要求預(yù)測哪位藝術(shù)家最有可能主導(dǎo) 2026 年格萊美獎(jiǎng)。MiroThinker 識(shí)別出 Kendrick Lamar 最有可能主導(dǎo) 2026 年格萊美獎(jiǎng)。實(shí)際結(jié)果是,在 2 月 1 日舉行的第 68 屆格萊美獎(jiǎng)上,Kendrick Lamar 獲得 5 個(gè)獎(jiǎng)項(xiàng),包括年度唱片獎(jiǎng)《Luther》,成為當(dāng)晚最大贏家。提前三周準(zhǔn)確預(yù)測,再次驗(yàn)證了系統(tǒng)的分析能力。
這三個(gè)案例覆蓋了完全不同的領(lǐng)域——金融、體育、娛樂,但都展示了相同的特點(diǎn):系統(tǒng)不是在猜測,而是在通過嚴(yán)格的推理、證據(jù)收集和驗(yàn)證過程來得出結(jié)論。這正是 MiroMind 所追求的"可驗(yàn)證的準(zhǔn)確性",而不是"看起來合理的答案"。
從模型到產(chǎn)品:App讓AI推理觸手可及
了解了 MiroThinker 的強(qiáng)大能力后,我最關(guān)心的問題是:普通用戶能不能用上這些能力?畢竟,再先進(jìn)的技術(shù)如果只能停留在實(shí)驗(yàn)室里,對大多數(shù)人來說都是遙不可及的。好消息是,MiroMind 剛剛在 3 月 5 日宣布正式在 iOS、Android 和網(wǎng)頁平臺(tái)公開發(fā)布他們的 AI 推理平臺(tái),這標(biāo)志著他們在產(chǎn)品化道路上的重要里程碑。
我特別關(guān)注他們的移動(dòng)應(yīng)用,因?yàn)檫@代表著真正的普及化。MiroMind 的 App 現(xiàn)在已經(jīng)可以在 App Store 和 Google Play 下載,讓全球用戶都能體驗(yàn)到這種通用 AI 推理能力。更重要的是,MiroThinker-1.7 的最新能力即將在 App 上線,這意味著用戶很快就能在手機(jī)上使用這些先進(jìn)的推理和預(yù)測功能。
![]()
從產(chǎn)品設(shè)計(jì)來看,MiroMind 的定位很清晰:它不是又一個(gè)聊天機(jī)器人,而是一個(gè)為解決重要問題而設(shè)計(jì)的推理平臺(tái)。App 提供了幾個(gè)核心功能,每一個(gè)都體現(xiàn)了他們"驗(yàn)證為中心"的設(shè)計(jì)理念。
深度研究模式是我最感興趣的功能之一。在這個(gè)模式下,系統(tǒng)會(huì)自主搜索、瀏覽和綜合來自數(shù)百個(gè)來源的信息,提供全面的、有證據(jù)支持的報(bào)告。它不只是做表面的總結(jié),而是深入挖掘復(fù)雜主題背后的真相。這對研究人員、分析師或任何需要深入了解某個(gè)話題的人來說都非常有價(jià)值。
高級推理功能專門用于處理數(shù)學(xué)、編程、邏輯和結(jié)構(gòu)化分析中的復(fù)雜問題。系統(tǒng)采用迭代的、多步驟的驗(yàn)證來確保推理鏈每個(gè)階段的準(zhǔn)確性。每個(gè)中間結(jié)論都會(huì)在系統(tǒng)繼續(xù)之前被檢查,消除了困擾傳統(tǒng) AI 輸出的復(fù)合錯(cuò)誤。這種嚴(yán)格的驗(yàn)證過程正是 MiroThinker 與其他 AI 系統(tǒng)的根本區(qū)別。
預(yù)測智能功能則是針對前瞻性分析優(yōu)化的。通過評估數(shù)據(jù)模式并應(yīng)用時(shí)間推理,平臺(tái)支持從金融預(yù)測、情景建模到競爭格局分析的各種應(yīng)用。它為用戶提供的是 AI 驅(qū)動(dòng)的遠(yuǎn)見,而不是回顧性總結(jié)。前面提到的那些驚人預(yù)測案例,都可以通過這個(gè)功能實(shí)現(xiàn)。
實(shí)時(shí)網(wǎng)絡(luò)智能是另一個(gè)關(guān)鍵特性。系統(tǒng)不僅僅依賴訓(xùn)練數(shù)據(jù),而是集成實(shí)時(shí)網(wǎng)絡(luò)搜索,將每個(gè)回答都建立在當(dāng)前的、可驗(yàn)證的信息基礎(chǔ)上。它不會(huì)猜測,而是主動(dòng)根據(jù)最新的可用來源驗(yàn)證聲明,提供用戶可以信任的答案。
對于想要下載體驗(yàn)的用戶,可以通過以下方式獲取:
iOS 用戶可以在 App Store 搜索 MiroMind 或訪問 https://apps.apple.com/app/id6759390724 下載;
Android 用戶可以在 Google Play 搜索或訪問 https://play.google.com/store/apps/details?id=ai.miromind.app 下載。
網(wǎng)頁版可以直接訪問官網(wǎng)https://dr.miromind.ai/使用。
我對未來的期待
雖然 MiroMind 已經(jīng)展示了令人印象深刻的能力,但我認(rèn)為這只是開始。真正讓我興奮的是這種驗(yàn)證為中心的方法論可能帶來的長遠(yuǎn)影響。
想象一下,如果每個(gè)企業(yè)決策都能有一個(gè) AI 系統(tǒng)幫助分析、推理和驗(yàn)證,會(huì)是什么樣子?如果科研人員能夠讓 AI 幫助他們探索假設(shè)、設(shè)計(jì)實(shí)驗(yàn)、分析數(shù)據(jù),同時(shí)確保每一步都經(jīng)過嚴(yán)格驗(yàn)證,科學(xué)發(fā)現(xiàn)的速度會(huì)加快多少?如果醫(yī)生在診斷疾病時(shí)能夠借助 AI 系統(tǒng)全面分析患者數(shù)據(jù)、文獻(xiàn)證據(jù)和治療方案,同時(shí)系統(tǒng)能夠解釋和驗(yàn)證每個(gè)推理步驟,醫(yī)療質(zhì)量會(huì)提升到什么程度?
當(dāng)然,這些應(yīng)用場景的實(shí)現(xiàn)還需要時(shí)間。AI 系統(tǒng)再強(qiáng)大,也需要與人類專家的經(jīng)驗(yàn)和判斷相結(jié)合。但 MiroMind 提供的方向是正確的:不是用 AI 替代人類,而是讓 AI 成為人類解決復(fù)雜問題的可靠伙伴。
從產(chǎn)品化的角度,我期待看到 MiroThinker-1.7 在移動(dòng)應(yīng)用上的表現(xiàn)。把如此強(qiáng)大的推理能力放到每個(gè)人的手機(jī)上,這本身就是一個(gè)壯舉。如果他們能夠在保持準(zhǔn)確性的同時(shí)優(yōu)化用戶體驗(yàn),讓普通用戶也能輕松使用這些高級功能,那將真正實(shí)現(xiàn)技術(shù)的民主化。
API Console 的推出也值得期待。一旦開發(fā)者能夠方便地調(diào)用這些推理能力,我們可能會(huì)看到大量創(chuàng)新應(yīng)用的涌現(xiàn)。從智能投資顧問到科研助手,從法律分析工具到醫(yī)療決策支持系統(tǒng),各種垂直領(lǐng)域的應(yīng)用都可能因?yàn)榻尤脒@種驗(yàn)證式推理能力而獲得質(zhì)的提升。
最后,我想說的是,MiroMind 代表的不只是一個(gè)公司或一個(gè)產(chǎn)品,而是一種對 AI 未來的愿景。這個(gè)愿景是:AI 不應(yīng)該只是一個(gè)會(huì)說話的工具,而應(yīng)該是一個(gè)能夠真正思考、能夠驗(yàn)證自己思考過程、能夠解決人類尚未解決問題的智能系統(tǒng)。這種愿景能否實(shí)現(xiàn),還需要時(shí)間來驗(yàn)證。但至少,MiroMind 已經(jīng)邁出了重要的第一步。
如果你也對這種新一代 AI 推理系統(tǒng)感興趣,我建議你去下載他們的 App 親自體驗(yàn)一下。當(dāng) MiroThinker-1.7 上線后,你可以直接在手機(jī)上感受這種"驗(yàn)證為中心"的推理能力。或者,如果你是開發(fā)者,可以關(guān)注他們的 GitHub 和即將推出的 API,探索如何將這種能力集成到自己的項(xiàng)目中。
下一代智能不只是關(guān)于對話,而是關(guān)于審慎的、長鏈的、具有 99% 累積準(zhǔn)確率的推理。這個(gè)未來,正在到來。
官網(wǎng):https://www.miromind.ai/
GitHub:https://github.com/MiroMindAI
Hugging Face:https://huggingface.co/MiroMind-ai
招聘聯(lián)系:talent@miromind.ai
App Store:https://apps.apple.com/app/id6759390724
Google Play:https://play.google.com/store/apps/details?id=ai.miromind.app
結(jié)尾
也歡迎大家留言討論,分享你的觀點(diǎn)!
覺得內(nèi)容不錯(cuò)的朋友能夠幫忙右下角點(diǎn)個(gè)贊,分享一下。您的每次分享,都是在激勵(lì)我不斷產(chǎn)出更好的內(nèi)容。
歡迎關(guān)注深思圈,一起探索更大的世界。
- END -
兩個(gè)“特別坑”的AI產(chǎn)品創(chuàng)業(yè)方向,你知道嗎
![]()
速度將成為AI時(shí)代唯一的護(hù)城河
![]()
a16z重磅預(yù)測:Vibe coding贏者通吃?錯(cuò)了,垂直專業(yè)化才是未來
![]()
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.