網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

預(yù)測模型Echo面世：檢驗(yàn)AI是“預(yù)言家”還是“悍跳狼”？

2026-04-02 20:07:09　來源: 鈦媒體APP

北京舉報(bào)

分享至

文 | 超前實(shí)驗(yàn)室，作者｜青蘋吹果

如果有個(gè)AI告訴你，三個(gè)月后某只股票會跌，或者某個(gè)國家會加關(guān)稅，你怎么判斷它說的是真話，還是在瞎蒙？

唯一的方法就是——等三個(gè)月，一切見分曉。

但這就陷入了一個(gè)死循環(huán)：要驗(yàn)證預(yù)測，就得等結(jié)果出來；等結(jié)果出來，黃花菜都涼了。更尷尬的是，就算它蒙對了，你也不知道下次還能不能信它。

市面上號稱能“預(yù)測”的AI產(chǎn)品一大堆，但沒幾個(gè)敢把歷史預(yù)測記錄全公開的。大部分都是挑幾個(gè)說中的案例出來吹，說錯(cuò)的就當(dāng)沒發(fā)生過。

直到最近，UniPat AI發(fā)布了一套系統(tǒng)，名字叫Echo，核心是一個(gè)專門為預(yù)測訓(xùn)練的模型EchoZ-1.0，并在公開的 General AI Prediction Leaderboard 上穩(wěn)居第一，領(lǐng)先Google的Gemini-3.1-Pro和Anthropic的Claude-Opus-4.6。

在涵蓋12個(gè)模型、覆蓋政治、經(jīng)濟(jì)、體育、科技、加密貨幣等7個(gè)領(lǐng)域、活躍題目超過1000道的排行榜中，EchoZ-1.0以Elo 1034.2的分?jǐn)?shù)排名榜首，其競爭對手不僅有頂級大模型，還有預(yù)測市場上真實(shí)投入資金的人類交易者。這意味著EchoZ的預(yù)測能力已經(jīng)相當(dāng)能打了。

我花了兩個(gè)晚上把他們的技術(shù)博客和公開數(shù)據(jù)翻了一遍，發(fā)現(xiàn)他們做了一件挺有意思的事。

Echo不僅讓AI學(xué)會了預(yù)測未來，更重要的是，他們建立了一套，讓任何人都能驗(yàn)證“預(yù)測準(zhǔn)不準(zhǔn)”的方法論。

比誰預(yù)測得準(zhǔn)，得先站在同一起跑線

過去一年，幾乎所有頭部大模型廠商都在卷預(yù)測能力。Google、Anthropic、OpenAI，一個(gè)比一個(gè)卷。

但問題是，怎么證明自己的模型真的比別人強(qiáng)？

傳統(tǒng)的做法是搞一個(gè)排行榜，讓各家模型對著同一批題目做預(yù)測，然后比誰的正確率高。聽起來公平，但有一個(gè)致命漏洞：時(shí)序不對稱。

舉個(gè)例子。假設(shè)有道題是“2026年4月20日收盤時(shí)，全球市值最大的公司是哪家？”模型A在4月1日預(yù)測了，模型B在4月18日預(yù)測了。4月18日的模型顯然能看到更多信息，比如這段時(shí)間發(fā)生了什么新聞、市場有什么波動(dòng)。

這兩者的準(zhǔn)確率能直接比較嗎？顯然不能。越接近截止時(shí)間，預(yù)測難度越低。這就像讓兩個(gè)人賽跑，一個(gè)跑100米，一個(gè)跑50米，然后比誰先到終點(diǎn)，沒有意義。

更麻煩的是，大部分預(yù)測基準(zhǔn)的題目都來自Polymarket這類預(yù)測市場，偏向容易結(jié)算的二元問題（“是”或“否”）。

但真實(shí)世界里，一個(gè)做餐飲的老板關(guān)心的可能是“下個(gè)月某款新品的單店日均銷量預(yù)測能達(dá)到多少”，這種問題在傳統(tǒng)基準(zhǔn)里根本找不到。

Echo團(tuán)隊(duì)在構(gòu)建評測系統(tǒng)時(shí)，第一個(gè)動(dòng)作就是解決這兩個(gè)坑。

他們的做法挺直接：只比較“同一道題、同一個(gè)預(yù)測時(shí)間點(diǎn)”的結(jié)果。4月1日預(yù)測的，就和4月1日預(yù)測的比，4月18日預(yù)測的，就和4月18日預(yù)測的比。

這叫point-aligned Elo機(jī)制，聽起來簡單，但之前沒人這么干過，因?yàn)楣こ虖?fù)雜度高，需要持續(xù)跟蹤每道題、每個(gè)時(shí)間點(diǎn)、每個(gè)模型的輸出。

而這么做的好處也是顯而易見的：確保了“參賽”模型都站在了“同一起跑線”上，廠商不用再為了排名而刻意選擇答題時(shí)機(jī)，研發(fā)焦點(diǎn)也能從“卡點(diǎn)”回歸到推理質(zhì)量本身。

同時(shí)，Echo團(tuán)隊(duì)建立了三條數(shù)據(jù)采集管道。

一條對接Polymarket等公開預(yù)測市場，保證了題目來源的持續(xù)性和可比性；

一條從Google Trends等實(shí)時(shí)趨勢中自動(dòng)生成新題，讓評測體系能跟上現(xiàn)實(shí)世界的節(jié)奏，避免模型“刷舊題”；

還有一條我覺得最有意思，引入科研、工程、醫(yī)療等真實(shí)專業(yè)場景的預(yù)測題，則把評測從大眾話題的范疇，真正拉進(jìn)了高價(jià)值決策的核心地帶。

從大眾共識到專業(yè)判斷，這個(gè)光譜覆蓋得相當(dāng)完整。

行業(yè)也終于有了一套既公平、又能真實(shí)反映模型在復(fù)雜現(xiàn)實(shí)問題中實(shí)用能力的標(biāo)尺。

評測標(biāo)準(zhǔn)是一把動(dòng)態(tài)的尺

除此之外，Echo的評測引擎還有一個(gè)細(xì)節(jié)，我覺得挺值得琢磨，那就是它不是靜態(tài)題庫，而是持續(xù)生長的。

系統(tǒng)會持續(xù)從「三條管道」吸入新題目，預(yù)測市場合約、實(shí)時(shí)趨勢自動(dòng)合成、專家貢獻(xiàn)。每道題不只做一次預(yù)測，而是根據(jù)結(jié)算周期長度分配多個(gè)預(yù)測時(shí)間點(diǎn)。

比如周期10天的題可以做大約4次預(yù)測，90天的則可以7次，既保證覆蓋密度，又控制計(jì)算開銷。

新題目持續(xù)流入，新的預(yù)測點(diǎn)持續(xù)觸發(fā)，對戰(zhàn)持續(xù)發(fā)生，排行榜持續(xù)更新。

這就解決了另一個(gè)老問題，傳統(tǒng)排行榜的數(shù)據(jù)會過時(shí)。去年厲害的模型，今年可能就不行了；去年測的題目，今年可能已經(jīng)沒人關(guān)心了。

但動(dòng)態(tài)系統(tǒng)不一樣，它造了一把不斷校準(zhǔn)的尺子，而這把尺子本身也在不停生長。

Echo團(tuán)隊(duì)還做了幾組驗(yàn)證實(shí)驗(yàn)，挺有意思的。

一個(gè)是穩(wěn)健性測試。

通過模擬因API故障或服務(wù)器中斷造成的預(yù)測缺失場景，隨機(jī)剔除10%到70%的預(yù)測記錄，觀察排名順序是否會發(fā)生變化。

結(jié)果表明，Elo體系下的排名穩(wěn)定性始終優(yōu)于傳統(tǒng)Avg Brier方法的平均排名，前者波動(dòng)幅度比后者低1.4至1.8倍；即便數(shù)據(jù)丟失比例高達(dá)70%，Elo排名的變動(dòng)量也僅相當(dāng)于Avg Brier得分排名波動(dòng)的一半多。

另一個(gè)是收斂速度。

模擬一個(gè)新模型剛加入排行榜，看它的排名多久能穩(wěn)定下來。Elo在第5.4天就收斂到和20天后一致的排名，Avg Brier要到第14.5天，快了2.7倍。

這些實(shí)驗(yàn)在告訴你，這套評測系統(tǒng)本身是可靠的，不是隨便搭的架子。

不用答案來訓(xùn)練，那用什么？

評測的問題解決了，下一個(gè)問題是訓(xùn)練。

用歷史事件訓(xùn)練預(yù)測模型，聽起來很合理。把過去的新聞和當(dāng)時(shí)的市場數(shù)據(jù)喂給模型，讓它學(xué)習(xí)“在什么信息條件下，什么事件會發(fā)生”。

就像學(xué)生們在備考期間，會做「歷年真題」來找手感。

但實(shí)際做起來，有兩道繞不過去的坎。

第一個(gè)是數(shù)據(jù)泄露。

互聯(lián)網(wǎng)內(nèi)容持續(xù)更新，你讓模型去搜“2024年某事件的相關(guān)信息”，它搜到的網(wǎng)頁可能已經(jīng)被后來的新聞報(bào)道修改過了。你以為是讓模型“回到過去”，其實(shí)它偷偷看了答案。

第二個(gè)是結(jié)果導(dǎo)向偏差。

現(xiàn)實(shí)世界充滿隨機(jī)性，一個(gè)邏輯嚴(yán)密的預(yù)測可能因?yàn)楹谔禊Z事件而落空，一個(gè)瞎蒙的猜測可能因?yàn)檫\(yùn)氣而命中。

如果只用最終結(jié)果做訓(xùn)練信號，模型會學(xué)到什么？它會學(xué)到了蒙對了就是好，蒙錯(cuò)了就是差。這跟訓(xùn)練一個(gè)賭徒?jīng)]什么區(qū)別。

所以Echo提出的另一種解法，叫Train-on-Future——面向未來訓(xùn)練。

既然答案短期內(nèi)沒法拿到手，那就干脆不拿它當(dāng)訓(xùn)練素材。改成讓模型去面對那些還沒出結(jié)果的真實(shí)問題，然后回過頭來評判它的「推理過程」到底靠不靠譜。

所謂的推理過程，就是從模型接到問題開始，到最終給出判斷中間走過的每一步，去哪里找資料、怎么梳理信息、最后怎么得出那個(gè)概率數(shù)字。

在這過程中，模型是特意去搜索那些一手的信息源頭，還是隨便看看新聞標(biāo)題就完事？碰上互相矛盾的說法，會不會去自主核實(shí)？在給出概率的時(shí)候，是拿著過往的歷史數(shù)據(jù)去推算出一個(gè)合理區(qū)間，還是一拍腦門隨口編了個(gè)數(shù)？

這些動(dòng)作可以被評價(jià)，不需要等答案揭曉。

但問題來了，如何來給「推理過程」打分？總不能靠感覺吧！

這確實(shí)是個(gè)棘手的問題。畢竟不同領(lǐng)域?qū)Α昂猛评怼钡亩x完全不一樣。

比如做宏觀經(jīng)濟(jì)預(yù)測時(shí)，你得判斷下個(gè)季度的GDP增速，這需要盯著央行的貨幣政策、PMI的月度變化、失業(yè)率報(bào)告；但做加密貨幣領(lǐng)域的預(yù)測完全是另一套邏輯，你得看鏈上活躍地址數(shù)、監(jiān)管機(jī)構(gòu)的表態(tài)、市場恐慌貪婪指數(shù)。

這就造成了一個(gè)問題，面對不同的領(lǐng)域，想寫一套通用的評分標(biāo)準(zhǔn)，幾乎不可能。

所以Echo團(tuán)隊(duì)索性決定不靠人寫，直接用數(shù)據(jù)來“搜”出評分標(biāo)準(zhǔn)。

這套機(jī)制叫Automated Rubric Search，翻譯過來就是“評分標(biāo)準(zhǔn)自動(dòng)搜索”。

大概流程是，先拿出一張草稿，列出幾個(gè)可能的評分角度，比如“信息來源靠不靠譜”“碰到矛盾信息怎么處理”，每項(xiàng)分成好、中、差三檔。然后用這套標(biāo)準(zhǔn)去給各個(gè)模型的預(yù)測過程打分，排出一個(gè)名次。

排完之后，拿這個(gè)名次跟真正的Elo排名，放在一起比對，看看兩個(gè)版本名次重合度。

重合度越高，說明這套評分標(biāo)準(zhǔn)越有說服力。

排行榜第一，要贏，更要穩(wěn)

聊了這么多技術(shù)，現(xiàn)在，咱們再回到開頭提到了的General AI Prediction Leaderboard上。

排行榜涵蓋12個(gè)模型，7個(gè)領(lǐng)域，活躍題目超過1000道。

但我覺得更值得看的不是排名本身，而是排名的穩(wěn)定性。

Echo團(tuán)隊(duì)做了一組σ參數(shù)敏感性測試：調(diào)整Elo框架中的一個(gè)參數(shù)，控制模型之間表現(xiàn)差距會被放大到什么程度，從0.01到0.50共9個(gè)取值，重新計(jì)算全部模型排名。EchoZ在全部9個(gè)分組均保持第一，是唯一排名未發(fā)生任何波動(dòng)的模型。

作為對比，GPT-5.2的排名在第2到第9之間波動(dòng)過8個(gè)位次。

這意味著什么？意味著它不是“剛好贏了一點(diǎn)點(diǎn)”，而是在不同設(shè)定下都穩(wěn)居第一，這比“贏了”更有說服力。

更有意思的是他們和人類交易者的對比。

EchoZ與Polymarket人類市場共識的分層對比顯示：政治與治理領(lǐng)域勝率63.2%，長期預(yù)測（7天以上）勝率59.3%，市場不確定區(qū)間（人類信心55%-70%）勝率57.9%。

有個(gè)規(guī)律值得注意，人類預(yù)測者越猶豫的場景，如高不確定性、長時(shí)間跨度、復(fù)雜政治博弈，EchoZ的優(yōu)勢反而越明顯。

這恰恰暗示了模型在信息整合和概率校準(zhǔn)上的系統(tǒng)性優(yōu)勢，恰好是人類直覺最不可靠的區(qū)域。

乍一聽，60%上下的準(zhǔn)確率好像也沒多厲害。可但凡對投資市場有點(diǎn)了解的人都清楚，在一個(gè)靠決策質(zhì)量分高下的環(huán)境里，60%這個(gè)數(shù)字意味著什么，只要?jiǎng)俾蔬^半，長期下來就是正收益，而能達(dá)到六成，已經(jīng)是相當(dāng)可觀的領(lǐng)先幅度了。

UniPat在官網(wǎng)上為Echo寫了一段話：“The future is no longer a probability you guess — it is a parameter you integrate.”

翻譯過來大概是：未來不再是你猜測的概率，而是你可以集成的參數(shù)。

這句話挺有嚼頭。

當(dāng)預(yù)測從一種直覺判斷變成一個(gè)可調(diào)用、可集成的參數(shù)，它能嵌入的決策場景會多得多，金融市場、算法交易、企業(yè)戰(zhàn)略、供應(yīng)鏈管理……比我們現(xiàn)在能想到的要多。

據(jù)他們披露，下一步計(jì)劃是把EchoZ-1.0的預(yù)測能力封裝成一套AI-native Prediction API對外開放。這套API支持自然語言輸入，返回包含概率分布、分層證據(jù)鏈、反事實(shí)脆弱性評估和監(jiān)測建議的完整結(jié)構(gòu)化報(bào)告。

想象一下：你問“明年Q1全球鋰礦價(jià)格走勢”，它不光給你一個(gè)概率，還告訴你這個(gè)判斷是怎么來的，哪些證據(jù)支撐、哪些因素可能讓判斷失效、需要關(guān)注哪些監(jiān)測指標(biāo)。

這跟現(xiàn)在那些只會給你一個(gè)“漲/跌”結(jié)論的「預(yù)測工具」，完全不是一個(gè)東西。

當(dāng)然，落地的效果還得等API正式上線才能驗(yàn)證。但至少從目前公開的信息來看，Echo在做的事情是結(jié)構(gòu)化的。它沒有在較真自己模型準(zhǔn)不準(zhǔn)，而是在搭建一套“讓人相信它準(zhǔn)”的驗(yàn)證體系。這在預(yù)測AI這個(gè)領(lǐng)域，可能比“準(zhǔn)”本身更重要。

畢竟，如果一個(gè)AI真的能預(yù)測未來，你總得知道它什么時(shí)候該信，什么時(shí)候不該信。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.