文 | 超前實(shí)驗(yàn)室,作者|青蘋吹果
如果有個(gè)AI告訴你,三個(gè)月后某只股票會跌,或者某個(gè)國家會加關(guān)稅,你怎么判斷它說的是真話,還是在瞎蒙?
唯一的方法就是——等三個(gè)月,一切見分曉。
但這就陷入了一個(gè)死循環(huán):要驗(yàn)證預(yù)測,就得等結(jié)果出來;等結(jié)果出來,黃花菜都涼了。更尷尬的是,就算它蒙對了,你也不知道下次還能不能信它。
市面上號稱能“預(yù)測”的AI產(chǎn)品一大堆,但沒幾個(gè)敢把歷史預(yù)測記錄全公開的。大部分都是挑幾個(gè)說中的案例出來吹,說錯(cuò)的就當(dāng)沒發(fā)生過。
直到最近,UniPat AI發(fā)布了一套系統(tǒng),名字叫Echo,核心是一個(gè)專門為預(yù)測訓(xùn)練的模型EchoZ-1.0,并在公開的 General AI Prediction Leaderboard 上穩(wěn)居第一,領(lǐng)先Google的Gemini-3.1-Pro和Anthropic的Claude-Opus-4.6。
![]()
在涵蓋12個(gè)模型、覆蓋政治、經(jīng)濟(jì)、體育、科技、加密貨幣等7個(gè)領(lǐng)域、活躍題目超過1000道的排行榜中,EchoZ-1.0以Elo 1034.2的分?jǐn)?shù)排名榜首,其競爭對手不僅有頂級大模型,還有預(yù)測市場上真實(shí)投入資金的人類交易者。這意味著EchoZ的預(yù)測能力已經(jīng)相當(dāng)能打了。
我花了兩個(gè)晚上把他們的技術(shù)博客和公開數(shù)據(jù)翻了一遍,發(fā)現(xiàn)他們做了一件挺有意思的事。
Echo不僅讓AI學(xué)會了預(yù)測未來,更重要的是,他們建立了一套,讓任何人都能驗(yàn)證“預(yù)測準(zhǔn)不準(zhǔn)”的方法論。
比誰預(yù)測得準(zhǔn),得先站在同一起跑線
過去一年,幾乎所有頭部大模型廠商都在卷預(yù)測能力。Google、Anthropic、OpenAI,一個(gè)比一個(gè)卷。
但問題是,怎么證明自己的模型真的比別人強(qiáng)?
傳統(tǒng)的做法是搞一個(gè)排行榜,讓各家模型對著同一批題目做預(yù)測,然后比誰的正確率高。聽起來公平,但有一個(gè)致命漏洞:時(shí)序不對稱。
舉個(gè)例子。假設(shè)有道題是“2026年4月20日收盤時(shí),全球市值最大的公司是哪家?”模型A在4月1日預(yù)測了,模型B在4月18日預(yù)測了。4月18日的模型顯然能看到更多信息,比如這段時(shí)間發(fā)生了什么新聞、市場有什么波動(dòng)。
這兩者的準(zhǔn)確率能直接比較嗎?顯然不能。越接近截止時(shí)間,預(yù)測難度越低。這就像讓兩個(gè)人賽跑,一個(gè)跑100米,一個(gè)跑50米,然后比誰先到終點(diǎn),沒有意義。
更麻煩的是,大部分預(yù)測基準(zhǔn)的題目都來自Polymarket這類預(yù)測市場,偏向容易結(jié)算的二元問題(“是”或“否”)。
但真實(shí)世界里,一個(gè)做餐飲的老板關(guān)心的可能是“下個(gè)月某款新品的單店日均銷量預(yù)測能達(dá)到多少”,這種問題在傳統(tǒng)基準(zhǔn)里根本找不到。
Echo團(tuán)隊(duì)在構(gòu)建評測系統(tǒng)時(shí),第一個(gè)動(dòng)作就是解決這兩個(gè)坑。
他們的做法挺直接:只比較“同一道題、同一個(gè)預(yù)測時(shí)間點(diǎn)”的結(jié)果。4月1日預(yù)測的,就和4月1日預(yù)測的比,4月18日預(yù)測的,就和4月18日預(yù)測的比。
這叫point-aligned Elo機(jī)制,聽起來簡單,但之前沒人這么干過,因?yàn)楣こ虖?fù)雜度高,需要持續(xù)跟蹤每道題、每個(gè)時(shí)間點(diǎn)、每個(gè)模型的輸出。
而這么做的好處也是顯而易見的:確保了“參賽”模型都站在了“同一起跑線”上,廠商不用再為了排名而刻意選擇答題時(shí)機(jī),研發(fā)焦點(diǎn)也能從“卡點(diǎn)”回歸到推理質(zhì)量本身。
同時(shí),Echo團(tuán)隊(duì)建立了三條數(shù)據(jù)采集管道。
一條對接Polymarket等公開預(yù)測市場,保證了題目來源的持續(xù)性和可比性;
一條從Google Trends等實(shí)時(shí)趨勢中自動(dòng)生成新題,讓評測體系能跟上現(xiàn)實(shí)世界的節(jié)奏,避免模型“刷舊題”;
還有一條我覺得最有意思,引入科研、工程、醫(yī)療等真實(shí)專業(yè)場景的預(yù)測題,則把評測從大眾話題的范疇,真正拉進(jìn)了高價(jià)值決策的核心地帶。
![]()
從大眾共識到專業(yè)判斷,這個(gè)光譜覆蓋得相當(dāng)完整。
行業(yè)也終于有了一套既公平、又能真實(shí)反映模型在復(fù)雜現(xiàn)實(shí)問題中實(shí)用能力的標(biāo)尺。
評測標(biāo)準(zhǔn)是一把動(dòng)態(tài)的尺
除此之外,Echo的評測引擎還有一個(gè)細(xì)節(jié),我覺得挺值得琢磨,那就是它不是靜態(tài)題庫,而是持續(xù)生長的。
系統(tǒng)會持續(xù)從「三條管道」吸入新題目,預(yù)測市場合約、實(shí)時(shí)趨勢自動(dòng)合成、專家貢獻(xiàn)。每道題不只做一次預(yù)測,而是根據(jù)結(jié)算周期長度分配多個(gè)預(yù)測時(shí)間點(diǎn)。
比如周期10天的題可以做大約4次預(yù)測,90天的則可以7次,既保證覆蓋密度,又控制計(jì)算開銷。
新題目持續(xù)流入,新的預(yù)測點(diǎn)持續(xù)觸發(fā),對戰(zhàn)持續(xù)發(fā)生,排行榜持續(xù)更新。
這就解決了另一個(gè)老問題,傳統(tǒng)排行榜的數(shù)據(jù)會過時(shí)。去年厲害的模型,今年可能就不行了;去年測的題目,今年可能已經(jīng)沒人關(guān)心了。
但動(dòng)態(tài)系統(tǒng)不一樣,它造了一把不斷校準(zhǔn)的尺子,而這把尺子本身也在不停生長。
Echo團(tuán)隊(duì)還做了幾組驗(yàn)證實(shí)驗(yàn),挺有意思的。
一個(gè)是穩(wěn)健性測試。
通過模擬因API故障或服務(wù)器中斷造成的預(yù)測缺失場景,隨機(jī)剔除10%到70%的預(yù)測記錄,觀察排名順序是否會發(fā)生變化。
結(jié)果表明,Elo體系下的排名穩(wěn)定性始終優(yōu)于傳統(tǒng)Avg Brier方法的平均排名,前者波動(dòng)幅度比后者低1.4至1.8倍;即便數(shù)據(jù)丟失比例高達(dá)70%,Elo排名的變動(dòng)量也僅相當(dāng)于Avg Brier得分排名波動(dòng)的一半多。
![]()
另一個(gè)是收斂速度。
模擬一個(gè)新模型剛加入排行榜,看它的排名多久能穩(wěn)定下來。Elo在第5.4天就收斂到和20天后一致的排名,Avg Brier要到第14.5天,快了2.7倍。
![]()
這些實(shí)驗(yàn)在告訴你,這套評測系統(tǒng)本身是可靠的,不是隨便搭的架子。
不用答案來訓(xùn)練,那用什么?
評測的問題解決了,下一個(gè)問題是訓(xùn)練。
用歷史事件訓(xùn)練預(yù)測模型,聽起來很合理。把過去的新聞和當(dāng)時(shí)的市場數(shù)據(jù)喂給模型,讓它學(xué)習(xí)“在什么信息條件下,什么事件會發(fā)生”。
就像學(xué)生們在備考期間,會做「歷年真題」來找手感。
但實(shí)際做起來,有兩道繞不過去的坎。
第一個(gè)是數(shù)據(jù)泄露。
互聯(lián)網(wǎng)內(nèi)容持續(xù)更新,你讓模型去搜“2024年某事件的相關(guān)信息”,它搜到的網(wǎng)頁可能已經(jīng)被后來的新聞報(bào)道修改過了。你以為是讓模型“回到過去”,其實(shí)它偷偷看了答案。
第二個(gè)是結(jié)果導(dǎo)向偏差。
現(xiàn)實(shí)世界充滿隨機(jī)性,一個(gè)邏輯嚴(yán)密的預(yù)測可能因?yàn)楹谔禊Z事件而落空,一個(gè)瞎蒙的猜測可能因?yàn)檫\(yùn)氣而命中。
如果只用最終結(jié)果做訓(xùn)練信號,模型會學(xué)到什么?它會學(xué)到了蒙對了就是好,蒙錯(cuò)了就是差。這跟訓(xùn)練一個(gè)賭徒?jīng)]什么區(qū)別。
所以Echo提出的另一種解法,叫Train-on-Future——面向未來訓(xùn)練。
既然答案短期內(nèi)沒法拿到手,那就干脆不拿它當(dāng)訓(xùn)練素材。改成讓模型去面對那些還沒出結(jié)果的真實(shí)問題,然后回過頭來評判它的「推理過程」到底靠不靠譜。
所謂的推理過程,就是從模型接到問題開始,到最終給出判斷中間走過的每一步,去哪里找資料、怎么梳理信息、最后怎么得出那個(gè)概率數(shù)字。
在這過程中,模型是特意去搜索那些一手的信息源頭,還是隨便看看新聞標(biāo)題就完事?碰上互相矛盾的說法,會不會去自主核實(shí)?在給出概率的時(shí)候,是拿著過往的歷史數(shù)據(jù)去推算出一個(gè)合理區(qū)間,還是一拍腦門隨口編了個(gè)數(shù)?
這些動(dòng)作可以被評價(jià),不需要等答案揭曉。
但問題來了,如何來給「推理過程」打分?總不能靠感覺吧!
這確實(shí)是個(gè)棘手的問題。畢竟不同領(lǐng)域?qū)Α昂猛评怼钡亩x完全不一樣。
比如做宏觀經(jīng)濟(jì)預(yù)測時(shí),你得判斷下個(gè)季度的GDP增速,這需要盯著央行的貨幣政策、PMI的月度變化、失業(yè)率報(bào)告;但做加密貨幣領(lǐng)域的預(yù)測完全是另一套邏輯,你得看鏈上活躍地址數(shù)、監(jiān)管機(jī)構(gòu)的表態(tài)、市場恐慌貪婪指數(shù)。
這就造成了一個(gè)問題,面對不同的領(lǐng)域,想寫一套通用的評分標(biāo)準(zhǔn),幾乎不可能。
所以Echo團(tuán)隊(duì)索性決定不靠人寫,直接用數(shù)據(jù)來“搜”出評分標(biāo)準(zhǔn)。
這套機(jī)制叫Automated Rubric Search,翻譯過來就是“評分標(biāo)準(zhǔn)自動(dòng)搜索”。
大概流程是,先拿出一張草稿,列出幾個(gè)可能的評分角度,比如“信息來源靠不靠譜”“碰到矛盾信息怎么處理”,每項(xiàng)分成好、中、差三檔。然后用這套標(biāo)準(zhǔn)去給各個(gè)模型的預(yù)測過程打分,排出一個(gè)名次。
排完之后,拿這個(gè)名次跟真正的Elo排名,放在一起比對,看看兩個(gè)版本名次重合度。
重合度越高,說明這套評分標(biāo)準(zhǔn)越有說服力。
排行榜第一,要贏,更要穩(wěn)
聊了這么多技術(shù),現(xiàn)在,咱們再回到開頭提到了的General AI Prediction Leaderboard上。
排行榜涵蓋12個(gè)模型,7個(gè)領(lǐng)域,活躍題目超過1000道。
但我覺得更值得看的不是排名本身,而是排名的穩(wěn)定性。
Echo團(tuán)隊(duì)做了一組σ參數(shù)敏感性測試:調(diào)整Elo框架中的一個(gè)參數(shù),控制模型之間表現(xiàn)差距會被放大到什么程度,從0.01到0.50共9個(gè)取值,重新計(jì)算全部模型排名。EchoZ在全部9個(gè)分組均保持第一,是唯一排名未發(fā)生任何波動(dòng)的模型。
![]()
作為對比,GPT-5.2的排名在第2到第9之間波動(dòng)過8個(gè)位次。
這意味著什么?意味著它不是“剛好贏了一點(diǎn)點(diǎn)”,而是在不同設(shè)定下都穩(wěn)居第一,這比“贏了”更有說服力。
更有意思的是他們和人類交易者的對比。
EchoZ與Polymarket人類市場共識的分層對比顯示:政治與治理領(lǐng)域勝率63.2%,長期預(yù)測(7天以上)勝率59.3%,市場不確定區(qū)間(人類信心55%-70%)勝率57.9%。
有個(gè)規(guī)律值得注意,人類預(yù)測者越猶豫的場景,如高不確定性、長時(shí)間跨度、復(fù)雜政治博弈,EchoZ的優(yōu)勢反而越明顯。
這恰恰暗示了模型在信息整合和概率校準(zhǔn)上的系統(tǒng)性優(yōu)勢,恰好是人類直覺最不可靠的區(qū)域。
乍一聽,60%上下的準(zhǔn)確率好像也沒多厲害。可但凡對投資市場有點(diǎn)了解的人都清楚,在一個(gè)靠決策質(zhì)量分高下的環(huán)境里,60%這個(gè)數(shù)字意味著什么,只要?jiǎng)俾蔬^半,長期下來就是正收益,而能達(dá)到六成,已經(jīng)是相當(dāng)可觀的領(lǐng)先幅度了。
UniPat在官網(wǎng)上為Echo寫了一段話:“The future is no longer a probability you guess — it is a parameter you integrate.”
翻譯過來大概是:未來不再是你猜測的概率,而是你可以集成的參數(shù)。
這句話挺有嚼頭。
當(dāng)預(yù)測從一種直覺判斷變成一個(gè)可調(diào)用、可集成的參數(shù),它能嵌入的決策場景會多得多,金融市場、算法交易、企業(yè)戰(zhàn)略、供應(yīng)鏈管理……比我們現(xiàn)在能想到的要多。
據(jù)他們披露,下一步計(jì)劃是把EchoZ-1.0的預(yù)測能力封裝成一套AI-native Prediction API對外開放。這套API支持自然語言輸入,返回包含概率分布、分層證據(jù)鏈、反事實(shí)脆弱性評估和監(jiān)測建議的完整結(jié)構(gòu)化報(bào)告。
想象一下:你問“明年Q1全球鋰礦價(jià)格走勢”,它不光給你一個(gè)概率,還告訴你這個(gè)判斷是怎么來的,哪些證據(jù)支撐、哪些因素可能讓判斷失效、需要關(guān)注哪些監(jiān)測指標(biāo)。
這跟現(xiàn)在那些只會給你一個(gè)“漲/跌”結(jié)論的「預(yù)測工具」,完全不是一個(gè)東西。
當(dāng)然,落地的效果還得等API正式上線才能驗(yàn)證。但至少從目前公開的信息來看,Echo在做的事情是結(jié)構(gòu)化的。它沒有在較真自己模型準(zhǔn)不準(zhǔn),而是在搭建一套“讓人相信它準(zhǔn)”的驗(yàn)證體系。這在預(yù)測AI這個(gè)領(lǐng)域,可能比“準(zhǔn)”本身更重要。
畢竟,如果一個(gè)AI真的能預(yù)測未來,你總得知道它什么時(shí)候該信,什么時(shí)候不該信。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.