<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      預(yù)測模型Echo面世:檢驗(yàn)AI是“預(yù)言家”還是“悍跳狼”?

      0
      分享至

      文 | 超前實(shí)驗(yàn)室,作者|青蘋吹果

      如果有個(gè)AI告訴你,三個(gè)月后某只股票會跌,或者某個(gè)國家會加關(guān)稅,你怎么判斷它說的是真話,還是在瞎蒙?

      唯一的方法就是——等三個(gè)月,一切見分曉。

      但這就陷入了一個(gè)死循環(huán):要驗(yàn)證預(yù)測,就得等結(jié)果出來;等結(jié)果出來,黃花菜都涼了。更尷尬的是,就算它蒙對了,你也不知道下次還能不能信它。

      市面上號稱能“預(yù)測”的AI產(chǎn)品一大堆,但沒幾個(gè)敢把歷史預(yù)測記錄全公開的。大部分都是挑幾個(gè)說中的案例出來吹,說錯(cuò)的就當(dāng)沒發(fā)生過。

      直到最近,UniPat AI發(fā)布了一套系統(tǒng),名字叫Echo,核心是一個(gè)專門為預(yù)測訓(xùn)練的模型EchoZ-1.0,并在公開的 General AI Prediction Leaderboard 上穩(wěn)居第一,領(lǐng)先Google的Gemini-3.1-Pro和Anthropic的Claude-Opus-4.6。


      在涵蓋12個(gè)模型、覆蓋政治、經(jīng)濟(jì)、體育、科技、加密貨幣等7個(gè)領(lǐng)域、活躍題目超過1000道的排行榜中,EchoZ-1.0以Elo 1034.2的分?jǐn)?shù)排名榜首,其競爭對手不僅有頂級大模型,還有預(yù)測市場上真實(shí)投入資金的人類交易者。這意味著EchoZ的預(yù)測能力已經(jīng)相當(dāng)能打了。

      我花了兩個(gè)晚上把他們的技術(shù)博客和公開數(shù)據(jù)翻了一遍,發(fā)現(xiàn)他們做了一件挺有意思的事。

      Echo不僅讓AI學(xué)會了預(yù)測未來,更重要的是,他們建立了一套,讓任何人都能驗(yàn)證“預(yù)測準(zhǔn)不準(zhǔn)”的方法論。

      比誰預(yù)測得準(zhǔn),得先站在同一起跑線

      過去一年,幾乎所有頭部大模型廠商都在卷預(yù)測能力。Google、Anthropic、OpenAI,一個(gè)比一個(gè)卷。

      但問題是,怎么證明自己的模型真的比別人強(qiáng)?

      傳統(tǒng)的做法是搞一個(gè)排行榜,讓各家模型對著同一批題目做預(yù)測,然后比誰的正確率高。聽起來公平,但有一個(gè)致命漏洞:時(shí)序不對稱。

      舉個(gè)例子。假設(shè)有道題是“2026年4月20日收盤時(shí),全球市值最大的公司是哪家?”模型A在4月1日預(yù)測了,模型B在4月18日預(yù)測了。4月18日的模型顯然能看到更多信息,比如這段時(shí)間發(fā)生了什么新聞、市場有什么波動(dòng)。

      這兩者的準(zhǔn)確率能直接比較嗎?顯然不能。越接近截止時(shí)間,預(yù)測難度越低。這就像讓兩個(gè)人賽跑,一個(gè)跑100米,一個(gè)跑50米,然后比誰先到終點(diǎn),沒有意義。

      更麻煩的是,大部分預(yù)測基準(zhǔn)的題目都來自Polymarket這類預(yù)測市場,偏向容易結(jié)算的二元問題(“是”或“否”)。

      但真實(shí)世界里,一個(gè)做餐飲的老板關(guān)心的可能是“下個(gè)月某款新品的單店日均銷量預(yù)測能達(dá)到多少”,這種問題在傳統(tǒng)基準(zhǔn)里根本找不到。

      Echo團(tuán)隊(duì)在構(gòu)建評測系統(tǒng)時(shí),第一個(gè)動(dòng)作就是解決這兩個(gè)坑。

      他們的做法挺直接:只比較“同一道題、同一個(gè)預(yù)測時(shí)間點(diǎn)”的結(jié)果。4月1日預(yù)測的,就和4月1日預(yù)測的比,4月18日預(yù)測的,就和4月18日預(yù)測的比。

      這叫point-aligned Elo機(jī)制,聽起來簡單,但之前沒人這么干過,因?yàn)楣こ虖?fù)雜度高,需要持續(xù)跟蹤每道題、每個(gè)時(shí)間點(diǎn)、每個(gè)模型的輸出。

      而這么做的好處也是顯而易見的:確保了“參賽”模型都站在了“同一起跑線”上,廠商不用再為了排名而刻意選擇答題時(shí)機(jī),研發(fā)焦點(diǎn)也能從“卡點(diǎn)”回歸到推理質(zhì)量本身。

      同時(shí),Echo團(tuán)隊(duì)建立了三條數(shù)據(jù)采集管道。

      一條對接Polymarket等公開預(yù)測市場,保證了題目來源的持續(xù)性和可比性;

      一條從Google Trends等實(shí)時(shí)趨勢中自動(dòng)生成新題,讓評測體系能跟上現(xiàn)實(shí)世界的節(jié)奏,避免模型“刷舊題”;

      還有一條我覺得最有意思,引入科研、工程、醫(yī)療等真實(shí)專業(yè)場景的預(yù)測題,則把評測從大眾話題的范疇,真正拉進(jìn)了高價(jià)值決策的核心地帶。


      從大眾共識到專業(yè)判斷,這個(gè)光譜覆蓋得相當(dāng)完整。

      行業(yè)也終于有了一套既公平、又能真實(shí)反映模型在復(fù)雜現(xiàn)實(shí)問題中實(shí)用能力的標(biāo)尺。

      評測標(biāo)準(zhǔn)是一把動(dòng)態(tài)的尺

      除此之外,Echo的評測引擎還有一個(gè)細(xì)節(jié),我覺得挺值得琢磨,那就是它不是靜態(tài)題庫,而是持續(xù)生長的。

      系統(tǒng)會持續(xù)從「三條管道」吸入新題目,預(yù)測市場合約、實(shí)時(shí)趨勢自動(dòng)合成、專家貢獻(xiàn)。每道題不只做一次預(yù)測,而是根據(jù)結(jié)算周期長度分配多個(gè)預(yù)測時(shí)間點(diǎn)。

      比如周期10天的題可以做大約4次預(yù)測,90天的則可以7次,既保證覆蓋密度,又控制計(jì)算開銷。

      新題目持續(xù)流入,新的預(yù)測點(diǎn)持續(xù)觸發(fā),對戰(zhàn)持續(xù)發(fā)生,排行榜持續(xù)更新。

      這就解決了另一個(gè)老問題,傳統(tǒng)排行榜的數(shù)據(jù)會過時(shí)。去年厲害的模型,今年可能就不行了;去年測的題目,今年可能已經(jīng)沒人關(guān)心了。

      但動(dòng)態(tài)系統(tǒng)不一樣,它造了一把不斷校準(zhǔn)的尺子,而這把尺子本身也在不停生長。

      Echo團(tuán)隊(duì)還做了幾組驗(yàn)證實(shí)驗(yàn),挺有意思的。

      一個(gè)是穩(wěn)健性測試。

      通過模擬因API故障或服務(wù)器中斷造成的預(yù)測缺失場景,隨機(jī)剔除10%到70%的預(yù)測記錄,觀察排名順序是否會發(fā)生變化。

      結(jié)果表明,Elo體系下的排名穩(wěn)定性始終優(yōu)于傳統(tǒng)Avg Brier方法的平均排名,前者波動(dòng)幅度比后者低1.4至1.8倍;即便數(shù)據(jù)丟失比例高達(dá)70%,Elo排名的變動(dòng)量也僅相當(dāng)于Avg Brier得分排名波動(dòng)的一半多。


      另一個(gè)是收斂速度。

      模擬一個(gè)新模型剛加入排行榜,看它的排名多久能穩(wěn)定下來。Elo在第5.4天就收斂到和20天后一致的排名,Avg Brier要到第14.5天,快了2.7倍。


      這些實(shí)驗(yàn)在告訴你,這套評測系統(tǒng)本身是可靠的,不是隨便搭的架子。

      不用答案來訓(xùn)練,那用什么?

      評測的問題解決了,下一個(gè)問題是訓(xùn)練。

      用歷史事件訓(xùn)練預(yù)測模型,聽起來很合理。把過去的新聞和當(dāng)時(shí)的市場數(shù)據(jù)喂給模型,讓它學(xué)習(xí)“在什么信息條件下,什么事件會發(fā)生”。

      就像學(xué)生們在備考期間,會做「歷年真題」來找手感。

      但實(shí)際做起來,有兩道繞不過去的坎。

      第一個(gè)是數(shù)據(jù)泄露。

      互聯(lián)網(wǎng)內(nèi)容持續(xù)更新,你讓模型去搜“2024年某事件的相關(guān)信息”,它搜到的網(wǎng)頁可能已經(jīng)被后來的新聞報(bào)道修改過了。你以為是讓模型“回到過去”,其實(shí)它偷偷看了答案。

      第二個(gè)是結(jié)果導(dǎo)向偏差。

      現(xiàn)實(shí)世界充滿隨機(jī)性,一個(gè)邏輯嚴(yán)密的預(yù)測可能因?yàn)楹谔禊Z事件而落空,一個(gè)瞎蒙的猜測可能因?yàn)檫\(yùn)氣而命中。

      如果只用最終結(jié)果做訓(xùn)練信號,模型會學(xué)到什么?它會學(xué)到了蒙對了就是好,蒙錯(cuò)了就是差。這跟訓(xùn)練一個(gè)賭徒?jīng)]什么區(qū)別。

      所以Echo提出的另一種解法,叫Train-on-Future——面向未來訓(xùn)練。

      既然答案短期內(nèi)沒法拿到手,那就干脆不拿它當(dāng)訓(xùn)練素材。改成讓模型去面對那些還沒出結(jié)果的真實(shí)問題,然后回過頭來評判它的「推理過程」到底靠不靠譜。

      所謂的推理過程,就是從模型接到問題開始,到最終給出判斷中間走過的每一步,去哪里找資料、怎么梳理信息、最后怎么得出那個(gè)概率數(shù)字。

      在這過程中,模型是特意去搜索那些一手的信息源頭,還是隨便看看新聞標(biāo)題就完事?碰上互相矛盾的說法,會不會去自主核實(shí)?在給出概率的時(shí)候,是拿著過往的歷史數(shù)據(jù)去推算出一個(gè)合理區(qū)間,還是一拍腦門隨口編了個(gè)數(shù)?

      這些動(dòng)作可以被評價(jià),不需要等答案揭曉。

      但問題來了,如何來給「推理過程」打分?總不能靠感覺吧!

      這確實(shí)是個(gè)棘手的問題。畢竟不同領(lǐng)域?qū)Α昂猛评怼钡亩x完全不一樣。

      比如做宏觀經(jīng)濟(jì)預(yù)測時(shí),你得判斷下個(gè)季度的GDP增速,這需要盯著央行的貨幣政策、PMI的月度變化、失業(yè)率報(bào)告;但做加密貨幣領(lǐng)域的預(yù)測完全是另一套邏輯,你得看鏈上活躍地址數(shù)、監(jiān)管機(jī)構(gòu)的表態(tài)、市場恐慌貪婪指數(shù)。

      這就造成了一個(gè)問題,面對不同的領(lǐng)域,想寫一套通用的評分標(biāo)準(zhǔn),幾乎不可能。

      所以Echo團(tuán)隊(duì)索性決定不靠人寫,直接用數(shù)據(jù)來“搜”出評分標(biāo)準(zhǔn)。

      這套機(jī)制叫Automated Rubric Search,翻譯過來就是“評分標(biāo)準(zhǔn)自動(dòng)搜索”。

      大概流程是,先拿出一張草稿,列出幾個(gè)可能的評分角度,比如“信息來源靠不靠譜”“碰到矛盾信息怎么處理”,每項(xiàng)分成好、中、差三檔。然后用這套標(biāo)準(zhǔn)去給各個(gè)模型的預(yù)測過程打分,排出一個(gè)名次。

      排完之后,拿這個(gè)名次跟真正的Elo排名,放在一起比對,看看兩個(gè)版本名次重合度。

      重合度越高,說明這套評分標(biāo)準(zhǔn)越有說服力。

      排行榜第一,要贏,更要穩(wěn)

      聊了這么多技術(shù),現(xiàn)在,咱們再回到開頭提到了的General AI Prediction Leaderboard上。

      排行榜涵蓋12個(gè)模型,7個(gè)領(lǐng)域,活躍題目超過1000道。

      但我覺得更值得看的不是排名本身,而是排名的穩(wěn)定性。

      Echo團(tuán)隊(duì)做了一組σ參數(shù)敏感性測試:調(diào)整Elo框架中的一個(gè)參數(shù),控制模型之間表現(xiàn)差距會被放大到什么程度,從0.01到0.50共9個(gè)取值,重新計(jì)算全部模型排名。EchoZ在全部9個(gè)分組均保持第一,是唯一排名未發(fā)生任何波動(dòng)的模型。


      作為對比,GPT-5.2的排名在第2到第9之間波動(dòng)過8個(gè)位次。

      這意味著什么?意味著它不是“剛好贏了一點(diǎn)點(diǎn)”,而是在不同設(shè)定下都穩(wěn)居第一,這比“贏了”更有說服力。

      更有意思的是他們和人類交易者的對比。

      EchoZ與Polymarket人類市場共識的分層對比顯示:政治與治理領(lǐng)域勝率63.2%,長期預(yù)測(7天以上)勝率59.3%,市場不確定區(qū)間(人類信心55%-70%)勝率57.9%。

      有個(gè)規(guī)律值得注意,人類預(yù)測者越猶豫的場景,如高不確定性、長時(shí)間跨度、復(fù)雜政治博弈,EchoZ的優(yōu)勢反而越明顯。

      這恰恰暗示了模型在信息整合和概率校準(zhǔn)上的系統(tǒng)性優(yōu)勢,恰好是人類直覺最不可靠的區(qū)域。

      乍一聽,60%上下的準(zhǔn)確率好像也沒多厲害。可但凡對投資市場有點(diǎn)了解的人都清楚,在一個(gè)靠決策質(zhì)量分高下的環(huán)境里,60%這個(gè)數(shù)字意味著什么,只要?jiǎng)俾蔬^半,長期下來就是正收益,而能達(dá)到六成,已經(jīng)是相當(dāng)可觀的領(lǐng)先幅度了。

      UniPat在官網(wǎng)上為Echo寫了一段話:“The future is no longer a probability you guess — it is a parameter you integrate.”

      翻譯過來大概是:未來不再是你猜測的概率,而是你可以集成的參數(shù)。

      這句話挺有嚼頭。

      當(dāng)預(yù)測從一種直覺判斷變成一個(gè)可調(diào)用、可集成的參數(shù),它能嵌入的決策場景會多得多,金融市場、算法交易、企業(yè)戰(zhàn)略、供應(yīng)鏈管理……比我們現(xiàn)在能想到的要多。

      據(jù)他們披露,下一步計(jì)劃是把EchoZ-1.0的預(yù)測能力封裝成一套AI-native Prediction API對外開放。這套API支持自然語言輸入,返回包含概率分布、分層證據(jù)鏈、反事實(shí)脆弱性評估和監(jiān)測建議的完整結(jié)構(gòu)化報(bào)告。

      想象一下:你問“明年Q1全球鋰礦價(jià)格走勢”,它不光給你一個(gè)概率,還告訴你這個(gè)判斷是怎么來的,哪些證據(jù)支撐、哪些因素可能讓判斷失效、需要關(guān)注哪些監(jiān)測指標(biāo)。

      這跟現(xiàn)在那些只會給你一個(gè)“漲/跌”結(jié)論的「預(yù)測工具」,完全不是一個(gè)東西。

      當(dāng)然,落地的效果還得等API正式上線才能驗(yàn)證。但至少從目前公開的信息來看,Echo在做的事情是結(jié)構(gòu)化的。它沒有在較真自己模型準(zhǔn)不準(zhǔn),而是在搭建一套“讓人相信它準(zhǔn)”的驗(yàn)證體系。這在預(yù)測AI這個(gè)領(lǐng)域,可能比“準(zhǔn)”本身更重要。

      畢竟,如果一個(gè)AI真的能預(yù)測未來,你總得知道它什么時(shí)候該信,什么時(shí)候不該信。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      女生長的太漂亮是什么體驗(yàn)?網(wǎng)友:母以子貴,父以女榮

      女生長的太漂亮是什么體驗(yàn)?網(wǎng)友:母以子貴,父以女榮

      另子維愛讀史
      2026-03-10 22:56:08
      林立果的“未婚妻”到底多美?這是她42歲的一張老照片,氣質(zhì)猶存

      林立果的“未婚妻”到底多美?這是她42歲的一張老照片,氣質(zhì)猶存

      大運(yùn)河時(shí)空
      2026-03-03 13:35:03
      暗藏彩蛋!樂高推出C羅、梅西、姆巴佩、維尼修斯四款球星積木套裝

      暗藏彩蛋!樂高推出C羅、梅西、姆巴佩、維尼修斯四款球星積木套裝

      觀潮志科技
      2026-04-02 21:05:59
      曼城正式約談瓜迪奧拉!敲定續(xù)約最終時(shí)間表,去留即將官宣

      曼城正式約談瓜迪奧拉!敲定續(xù)約最終時(shí)間表,去留即將官宣

      夜白侃球
      2026-04-02 10:47:07
      終于定了!中國移動(dòng)正式發(fā)通知:自4月30日起,全國統(tǒng)一執(zhí)行

      終于定了!中國移動(dòng)正式發(fā)通知:自4月30日起,全國統(tǒng)一執(zhí)行

      普陀動(dòng)物世界
      2026-04-02 18:59:45
      世界杯:男單16強(qiáng)簽位出爐!王楚欽再戰(zhàn)小勒布倫,溫瑞博碰林昀儒

      世界杯:男單16強(qiáng)簽位出爐!王楚欽再戰(zhàn)小勒布倫,溫瑞博碰林昀儒

      越嶺尋蹤
      2026-04-02 00:39:06
      “阿大蔥油餅”重開不到一年停業(yè)!阿大坦言“兒子年紀(jì)輕,很多情況不懂,走了彎路”

      “阿大蔥油餅”重開不到一年停業(yè)!阿大坦言“兒子年紀(jì)輕,很多情況不懂,走了彎路”

      新浪財(cái)經(jīng)
      2026-04-01 19:49:40
      CBA最新消息!曝遼寧男籃裁掉布羅金頓,廣東宏遠(yuǎn)大將常規(guī)賽報(bào)銷

      CBA最新消息!曝遼寧男籃裁掉布羅金頓,廣東宏遠(yuǎn)大將常規(guī)賽報(bào)銷

      體壇瞎白話
      2026-04-02 08:07:13
      這個(gè)新瓜,把人惡心吐了!

      這個(gè)新瓜,把人惡心吐了!

      觀察鑒娛
      2026-04-02 10:58:59
      這種“痛到尖叫”的放松,為什么大家都喜歡?網(wǎng)友:,很爽…

      這種“痛到尖叫”的放松,為什么大家都喜歡?網(wǎng)友:,很爽…

      馬拉松跑步健身
      2026-04-02 06:30:12
      郭凱:那個(gè)被張鎮(zhèn)麟"點(diǎn)名"的男人,山東隊(duì)最不起眼的"大腿"

      郭凱:那個(gè)被張鎮(zhèn)麟"點(diǎn)名"的男人,山東隊(duì)最不起眼的"大腿"

      劉寶杰聊球
      2026-04-02 06:16:49
      荒誕!教授推澤連斯基上諾獎(jiǎng)候選臺

      荒誕!教授推澤連斯基上諾獎(jiǎng)候選臺

      小眼睛小世界
      2026-04-02 06:24:50
      霍爾木茲海峽收費(fèi)法案落地,伊朗將與阿曼合作制定法律框架

      霍爾木茲海峽收費(fèi)法案落地,伊朗將與阿曼合作制定法律框架

      界面新聞
      2026-03-31 08:03:48
      史詩級封殺!2000萬網(wǎng)紅“聽風(fēng)的蠶”徹底涼了

      史詩級封殺!2000萬網(wǎng)紅“聽風(fēng)的蠶”徹底涼了

      互聯(lián)網(wǎng)品牌官
      2026-02-12 01:17:23
      越南當(dāng)年為何敢和中國開戰(zhàn)?黎筍長子多年后說出了核心真相

      越南當(dāng)年為何敢和中國開戰(zhàn)?黎筍長子多年后說出了核心真相

      古書記史
      2025-12-22 19:21:12
      中方回應(yīng)特朗普全國講話

      中方回應(yīng)特朗普全國講話

      新浪財(cái)經(jīng)
      2026-04-02 15:40:25
      比亞迪殺回第一,王傳福吊打友商

      比亞迪殺回第一,王傳福吊打友商

      新浪財(cái)經(jīng)
      2026-04-02 18:40:02
      為什么伊斯蘭國家總給人以“拒絕融入現(xiàn)代世界”的感覺|文史宴

      為什么伊斯蘭國家總給人以“拒絕融入現(xiàn)代世界”的感覺|文史宴

      文史宴
      2026-03-31 20:42:19
      中方奉陪到底!沒等來日本道歉,高市卻掀桌了,突然亮出獠牙!

      中方奉陪到底!沒等來日本道歉,高市卻掀桌了,突然亮出獠牙!

      觸摸史跡
      2026-04-01 19:45:32
      太陽報(bào):桑德蘭球迷可將名字刻在球場外石板墻上,價(jià)格99鎊至500鎊不等

      太陽報(bào):桑德蘭球迷可將名字刻在球場外石板墻上,價(jià)格99鎊至500鎊不等

      懂球帝
      2026-04-03 00:23:17
      2026-04-03 01:15:00
      鈦媒體APP incentive-icons
      鈦媒體APP
      獨(dú)立財(cái)經(jīng)科技媒體
      131747文章數(shù) 862050關(guān)注度
      往期回顧 全部

      科技要聞

      三年虧20億,最新估值58億,Xreal沖刺港股

      頭條要聞

      視頻:美新型導(dǎo)彈空爆數(shù)千枚彈片 炸死21名伊朗青少年

      頭條要聞

      視頻:美新型導(dǎo)彈空爆數(shù)千枚彈片 炸死21名伊朗青少年

      體育要聞

      邵佳一的改革,從讓每個(gè)人踢舒服開始

      娛樂要聞

      《浪姐》人氣榜出爐!曾沛慈斷層第一

      財(cái)經(jīng)要聞

      市場被特朗普一句話打醒 滯脹交易回歸

      汽車要聞

      軸距2米7/后排能蹺腿 試駕后驅(qū)小車QQ3 EV

      態(tài)度原創(chuàng)

      家居
      健康
      旅游
      教育
      親子

      家居要聞

      歲月靜好 典雅新章

      干細(xì)胞抗衰4大誤區(qū),90%的人都中招

      旅游要聞

      近賞桃花,花蕊迷人醉心

      教育要聞

      王炸!這個(gè)區(qū)超兩成考生“搖號上高中”,北京中招格局悄然變臉?

      親子要聞

      讓孩子學(xué)會禮儀之道,做一個(gè)有禮貌的孩子

      無障礙瀏覽 進(jìn)入關(guān)懷版