<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      黑馬AI橫掃預測市場!預測未來勝率已超過人類

      0
      分享至


      新智元報道

      編輯:Aeneas

      【新智元導讀】大模型能否預測未來?UniPat AI構建了一套完整的預測智能基礎設施,Echo,包含動態評測引擎、面向未來事件的訓練范式和預測專用模型EchoZ-1.0。在其公開的General AI Prediction Leaderboard上,EchoZ-1.0穩居第一,并在與Polymarket人類交易市場的直接對比中展現出顯著優勢。

      過去一年,預測能力越來越受到模型廠商的重視。但預測領域有一個根本性的驗證難題:你說你能預測未來,怎么證明?

      發布時的demo無法追溯,事后公布的案例存在選擇性偏差,通用基準測試衡量的是語言理解和推理能力,跟真實預測是兩碼事。

      UniPat AI近日發布的Echo系統,試圖用一套完整的基礎設施來回答這個問題。Echo由三個緊密耦合的組件構成:

      • 一個持續運轉的動態評測引擎,

      • 一套面向未來事件的后訓練流程(Train-on-Future),

      • 一個未來可能的AI原生預測API


      官網:https://echo.unipat.ai/

      Blog:https://unipat.ai/blog/Echo

      核心模型EchoZ-1.0是第一個在Train-on-Future范式下端到端訓練的大語言模型。

      在General AI Prediction Leaderboard 上(2026年3月數據),EchoZ-1.0以Elo 1034.2排名第一,領先 Google的Gemini-3.1-Pro(1032.2)和Anthropic的Claude-Opus-4.6(1017.2)。

      排行榜涵蓋12個模型,覆蓋政治、經濟、體育、科技、加密貨幣等7個領域,活躍題目超過1000道。


      EchoZ在排名魯棒性測試中穩定第一

      排名本身只是一個快照,排名的穩定性更值得關注。

      博客中披露了一組σ參數敏感性測試:調整Elo框架中的σ參數(控制Brier Score差異向勝率的轉化強度)從 0.01到0.50共9個取值,重新計算全部模型排名。

      這個參數簡單來說,就是控制「模型之間表現差距」會被放大到什么程度。

      EchoZ在全部9個分組均保持第一,是唯一排名未發生任何波動的模型。作為對比,GPT-5.2的排名在第2到第9之間波動過8個位次。

      更有說服力的一個細節是,EchoZ的競爭對手不僅有頂級大模型,還有預測市場上真實投入資金的人類交易者的聚合判斷,EchoZ的Elo分數顯著高于這條基線。與此同時,Echo官網公開了所有預測問題、模型輸出的概率分布和最終結算結果,任何人都可以回溯驗證。

      三個層面的可驗證性疊加在一起(動態排行榜、實盤市場對照、全量數據公開),構成了Echo與此前各種「AI 預測」最根本的區別。

      那么,EchoZ對人類預測者的實際優勢有多大?Unipat AI給出了一組分層對比:將EchoZ與人類市場在同一預測批次中的同一問題上進行比較,基于Brier Score計算勝率,按領域、預測期限和市場不確定性三個維度展開:


      • 政治與治理領域:EchoZ勝率63.2%

      • 長期預測(7天以上):EchoZ勝率59.3%

      • 市場不確定區間(人類信心55%-70%):EchoZ勝率57.9%

      一個值得注意的規律是:人類預測者越猶豫的場景(高不確定性、長時間跨度、復雜政治博弈)EchoZ的優勢反而越明顯。這暗示模型在信息整合和概率校準上的系統性優勢,恰好在人類直覺最不可靠的區域得到了最大程度的釋放。

      一個持續生長的評測引擎

      構建評測基準本身并不新鮮,但Echo的做法有一個關鍵差異:它構建的不是一個靜態的題庫,而是一個能夠自動出題、自動結算、持續更新排名的動態系統。

      為什么「動態」這件事很重要?

      拿一道具體的預測題來說:「2026年3月31日收盤時,全球市值最大的公司是哪家?」如果模型A在3月1日給出了預測,模型B在3月28日給出了預測,兩者的正確率能直接比較嗎?

      顯然不能。

      越接近結算時間,可用信息越多,預測難度越低。這就是現有預測基準的第一個結構性問題:時序不對稱。

      第二個問題是題源過于單一:現有基準的題目幾乎全部來自預測市場,偏向容易結算的二元問題,大量來自專業領域和新興話題的預測需求被遺漏了。

      Echo Leaderboard 的架構正是圍繞這兩個問題展開的。整套系統可以拆解為四個階段的持續循環:


      Echo 評測引擎構建流程

      第一步,數據采集。

      三條數據管道同時運行。

      第一條對接Polymarket等預測市場,篩選有明確結算規則和高質量共識信號的合約。

      第二條面向開放域,抓取Google Trends等實時趨勢,自動生成關于尚未發生事件的預測問題,由agent持續搜索進展并自動結算。

      第三條來自真實專業場景:科研、工程、醫療等領域的專家將自己工作流中有價值的預測題貢獻到系統中,并在預定時間點給出權威判定。

      從Polymarket上的大眾共識到實驗室里的專家判斷,三條管道覆蓋了一個相當完整的預測光譜。

      第二步,預測點調度。

      每道題不只做一次預測。系統使用對數調度算法,根據題目的結算周期長度分配多個prediction points(預測時間點),既保證了生命周期內的覆蓋密度,又控制了計算開銷。

      第三步,對戰構建。

      這是解決時序不對稱問題的關鍵環節。評測使用point-aligned Elo機制:嚴格只比較「同一道題、同一預測時間點」的結果。所有參賽模型在完全相同的信息上下文下對決,公平性由此建立。

      第四步,Elo評分更新。

      基于Bradley-Terry MLE算法計算全局排名。實驗數據顯示,這套框架對新加入模型的排名收斂速度是傳統Avg Brier方法的2.7倍。


      模型排名收斂速度對比

      這四步構成一個不斷循環的閉環:新題目持續流入,新的預測點持續觸發,對戰持續發生,排行榜持續更新。用一句話概括:

      Echo造了一把動態校準的尺子,而這把尺子本身也在不停生長。

      Train-on-Future:

      當推理過程本身成為訓練信號

      評測引擎解決了「怎么量」的問題,接下來要回答的是「怎么訓」。Echo 的訓練流程同樣是一套結構化的系統,UniPat稱之為Train-on-Future范式,由三個核心機制組成。

      在展開之前,有必要先理解傳統路徑(Train-on-Past)為什么走不通。用歷史事件的已知結果來訓練預測模型,面臨兩個很難繞過的困難。

      第一個是工程悖論:互聯網內容持續更新,用過去的事件做訓練題時,模型在搜索網頁的過程中幾乎必然會撞上包含答案的信息,數據泄露在工程實現上極難杜絕。

      第二個是結果導向偏差:現實事件充滿隨機性,一個邏輯嚴密的分析可能因為黑天鵝事件而給出「錯誤」答案,一個粗糙的猜測可能碰巧命中。直接用最終結果做訓練信號,模型很容易過擬合到噪聲上。

      Train-on-Future 的三個機制分別瞄準了這些問題:

      機制一:動態問題合成。

      與使用歷史題庫不同,Echo通過一條自動化管道,持續從實時數據流中生成關于未來事件的高信息量預測問題。因為每道題都關乎尚未發生的事件,訓練天然不存在數據泄露的問題。

      機制二:Automated Rubric Search。

      這是整個訓練范式中最有技術含量的部分。Echo的做法是:把訓練信號建立在推理過程的質量上,而非最終預測的對錯。但隨之而來的問題是,「好的推理過程」該如何定義?

      舉一個體育預測領域的具體例子。Echo的Rubric中有一個維度叫做Precursor and External Catalyst Evaluation」,評估模型是否利用高度相關的先行信號或外部驅動因素。

      得5分的標準是:識別具體的近期或即將發生的催化因素(如關鍵球員回歸、連續客場結束、關鍵對位變化),并分析這些因素與比賽結果之間的歷史關聯。

      得 1 分的標準是:僅泛泛提及「狀態不錯」或「士氣提升」等模糊因素,而未綁定具體可驗證事件。

      另一個維度是Multi-Factor Causal Synthesis」,評估模型是否將多個獨立因素整合為一個有因果結構的預測結論。

      得5分的標準是:明確整合至少三個相互獨立的因素(如傷病情況、近期狀態、主客場表現、賠率基線),并解釋這些因素如何相互作用(如傷病削弱進攻效率,而主場優勢部分對沖該影響),最終形成一個加權后的整體判斷。

      得1分的標準是:僅基于單一因素(如「某隊最近連勝」)直接得出結論,或簡單羅列信息而沒有解釋各因素之間的作用關系。

      總結來說,這兩個維度分別關注模型是否能夠在時間維度上引入可量化的前瞻性的關鍵變化,并在同一時點上將這些變化與既有信息整合為結構化的因果判斷,從而提升預測的完整性與動態適應能力。


      模型按rubrics打分的排名與Elo排名相關系數隨rubrics質量提升而提升。

      這些維度高度具體,顯然不是泛泛而談的「推理質量」。但靠人工設計也走不遠,預測領域噪聲極高,不同領域的邏輯差異很大。

      Echo把這個問題轉化成了一個數據驅動的搜索任務:由LLM生成候選評分標準(rubric),每一輪基于上一輪的反饋進行迭代,搜索目標是讓rubric產生的模型排名與真實Elo排名之間的Spearman ρ最大化。

      搜索按領域獨立進行,政治領域和體育領域各自搜索出20個評分維度。實驗數據顯示,rubric的評估質量在迭代過程中持續攀升。

      機制三:Map-Reduce Agent架構。

      訓練完成后,EchoZ-1.0在推理階段采用分布式的Map-Reduce流程。

      Map階段將一個宏觀預測問題分解為多個正交子任務,派出多個agent并行完成信息采集和領域推理;Reduce階段由聚合節點處理跨源沖突、對齊因果鏈,輸出最終的概率判斷。

      這個循環支持多輪自適應迭代,直到信息覆蓋度和推理深度趨于穩定。

      這套訓練范式的本質可以這樣理解:

      不僅考察模型猜對了沒有,也考察模型的分析過程是不是優秀。而「評價分析過程」這件事本身,也由這個系統自動完成。

      值得留意的下一步

      據了解,UniPat計劃將EchoZ-1.0的預測能力封裝為一套AI-native Prediction API對外開放。

      從博客已披露的技術架構來看,這套API將支持自然語言形式的預測問題輸入,返回包含概率分布、分層證據鏈、反事實脆弱性評估和監測建議的完整結構化報告,每份報告由多輪Map-Reduce agent對實時網絡證據循環檢索和推理后生成。

      UniPat在官網上為Echo寫下了這樣一句話:「The future is no longer a probability you guess — it is a parameter you integrate.」

      當預測從一種直覺判斷變成一個可調用、可集成的參數,它能嵌入的決策場景,金融市場、算法交易、企業戰略,遠比當前看到的要多。

      UniPat為Echo定義了四個關鍵詞:General、Evaluable、Trainable,以及Profitable。而落地的效果,則需要期待API的正式上線。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      印度發出最后警告:化肥不放行或致饑荒,14億人飯碗成危機

      印度發出最后警告:化肥不放行或致饑荒,14億人飯碗成危機

      阿傖說事
      2026-03-29 17:44:45
      打!傾家蕩產也要打!以色列最新民調:75%民眾要求死磕到底!

      打!傾家蕩產也要打!以色列最新民調:75%民眾要求死磕到底!

      福建平子
      2026-03-30 10:57:38
      A股分紅派息轉增一覽(3月30日):1股今日股權登記

      A股分紅派息轉增一覽(3月30日):1股今日股權登記

      每日經濟新聞
      2026-03-30 07:59:53
      皇俄記者怒噴前線慘敗:這不是打仗,是赤裸裸的謀殺

      皇俄記者怒噴前線慘敗:這不是打仗,是赤裸裸的謀殺

      老馬拉車莫少裝
      2026-03-30 10:53:45
      丁彥雨航:想融入NBA一定得會英語;NBA球員太卷了真的比不了

      丁彥雨航:想融入NBA一定得會英語;NBA球員太卷了真的比不了

      懂球帝
      2026-03-30 10:11:07
      中國國航一架從北京飛往平壤的客機抵達平壤

      中國國航一架從北京飛往平壤的客機抵達平壤

      新京報
      2026-03-30 09:50:06
      李榮浩預判封神,單依純道歉果然甩鍋團隊!李榮浩再發四連問聲討

      李榮浩預判封神,單依純道歉果然甩鍋團隊!李榮浩再發四連問聲討

      露珠聊影視
      2026-03-29 17:57:06
      “白天800晚上900元”,女子陪爬泰山時,被一男子“白嫖”800元

      “白天800晚上900元”,女子陪爬泰山時,被一男子“白嫖”800元

      江山揮筆
      2026-03-28 16:50:15
      我靠“抄襲”年入80萬,你可能對努力一無所知

      我靠“抄襲”年入80萬,你可能對努力一無所知

      流蘇晚晴
      2026-03-29 16:30:54
      67歲王朔現狀:只能死在這兒了,女兒不讓死屋里,怕房子不好賣

      67歲王朔現狀:只能死在這兒了,女兒不讓死屋里,怕房子不好賣

      談史論天地
      2026-03-27 17:05:03
      沙特油輪繞開霍爾木茲抵達日本:世界油閥,被一腳踹開了!

      沙特油輪繞開霍爾木茲抵達日本:世界油閥,被一腳踹開了!

      老馬拉車莫少裝
      2026-03-29 11:19:25
      特朗普:不反對其他國家向古巴供應石油,美國沒有任何意見,無論那是不是俄羅斯;古巴曾控訴美國長久以來的能源封鎖

      特朗普:不反對其他國家向古巴供應石油,美國沒有任何意見,無論那是不是俄羅斯;古巴曾控訴美國長久以來的能源封鎖

      大風新聞
      2026-03-30 11:25:02
      韓媒哀嘆:與日本足球無可比性,連無緣世界杯的中國都嘲笑我們

      韓媒哀嘆:與日本足球無可比性,連無緣世界杯的中國都嘲笑我們

      塵語者
      2026-03-30 10:42:52
      喬丹親自否認“GOAT論”:籃球里根本沒有歷史最佳!

      喬丹親自否認“GOAT論”:籃球里根本沒有歷史最佳!

      夜白侃球
      2026-03-30 11:23:38
      “以軍瀕臨崩潰”,內塔尼亞胡還能打多久?| 京釀館

      “以軍瀕臨崩潰”,內塔尼亞胡還能打多久?| 京釀館

      新京報評論
      2026-03-29 19:05:41
      重慶某設計院員工帶頭罷工被辭退,辭退員工把領導眼鏡打飛了!

      重慶某設計院員工帶頭罷工被辭退,辭退員工把領導眼鏡打飛了!

      黯泉
      2026-03-29 20:11:11
      連奪六天冠軍,沈騰吳京都壓不住,中國觀眾將助力《鏢人》被超越

      連奪六天冠軍,沈騰吳京都壓不住,中國觀眾將助力《鏢人》被超越

      影視高原說
      2026-03-28 18:27:58
      保密期限終到期,中央首長透露:毛岸英真相,可以向外界公開了

      保密期限終到期,中央首長透露:毛岸英真相,可以向外界公開了

      歷史點行
      2026-03-29 13:38:28
      曾志偉看得眼睛發直,嘴角的口水都快溢出來了!

      曾志偉看得眼睛發直,嘴角的口水都快溢出來了!

      周哥一影視
      2026-03-30 09:59:28
      承包制要取消?全國100多地已試點,2026土地新政給農民吃定心丸

      承包制要取消?全國100多地已試點,2026土地新政給農民吃定心丸

      復轉這些年
      2026-03-29 19:05:23
      2026-03-30 11:55:00
      新智元 incentive-icons
      新智元
      AI產業主平臺領航智能+時代
      14847文章數 66724關注度
      往期回顧 全部

      科技要聞

      DeepSeek性能異常問題已解決,服務恢復

      頭條要聞

      伊朗警告:美以軍政人員住所將成為合法打擊目標

      頭條要聞

      伊朗警告:美以軍政人員住所將成為合法打擊目標

      體育要聞

      絕殺衛冕冠軍后,他單手指天把勝利獻給父親

      娛樂要聞

      單依純凌晨發長文道歉!李榮浩再回應

      財經要聞

      油價沖擊,有些亞洲貨幣先扛不住了!

      汽車要聞

      理想i9要來了!外形似小號MEGA 能沖擊高端純電市場?

      態度原創

      親子
      房產
      數碼
      健康
      公開課

      親子要聞

      浙江醫生提醒低齡寶寶過敏首選西替利嗪

      房產要聞

      搶!海口剛又掛出好地,樓面價低到5000+/㎡!

      數碼要聞

      OPPO Pad Mini外觀曝光,4月驚喜來襲!

      干細胞抗衰4大誤區,90%的人都中招

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版