RESEARCH
UniPat AI 做了一件事:讓 AI 去預測還沒發生的事,比如下個月哪家公司市值最高、某國會不會對另一個國家加關稅、某個政客會不會在社交媒體上發超過 100 條帖子
他們搭了一套系統叫 ECHO,里面有一個專門訓練過的預測模型 EchoZ-1.0。這個模型會自己去網上搜信息、讀新聞、查數據,然后給出一個概率判斷,憑借超出行業的準確率,在交易市場上賺到了錢
![]()
比如「NVIDIA 在 3 月 31 日仍然是全球市值最高的公司」,EchoZ 給出的概率是 98%。它還會附上判斷依據:市值領先第二名 7000 億美元,期權市場沒有定價大幅回調,監管風險已經解除
![]()
EchoZ 的預測報告樣例,概率分布、證據鏈、判斷依據全部結構化輸出
在他們自建的排行榜上,EchoZ 以 1034.2 的 Elo 分排第一,排在 Gemini-3.1-Pro、Claude-Opus-4.6、GPT-5.2 前面,也排在人類交易者的共識結果前面
![]()
General AI Prediction Leaderboard,11 個模型的 Elo 排名,EchoZ 排第一
周末的時候,和他們團隊的人又聊了聊...為什么說又呢,因為是老朋友了。這次 ECHO 是同一套方法論在預測領域的第二次驗證
UniPat 背后,有多個頂級資本的加持,目前還不給說hhhh。在我看來,這家公司在下一個時代能賺迎上不少機會,不止是金融領域
這套東西的方法,目前已經開放出來了,就在官網上
本篇內容,不涉及任何的投資建議,是對他們官方模型信息的一個再次解讀
訓練預測模型,最大的困難在哪
反饋來自未來
現在訓模型,無論 SFT 還是 RL,都需要反饋信號。模型做一道題,你告訴它對不對,它根據反饋去調整
但預測題的答案發生在未來。今天讓模型預測一個月后的事,反饋要等一個月才能拿到。預測一年后的事,就要等一年
這在工程上幾乎不可訓練
之前有些團隊的做法叫 Train-on-Past(基于過去訓練):找已經有答案的歷史預測題,把當時的互聯網環境緩存下來,讓模型假裝回到過去做預測。聽起來合理,但有兩個死穴
第一個,互聯網狀態不可能完美緩存。網頁每天都在更新,有些頁面過了就永遠拿不到了。你緩存的是一個月前的快照,但模型在推理時調用搜索引擎,搜到的結果已經包含了這一個月里新增的信息。答案就藏在這些新信息里,防不住
第二個,真實世界有大量隨機性。模型推理得很好但碰上小概率事件,答案錯了,會被懲罰。模型瞎猜但運氣好蒙對了,會被獎勵。用最終結果做反饋信號,訓出來的模型會學到幸存者偏差
這兩個問題在技術上被稱為 Deficiency I(工程悖論)和 Deficiency II(結果導向偏差)。第一個是環境層面的,第二個是信號層面的,兩個方向上都堵死了
面向未來訓練:評價過程,不等答案
UniPat 的解法叫 Train-on-Future(面向未來訓練)
TRAIN-ON-PAST 緩存歷史環境 快照不完整 → 模型預測 假裝回到過去 → 對比答案 信號有噪聲 ? 答案泄露,環境不可恢復 ? 隨機性導致幸存者偏差 ? TRAIN-ON-FUTURE 動態合成新題 關于未來的真實問題 → 模型預測 搜索+推理+輸出 → 評價過程 Rubrics 打分 ? 零數據泄露 ? 信號穩定,可即時訓練
訓練預測模型的兩條路:基于過去 vs 面向未來
思路很直接:既然拿不到答案,那就不用答案來訓練。讓模型去預測真正還沒發生的事,然后評價它的「預測行為」好不好
什么叫預測行為?就是模型在搜索信息、組織推理、輸出概率的整個過程中,表現出來的一系列具體動作
比如:有沒有去查一手數據源(法院文件、官方公報),還是只看了新聞標題?有沒有識別出矛盾的信息并嘗試驗證?有沒有用歷史基線來錨定概率,還是拍腦袋給了個數字?
這些動作可以被評價,不需要等答案揭曉
一個推理過程好的模型,長期來看預測準確率一定高
評價一個分析師也是這個邏輯。不只看他這次押對了沒有,更看他的分析框架、信息源、邏輯鏈條。好的分析師偶爾也會錯,但長期勝率高
具體的訓練流程分三步。第一步,動態問題合成:一個自動化的 Pipeline 持續從宏觀經濟指標和前沿動態中生成新的預測題,所有題目都關于未來,從源頭消除數據泄露。第二步,Rubrics Search(下一節細說):用數據驅動搜索出評分標準,對模型的預測過程打分,作為訓練的 Reward 信號。第三步,Map-Reduce Agent 架構:在推理階段,把一個大問題拆成多個子任務,派出多個 Agent 并行搜索和推理(Map),再由一個聚合節點解決跨源沖突、對齊因果鏈、輸出最終的概率判斷(Reduce)。這個循環可以跑多輪,直到信息覆蓋和推理深度都到了平臺期
EchoZ-1.0 基于 ReAct 框架,每一步都是「思考→行動→觀察」的三元組。可調用的工具包括網絡搜索、學術文獻檢索、網頁抓取和代碼執行,單次推理最多跑 100 輪工具調用
誰來定義「好的推理」
這件事 UniPat 也沒有交給人來拍腦袋
不同領域的「好推理」差異很大。政治預測需要區分政客的口頭威脅和正式行政執行,需要去查一手的法院文件和軍方報告。體育預測需要的完全是另一套東西。讓人來寫一套通用的評分標準,寫不出來
UniPat 的做法是用數據驅動來搜索評分標準,他們叫 Rubrics Search
流程大概是:先準備一組候選評分維度(比如「信息源可靠性」「概率校準嚴謹性」「矛盾信息處理」),每個維度有 5/3/1 三檔評分。然后用這些維度去給模型的預測過程打分,排出名次。再看這個名次和真實的 Elo 排名(基于最終結果算出來的)吻合度有多高
吻合度越高,說明這套評分標準越接近「好推理」的真實特征
搜索的優化目標是最大化 Spearman 相關系數 ρ(Rubric 打分排名 vs Elo 排名)。按領域分別搜索,每輪由 LLM 根據上一輪的反饋生成新的候選 Rubric,在留出的驗證集上評估,保留最優的進入下一輪
![]()
Rubric Search 的效果,政治領域 ρ=0.873,Esports 提升最大(+0.91)
政治領域搜出來的最優評分標準有 20 個維度,體育領域也有 20 個,但內容完全不同
舉幾個政治領域的維度:「缺席信號識別」,模型是否會主動把「什么都沒發生」當作重要的預測信號(法院沒有新的立案、軍方沒有新的公報,這本身就是信息);「言行分離判斷」,模型能否區分一個政客在社交媒體上的聲明和實際的行政、法律、軍事執行;「報告時滯感知」,模型是否考慮到官方數據通常有 24-48 小時的發布延遲,不把「今天沒報告」等同于「今天沒發生」
這些維度全部是數據搜出來的,人拍腦袋想不到這個粒度。搜出來之后拿去訓練模型,訓練信號比「答案對不對」穩定得多,因為評價的是過程,不受單次結果隨機性的影響
怎么公平地比較預測能力
ECHO 的排行榜解決了預測評測的一個老問題:時間不對稱
同一道題,不同時間去預測,難度完全不一樣。一個月后的大選結果,今天預測和選舉前兩天預測,可用的信息量差了一個量級。之前的預測排行榜沒法控制這個變量,各家模型提交預測的時間不一樣,沒法直接比
ECHO 的做法叫 Multi-Point Aligned Elo。核心是:只在兩個模型「同一天預測同一道題」的那些點上做比較。每一次比較算一場 Battle,用 Brier Score 差值映射成連續的勝負標簽(保留了概率校準的精度差異)。長周期的預測比短周期的權重更高,因為信息更少、難度更大。最終用 Bradley-Terry 模型做極大似然估計,L-BFGS-B 求解,收斂到全局最優
![]()
ECHO 的三階段評測架構:數據采集 → 預測調度 → Battle 構建 + Elo 評分
題目來源有三個:Polymarket 上的預測市場合約、Agent 從實時熱點中自動合成的新題、以及領域專家基于日常工作中真實不確定性出的題
![]()
覆蓋 7 個領域,政治治理占比最大(34.5%),經濟金融第二(19.8%)
第三類題目來源最有意思。一個做東南亞旅游業的專家,關心的預測題可能是某條航線的客流量變化。這種長尾需求只有行業里的人提得出來
為了控制每道題在生命周期內的預測采樣密度,他們還設計了一個兩階段調度算法:第一階段用對數壓縮來分配總預測次數(10 天的題大約 4 次,90 天的題大約 7 次,避免長周期題的成本線性爆炸);第二階段用優先級評分來決定每天預測哪些題,久未被采樣的題和即將到期的題優先級更高
驗證實驗做了四組
第一組,穩健性。模擬各家模型因為 API 故障或服務器中斷缺交預測的情況,隨機丟掉 10% 到 70% 的預測數據,看排名會不會亂。結果是 Elo 排名的波動始終比 Brier Score 平均分排名小 1.4 到 1.8 倍
![]()
丟掉 70% 的數據,Elo 排名波動仍然只有 Brier Score 的一半多
第二組,可靠性。從排行榜里隨機去掉 1 到 6 個模型,重新算排名,看剩下的模型排序會不會變。去掉 1 個模型時,Kendall's τ 是 0.994(幾乎完全一致)。去掉 6 個,τ 降到 0.978,排序依然非常穩定
![]()
Leave-K-Out 實驗,去掉 6 個模型后排序幾乎不變
第三組,收斂速度。模擬一個新模型剛加入排行榜的情況,看它的排名多久能穩定下來。Elo 在第 5.4 天就收斂到和 20 天后一致的排名,Brier Score 要到第 14.5 天,Elo 快了 2.7 倍
![]()
Elo 5.4 天收斂,Brier Score 要 14.5 天
第四組,參數敏感性。Elo 框架里有一個參數 σ,控制 Brier Score 差值映射成勝負概率的敏感度。把 σ 從 0.01 掃到 0.50,EchoZ 在所有設定下都穩定排第一。GPT-5.2 波動最大,從 #2 到 #9
![]()
σ 從 0.01 到 0.50,EchoZ 始終第一
賺錢了嗎
EchoZ 對人類市場共識的勝率:政治領域 63.2%,長期預測(7 天以上)59.3%,市場不確定區間 57.9%
50% 政治與治理 63.2 % 長期 · 7天+ 59.3 % 不確定區間 57.9 % EchoZ vs 人類市場共識,三個維度都在 57% 以上
60% 多看起來不算高。但了解過交易的人知道,在一個靠判斷分勝負的市場里,統計意義上的 60% 勝率意味著什么。超過 50% 就有正期望,60% 已經是很顯著的優勢了
然后,團隊在一些靠判斷能賺錢的交易市場上,賺了不少錢,你知道我在說什么
后面的事
團隊說后續可能會把預測能力做成商業化 API,面向企業和開發者開放。目前還在第一階段,學術發布和品牌建設
Train-on-Future 這個訓練范式如果經得起更長時間的驗證,應用場景遠不止金融。供應鏈、天氣、政策風險、行業趨勢,任何需要對未來做判斷的地方,理論上都可以用同一套方法。但未來具體是什么,其實也都說不準,感興趣的可以在他們網站上看
ECHO 官網:echo.unipat.ai
Blog:unipat.ai/blog/Echo
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.