網易首頁 > 網易號 > 正文申請入駐

一個預測未來的模型，它賺到錢了

2026-03-30 11:18:00　來源: 賽博禪心

北京舉報

分享至

RESEARCH

UniPat AI 做了一件事：讓 AI 去預測還沒發生的事，比如下個月哪家公司市值最高、某國會不會對另一個國家加關稅、某個政客會不會在社交媒體上發超過 100 條帖子

他們搭了一套系統叫 ECHO，里面有一個專門訓練過的預測模型 EchoZ-1.0。這個模型會自己去網上搜信息、讀新聞、查數據，然后給出一個概率判斷，憑借超出行業的準確率，在交易市場上賺到了錢

比如「NVIDIA 在 3 月 31 日仍然是全球市值最高的公司」，EchoZ 給出的概率是 98%。它還會附上判斷依據：市值領先第二名 7000 億美元，期權市場沒有定價大幅回調，監管風險已經解除

EchoZ 的預測報告樣例，概率分布、證據鏈、判斷依據全部結構化輸出

在他們自建的排行榜上，EchoZ 以 1034.2 的 Elo 分排第一，排在 Gemini-3.1-Pro、Claude-Opus-4.6、GPT-5.2 前面，也排在人類交易者的共識結果前面

General AI Prediction Leaderboard，11 個模型的 Elo 排名，EchoZ 排第一

周末的時候，和他們團隊的人又聊了聊...為什么說又呢，因為是老朋友了。這次 ECHO 是同一套方法論在預測領域的第二次驗證

UniPat 背后，有多個頂級資本的加持，目前還不給說hhhh。在我看來，這家公司在下一個時代能賺迎上不少機會，不止是金融領域

這套東西的方法，目前已經開放出來了，就在官網上

本篇內容，不涉及任何的投資建議，是對他們官方模型信息的一個再次解讀

訓練預測模型，最大的困難在哪

反饋來自未來

現在訓模型，無論 SFT 還是 RL，都需要反饋信號。模型做一道題，你告訴它對不對，它根據反饋去調整

但預測題的答案發生在未來。今天讓模型預測一個月后的事，反饋要等一個月才能拿到。預測一年后的事，就要等一年

這在工程上幾乎不可訓練

之前有些團隊的做法叫 Train-on-Past（基于過去訓練）：找已經有答案的歷史預測題，把當時的互聯網環境緩存下來，讓模型假裝回到過去做預測。聽起來合理，但有兩個死穴

第一個，互聯網狀態不可能完美緩存。網頁每天都在更新，有些頁面過了就永遠拿不到了。你緩存的是一個月前的快照，但模型在推理時調用搜索引擎，搜到的結果已經包含了這一個月里新增的信息。答案就藏在這些新信息里，防不住

第二個，真實世界有大量隨機性。模型推理得很好但碰上小概率事件，答案錯了，會被懲罰。模型瞎猜但運氣好蒙對了，會被獎勵。用最終結果做反饋信號，訓出來的模型會學到幸存者偏差

這兩個問題在技術上被稱為 Deficiency I（工程悖論）和 Deficiency II（結果導向偏差）。第一個是環境層面的，第二個是信號層面的，兩個方向上都堵死了

面向未來訓練：評價過程，不等答案

UniPat 的解法叫 Train-on-Future（面向未來訓練）

TRAIN-ON-PAST 緩存歷史環境快照不完整 → 模型預測假裝回到過去 → 對比答案信號有噪聲 ? 答案泄露，環境不可恢復 ? 隨機性導致幸存者偏差 ? TRAIN-ON-FUTURE 動態合成新題關于未來的真實問題 → 模型預測搜索+推理+輸出 → 評價過程 Rubrics 打分 ? 零數據泄露 ? 信號穩定，可即時訓練

訓練預測模型的兩條路：基于過去 vs 面向未來

思路很直接：既然拿不到答案，那就不用答案來訓練。讓模型去預測真正還沒發生的事，然后評價它的「預測行為」好不好

什么叫預測行為？就是模型在搜索信息、組織推理、輸出概率的整個過程中，表現出來的一系列具體動作

比如：有沒有去查一手數據源（法院文件、官方公報），還是只看了新聞標題？有沒有識別出矛盾的信息并嘗試驗證？有沒有用歷史基線來錨定概率，還是拍腦袋給了個數字？

這些動作可以被評價，不需要等答案揭曉

一個推理過程好的模型，長期來看預測準確率一定高

評價一個分析師也是這個邏輯。不只看他這次押對了沒有，更看他的分析框架、信息源、邏輯鏈條。好的分析師偶爾也會錯，但長期勝率高

具體的訓練流程分三步。第一步，動態問題合成：一個自動化的 Pipeline 持續從宏觀經濟指標和前沿動態中生成新的預測題，所有題目都關于未來，從源頭消除數據泄露。第二步，Rubrics Search（下一節細說）：用數據驅動搜索出評分標準，對模型的預測過程打分，作為訓練的 Reward 信號。第三步，Map-Reduce Agent 架構：在推理階段，把一個大問題拆成多個子任務，派出多個 Agent 并行搜索和推理（Map），再由一個聚合節點解決跨源沖突、對齊因果鏈、輸出最終的概率判斷（Reduce）。這個循環可以跑多輪，直到信息覆蓋和推理深度都到了平臺期

EchoZ-1.0 基于 ReAct 框架，每一步都是「思考→行動→觀察」的三元組。可調用的工具包括網絡搜索、學術文獻檢索、網頁抓取和代碼執行，單次推理最多跑 100 輪工具調用

誰來定義「好的推理」

這件事 UniPat 也沒有交給人來拍腦袋

不同領域的「好推理」差異很大。政治預測需要區分政客的口頭威脅和正式行政執行，需要去查一手的法院文件和軍方報告。體育預測需要的完全是另一套東西。讓人來寫一套通用的評分標準，寫不出來

UniPat 的做法是用數據驅動來搜索評分標準，他們叫 Rubrics Search

流程大概是：先準備一組候選評分維度（比如「信息源可靠性」「概率校準嚴謹性」「矛盾信息處理」），每個維度有 5/3/1 三檔評分。然后用這些維度去給模型的預測過程打分，排出名次。再看這個名次和真實的 Elo 排名（基于最終結果算出來的）吻合度有多高

吻合度越高，說明這套評分標準越接近「好推理」的真實特征

搜索的優化目標是最大化 Spearman 相關系數 ρ（Rubric 打分排名 vs Elo 排名）。按領域分別搜索，每輪由 LLM 根據上一輪的反饋生成新的候選 Rubric，在留出的驗證集上評估，保留最優的進入下一輪

Rubric Search 的效果，政治領域 ρ=0.873，Esports 提升最大（+0.91）

政治領域搜出來的最優評分標準有 20 個維度，體育領域也有 20 個，但內容完全不同

舉幾個政治領域的維度：「缺席信號識別」，模型是否會主動把「什么都沒發生」當作重要的預測信號（法院沒有新的立案、軍方沒有新的公報，這本身就是信息）；「言行分離判斷」，模型能否區分一個政客在社交媒體上的聲明和實際的行政、法律、軍事執行；「報告時滯感知」，模型是否考慮到官方數據通常有 24-48 小時的發布延遲，不把「今天沒報告」等同于「今天沒發生」

這些維度全部是數據搜出來的，人拍腦袋想不到這個粒度。搜出來之后拿去訓練模型，訓練信號比「答案對不對」穩定得多，因為評價的是過程，不受單次結果隨機性的影響

怎么公平地比較預測能力

ECHO 的排行榜解決了預測評測的一個老問題：時間不對稱

同一道題，不同時間去預測，難度完全不一樣。一個月后的大選結果，今天預測和選舉前兩天預測，可用的信息量差了一個量級。之前的預測排行榜沒法控制這個變量，各家模型提交預測的時間不一樣，沒法直接比

ECHO 的做法叫 Multi-Point Aligned Elo。核心是：只在兩個模型「同一天預測同一道題」的那些點上做比較。每一次比較算一場 Battle，用 Brier Score 差值映射成連續的勝負標簽（保留了概率校準的精度差異）。長周期的預測比短周期的權重更高，因為信息更少、難度更大。最終用 Bradley-Terry 模型做極大似然估計，L-BFGS-B 求解，收斂到全局最優

ECHO 的三階段評測架構：數據采集 → 預測調度 → Battle 構建 + Elo 評分

題目來源有三個：Polymarket 上的預測市場合約、Agent 從實時熱點中自動合成的新題、以及領域專家基于日常工作中真實不確定性出的題

覆蓋 7 個領域，政治治理占比最大（34.5%），經濟金融第二（19.8%）

第三類題目來源最有意思。一個做東南亞旅游業的專家，關心的預測題可能是某條航線的客流量變化。這種長尾需求只有行業里的人提得出來

為了控制每道題在生命周期內的預測采樣密度，他們還設計了一個兩階段調度算法：第一階段用對數壓縮來分配總預測次數（10 天的題大約 4 次，90 天的題大約 7 次，避免長周期題的成本線性爆炸）；第二階段用優先級評分來決定每天預測哪些題，久未被采樣的題和即將到期的題優先級更高

驗證實驗做了四組

第一組，穩健性。模擬各家模型因為 API 故障或服務器中斷缺交預測的情況，隨機丟掉 10% 到 70% 的預測數據，看排名會不會亂。結果是 Elo 排名的波動始終比 Brier Score 平均分排名小 1.4 到 1.8 倍

丟掉 70% 的數據，Elo 排名波動仍然只有 Brier Score 的一半多

第二組，可靠性。從排行榜里隨機去掉 1 到 6 個模型，重新算排名，看剩下的模型排序會不會變。去掉 1 個模型時，Kendall's τ 是 0.994（幾乎完全一致）。去掉 6 個，τ 降到 0.978，排序依然非常穩定

Leave-K-Out 實驗，去掉 6 個模型后排序幾乎不變

第三組，收斂速度。模擬一個新模型剛加入排行榜的情況，看它的排名多久能穩定下來。Elo 在第 5.4 天就收斂到和 20 天后一致的排名，Brier Score 要到第 14.5 天，Elo 快了 2.7 倍

Elo 5.4 天收斂，Brier Score 要 14.5 天

第四組，參數敏感性。Elo 框架里有一個參數 σ，控制 Brier Score 差值映射成勝負概率的敏感度。把 σ 從 0.01 掃到 0.50，EchoZ 在所有設定下都穩定排第一。GPT-5.2 波動最大，從 #2 到 #9

σ 從 0.01 到 0.50，EchoZ 始終第一

賺錢了嗎

EchoZ 對人類市場共識的勝率：政治領域 63.2%，長期預測（7 天以上）59.3%，市場不確定區間 57.9%

50% 政治與治理 63.2 % 長期 · 7天+ 59.3 % 不確定區間 57.9 % EchoZ vs 人類市場共識，三個維度都在 57% 以上

60% 多看起來不算高。但了解過交易的人知道，在一個靠判斷分勝負的市場里，統計意義上的 60% 勝率意味著什么。超過 50% 就有正期望，60% 已經是很顯著的優勢了

然后，團隊在一些靠判斷能賺錢的交易市場上，賺了不少錢，你知道我在說什么

后面的事

團隊說后續可能會把預測能力做成商業化 API，面向企業和開發者開放。目前還在第一階段，學術發布和品牌建設

Train-on-Future 這個訓練范式如果經得起更長時間的驗證，應用場景遠不止金融。供應鏈、天氣、政策風險、行業趨勢，任何需要對未來做判斷的地方，理論上都可以用同一套方法。但未來具體是什么，其實也都說不準，感興趣的可以在他們網站上看

ECHO 官網：echo.unipat.ai

Blog：unipat.ai/blog/Echo

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.