<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      一個預測未來的模型,它賺到錢了

      0
      分享至

      RESEARCH

      UniPat AI 做了一件事:讓 AI 去預測還沒發生的事,比如下個月哪家公司市值最高、某國會不會對另一個國家加關稅、某個政客會不會在社交媒體上發超過 100 條帖子

      他們搭了一套系統叫 ECHO,里面有一個專門訓練過的預測模型 EchoZ-1.0。這個模型會自己去網上搜信息、讀新聞、查數據,然后給出一個概率判斷,憑借超出行業的準確率,在交易市場上賺到了錢


      比如「NVIDIA 在 3 月 31 日仍然是全球市值最高的公司」,EchoZ 給出的概率是 98%。它還會附上判斷依據:市值領先第二名 7000 億美元,期權市場沒有定價大幅回調,監管風險已經解除


      EchoZ 的預測報告樣例,概率分布、證據鏈、判斷依據全部結構化輸出

      在他們自建的排行榜上,EchoZ 以 1034.2 的 Elo 分排第一,排在 Gemini-3.1-Pro、Claude-Opus-4.6、GPT-5.2 前面,也排在人類交易者的共識結果前面


      General AI Prediction Leaderboard,11 個模型的 Elo 排名,EchoZ 排第一

      周末的時候,和他們團隊的人又聊了聊...為什么說又呢,因為是老朋友了。這次 ECHO 是同一套方法論在預測領域的第二次驗證

      UniPat 背后,有多個頂級資本的加持,目前還不給說hhhh。在我看來,這家公司在下一個時代能賺迎上不少機會,不止是金融領域

      這套東西的方法,目前已經開放出來了,就在官網上

      本篇內容,不涉及任何的投資建議,是對他們官方模型信息的一個再次解讀

      訓練預測模型,最大的困難在哪

      反饋來自未來

      現在訓模型,無論 SFT 還是 RL,都需要反饋信號。模型做一道題,你告訴它對不對,它根據反饋去調整

      但預測題的答案發生在未來。今天讓模型預測一個月后的事,反饋要等一個月才能拿到。預測一年后的事,就要等一年

      這在工程上幾乎不可訓練

      之前有些團隊的做法叫 Train-on-Past(基于過去訓練):找已經有答案的歷史預測題,把當時的互聯網環境緩存下來,讓模型假裝回到過去做預測。聽起來合理,但有兩個死穴

      第一個,互聯網狀態不可能完美緩存。網頁每天都在更新,有些頁面過了就永遠拿不到了。你緩存的是一個月前的快照,但模型在推理時調用搜索引擎,搜到的結果已經包含了這一個月里新增的信息。答案就藏在這些新信息里,防不住

      第二個,真實世界有大量隨機性。模型推理得很好但碰上小概率事件,答案錯了,會被懲罰。模型瞎猜但運氣好蒙對了,會被獎勵。用最終結果做反饋信號,訓出來的模型會學到幸存者偏差

      這兩個問題在技術上被稱為 Deficiency I(工程悖論)和 Deficiency II(結果導向偏差)。第一個是環境層面的,第二個是信號層面的,兩個方向上都堵死了

      面向未來訓練:評價過程,不等答案

      UniPat 的解法叫 Train-on-Future(面向未來訓練)

      TRAIN-ON-PAST 緩存歷史環境 快照不完整 → 模型預測 假裝回到過去 → 對比答案 信號有噪聲 ? 答案泄露,環境不可恢復 ? 隨機性導致幸存者偏差 ? TRAIN-ON-FUTURE 動態合成新題 關于未來的真實問題 → 模型預測 搜索+推理+輸出 → 評價過程 Rubrics 打分 ? 零數據泄露 ? 信號穩定,可即時訓練

      訓練預測模型的兩條路:基于過去 vs 面向未來

      思路很直接:既然拿不到答案,那就不用答案來訓練。讓模型去預測真正還沒發生的事,然后評價它的「預測行為」好不好

      什么叫預測行為?就是模型在搜索信息、組織推理、輸出概率的整個過程中,表現出來的一系列具體動作

      比如:有沒有去查一手數據源(法院文件、官方公報),還是只看了新聞標題?有沒有識別出矛盾的信息并嘗試驗證?有沒有用歷史基線來錨定概率,還是拍腦袋給了個數字?

      這些動作可以被評價,不需要等答案揭曉

      一個推理過程好的模型,長期來看預測準確率一定高

      評價一個分析師也是這個邏輯。不只看他這次押對了沒有,更看他的分析框架、信息源、邏輯鏈條。好的分析師偶爾也會錯,但長期勝率高

      具體的訓練流程分三步。第一步,動態問題合成:一個自動化的 Pipeline 持續從宏觀經濟指標和前沿動態中生成新的預測題,所有題目都關于未來,從源頭消除數據泄露。第二步,Rubrics Search(下一節細說):用數據驅動搜索出評分標準,對模型的預測過程打分,作為訓練的 Reward 信號。第三步,Map-Reduce Agent 架構:在推理階段,把一個大問題拆成多個子任務,派出多個 Agent 并行搜索和推理(Map),再由一個聚合節點解決跨源沖突、對齊因果鏈、輸出最終的概率判斷(Reduce)。這個循環可以跑多輪,直到信息覆蓋和推理深度都到了平臺期

      EchoZ-1.0 基于 ReAct 框架,每一步都是「思考→行動→觀察」的三元組。可調用的工具包括網絡搜索、學術文獻檢索、網頁抓取和代碼執行,單次推理最多跑 100 輪工具調用

      誰來定義「好的推理」

      這件事 UniPat 也沒有交給人來拍腦袋

      不同領域的「好推理」差異很大。政治預測需要區分政客的口頭威脅和正式行政執行,需要去查一手的法院文件和軍方報告。體育預測需要的完全是另一套東西。讓人來寫一套通用的評分標準,寫不出來

      UniPat 的做法是用數據驅動來搜索評分標準,他們叫 Rubrics Search

      流程大概是:先準備一組候選評分維度(比如「信息源可靠性」「概率校準嚴謹性」「矛盾信息處理」),每個維度有 5/3/1 三檔評分。然后用這些維度去給模型的預測過程打分,排出名次。再看這個名次和真實的 Elo 排名(基于最終結果算出來的)吻合度有多高

      吻合度越高,說明這套評分標準越接近「好推理」的真實特征

      搜索的優化目標是最大化 Spearman 相關系數 ρ(Rubric 打分排名 vs Elo 排名)。按領域分別搜索,每輪由 LLM 根據上一輪的反饋生成新的候選 Rubric,在留出的驗證集上評估,保留最優的進入下一輪


      Rubric Search 的效果,政治領域 ρ=0.873,Esports 提升最大(+0.91)

      政治領域搜出來的最優評分標準有 20 個維度,體育領域也有 20 個,但內容完全不同

      舉幾個政治領域的維度:「缺席信號識別」,模型是否會主動把「什么都沒發生」當作重要的預測信號(法院沒有新的立案、軍方沒有新的公報,這本身就是信息);「言行分離判斷」,模型能否區分一個政客在社交媒體上的聲明和實際的行政、法律、軍事執行;「報告時滯感知」,模型是否考慮到官方數據通常有 24-48 小時的發布延遲,不把「今天沒報告」等同于「今天沒發生」

      這些維度全部是數據搜出來的,人拍腦袋想不到這個粒度。搜出來之后拿去訓練模型,訓練信號比「答案對不對」穩定得多,因為評價的是過程,不受單次結果隨機性的影響

      怎么公平地比較預測能力

      ECHO 的排行榜解決了預測評測的一個老問題:時間不對稱

      同一道題,不同時間去預測,難度完全不一樣。一個月后的大選結果,今天預測和選舉前兩天預測,可用的信息量差了一個量級。之前的預測排行榜沒法控制這個變量,各家模型提交預測的時間不一樣,沒法直接比

      ECHO 的做法叫 Multi-Point Aligned Elo。核心是:只在兩個模型「同一天預測同一道題」的那些點上做比較。每一次比較算一場 Battle,用 Brier Score 差值映射成連續的勝負標簽(保留了概率校準的精度差異)。長周期的預測比短周期的權重更高,因為信息更少、難度更大。最終用 Bradley-Terry 模型做極大似然估計,L-BFGS-B 求解,收斂到全局最優


      ECHO 的三階段評測架構:數據采集 → 預測調度 → Battle 構建 + Elo 評分

      題目來源有三個:Polymarket 上的預測市場合約、Agent 從實時熱點中自動合成的新題、以及領域專家基于日常工作中真實不確定性出的題


      覆蓋 7 個領域,政治治理占比最大(34.5%),經濟金融第二(19.8%)

      第三類題目來源最有意思。一個做東南亞旅游業的專家,關心的預測題可能是某條航線的客流量變化。這種長尾需求只有行業里的人提得出來

      為了控制每道題在生命周期內的預測采樣密度,他們還設計了一個兩階段調度算法:第一階段用對數壓縮來分配總預測次數(10 天的題大約 4 次,90 天的題大約 7 次,避免長周期題的成本線性爆炸);第二階段用優先級評分來決定每天預測哪些題,久未被采樣的題和即將到期的題優先級更高

      驗證實驗做了四組

      第一組,穩健性。模擬各家模型因為 API 故障或服務器中斷缺交預測的情況,隨機丟掉 10% 到 70% 的預測數據,看排名會不會亂。結果是 Elo 排名的波動始終比 Brier Score 平均分排名小 1.4 到 1.8 倍


      丟掉 70% 的數據,Elo 排名波動仍然只有 Brier Score 的一半多

      第二組,可靠性。從排行榜里隨機去掉 1 到 6 個模型,重新算排名,看剩下的模型排序會不會變。去掉 1 個模型時,Kendall's τ 是 0.994(幾乎完全一致)。去掉 6 個,τ 降到 0.978,排序依然非常穩定


      Leave-K-Out 實驗,去掉 6 個模型后排序幾乎不變

      第三組,收斂速度。模擬一個新模型剛加入排行榜的情況,看它的排名多久能穩定下來。Elo 在第 5.4 天就收斂到和 20 天后一致的排名,Brier Score 要到第 14.5 天,Elo 快了 2.7 倍


      Elo 5.4 天收斂,Brier Score 要 14.5 天

      第四組,參數敏感性。Elo 框架里有一個參數 σ,控制 Brier Score 差值映射成勝負概率的敏感度。把 σ 從 0.01 掃到 0.50,EchoZ 在所有設定下都穩定排第一。GPT-5.2 波動最大,從 #2 到 #9


      σ 從 0.01 到 0.50,EchoZ 始終第一

      賺錢了嗎

      EchoZ 對人類市場共識的勝率:政治領域 63.2%,長期預測(7 天以上)59.3%,市場不確定區間 57.9%

      50% 政治與治理 63.2 % 長期 · 7天+ 59.3 % 不確定區間 57.9 % EchoZ vs 人類市場共識,三個維度都在 57% 以上

      60% 多看起來不算高。但了解過交易的人知道,在一個靠判斷分勝負的市場里,統計意義上的 60% 勝率意味著什么。超過 50% 就有正期望,60% 已經是很顯著的優勢了

      然后,團隊在一些靠判斷能賺錢的交易市場上,賺了不少錢,你知道我在說什么

      后面的事

      團隊說后續可能會把預測能力做成商業化 API,面向企業和開發者開放。目前還在第一階段,學術發布和品牌建設

      Train-on-Future 這個訓練范式如果經得起更長時間的驗證,應用場景遠不止金融。供應鏈、天氣、政策風險、行業趨勢,任何需要對未來做判斷的地方,理論上都可以用同一套方法。但未來具體是什么,其實也都說不準,感興趣的可以在他們網站上看

      ECHO 官網:echo.unipat.ai

      Blog:unipat.ai/blog/Echo

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      內塔尼亞胡跪求美軍永久駐軍,以色列80年破戒…

      內塔尼亞胡跪求美軍永久駐軍,以色列80年破戒…

      福建平子
      2026-04-03 17:07:41
      攤上事了!張蘭被起訴落淚,無心管馬筱梅作妖,上億名畫遭扣押

      攤上事了!張蘭被起訴落淚,無心管馬筱梅作妖,上億名畫遭扣押

      橙星文娛
      2026-04-03 17:10:29
      美國有這樣的研究員,我們就放心了!

      美國有這樣的研究員,我們就放心了!

      清沐執筆
      2026-04-03 16:49:55
      一場108-113讓火箭很無奈!首輪對陣基本出爐,都拿湖人當軟柿子

      一場108-113讓火箭很無奈!首輪對陣基本出爐,都拿湖人當軟柿子

      毒舌NBA
      2026-04-03 10:15:45
      丈夫每個月給小叔子4800生活費,我因此和丈夫離婚,我前腳剛離

      丈夫每個月給小叔子4800生活費,我因此和丈夫離婚,我前腳剛離

      小秋情感說
      2026-04-03 09:20:55
      我從來沒覺得飽滿是缺點,除了……黑點

      我從來沒覺得飽滿是缺點,除了……黑點

      飛娛日記
      2026-03-27 08:44:43
      跟前夫吃完散伙飯,我單身一人前往瑞士定居,他如愿和秘書舉辦婚禮,卻因為賓客閑聊的一句話,前夫聽后當場瘋了

      跟前夫吃完散伙飯,我單身一人前往瑞士定居,他如愿和秘書舉辦婚禮,卻因為賓客閑聊的一句話,前夫聽后當場瘋了

      奶茶麥子
      2026-04-03 15:11:10
      中東危機只是小菜?更大危機還在后面,外媒:中國將徹底顛覆戰場

      中東危機只是小菜?更大危機還在后面,外媒:中國將徹底顛覆戰場

      嘆知
      2026-03-29 18:13:46
      小米宣布調價!盧偉冰、魏思琪:望大家理解

      小米宣布調價!盧偉冰、魏思琪:望大家理解

      極目新聞
      2026-04-03 15:27:09
      數千美軍深入伊朗腹地,搶了濃縮鈾之后,光天化日修建機場運走?

      數千美軍深入伊朗腹地,搶了濃縮鈾之后,光天化日修建機場運走?

      通鑒史智
      2026-04-03 10:08:22
      張雪峰三大遺憾!50萬沒留住父親、對不起妻子,還有誤女兒前程

      張雪峰三大遺憾!50萬沒留住父親、對不起妻子,還有誤女兒前程

      八斗小先生
      2026-03-27 16:18:15
      男人的生理需求能有多難忍?網友:我對我老公只有動物本能

      男人的生理需求能有多難忍?網友:我對我老公只有動物本能

      帶你感受人間冷暖
      2026-02-07 03:58:56
      孩子咳嗽半年跑9家醫院,最后確診罕見病,媽媽:是我大意了

      孩子咳嗽半年跑9家醫院,最后確診罕見病,媽媽:是我大意了

      一口娛樂
      2026-04-02 14:13:34
      蘋果宣布新品降價!已經購買的用戶可以申請退款

      蘋果宣布新品降價!已經購買的用戶可以申請退款

      XCiOS俱樂部
      2026-04-02 09:26:32
      這面相太好了,妥妥旺夫相,膀大腰圓氣血足,穿著干凈舒服!

      這面相太好了,妥妥旺夫相,膀大腰圓氣血足,穿著干凈舒服!

      老吳教育課堂
      2026-03-30 11:58:41
      WSBK碾壓式奪冠 華為加持 張雪機車有多少是國產的?

      WSBK碾壓式奪冠 華為加持 張雪機車有多少是國產的?

      CNMO科技
      2026-04-01 09:34:10
      江浙滬的包容感火了!網友:唯一規矩就是小孩不能坐出菜口?

      江浙滬的包容感火了!網友:唯一規矩就是小孩不能坐出菜口?

      今日搞笑分享
      2026-04-02 18:53:49
      亡母再婚水落石出,國社一錘定音,輿論反撲孫女士,小姨索要回報

      亡母再婚水落石出,國社一錘定音,輿論反撲孫女士,小姨索要回報

      潮鹿逐夢
      2026-04-01 09:33:54
      4.3日早評|永遠關閉!全球巨震!A股周五爆了!

      4.3日早評|永遠關閉!全球巨震!A股周五爆了!

      龍行天下虎
      2026-04-03 09:05:38
      風險驟升!聯合國拉響警報:阿拉伯或將迎來"史無前例大衰退"

      風險驟升!聯合國拉響警報:阿拉伯或將迎來"史無前例大衰退"

      可樂愛微笑
      2026-04-03 16:23:02
      2026-04-03 17:52:49
      賽博禪心
      賽博禪心
      拜AI古佛,修賽博禪心
      357文章數 50關注度
      往期回顧 全部

      科技要聞

      5萬輛庫存車,給了特斯拉一記重拳

      頭條要聞

      優思益:公司整體處于崩潰邊緣 已起訴浙江索象公司

      頭條要聞

      優思益:公司整體處于崩潰邊緣 已起訴浙江索象公司

      體育要聞

      沖擊世界杯失敗,80歲老帥一氣之下病倒了

      娛樂要聞

      《浪姐7》最新人氣TOP 曾沛慈斷層第一

      財經要聞

      專家稱長期攝入“飄香劑”存在健康隱患

      汽車要聞

      你介意和遠房親戚長得很像嗎?

      態度原創

      家居
      健康
      親子
      本地
      軍事航空

      家居要聞

      溫馨多元 愛的具象化

      干細胞抗衰4大誤區,90%的人都中招

      親子要聞

      卵泡不長能懷上孕嗎?促排期間怎么做卵泡長得好又快?

      本地新聞

      跟著歌聲游安徽,聽古村回響

      軍事要聞

      中方:不認同伊朗對海合會國家的攻擊

      無障礙瀏覽 進入關懷版