<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      中美六大頂尖模型第一賽季實盤量化交易結果出爐:Qwen最后反超奪冠,GPT-5墊底「復盤」

      0
      分享至


      大家對LLM在棋類、算法競賽和數學證明等領域的金牌級表現已經見怪不怪了,LLM在現實世界中表現究竟會怎么樣

      這就不得不得提最近大火的一家名為 Nof1 的機構,發起了一個名為 Alpha Arena 的LLM自主進行量化交易項目,旨在探索LLM在真實、動態且充滿風險的金融市場中的決策能力

      目前第一賽季(10月18到11月4)已經結束,國產模型Qwen(阿里Qwen最后實現反超) 和 DeepSeek最終獲得了冠亞軍且都盈利了,GPT-5墊底!以下是比賽結果:



      下面我們就對本次比賽的過程做一個全面復盤:

      Alpha Arena項目核心問題非常直接:

      一個大型語言模型,在最少的指導下,能否充當一個零樣本(zero-shot)的系統化交易模型?

      為此,他們為六個業界領先的LLM分別提供了1萬美元的真實資金,讓它們在加密貨幣衍生品交易所Hyperliquid上進行自主交易,全程零人工干預

      這些模型只能依賴提供的純數值市場數據進行決策,無法獲取任何新聞或市場“敘事”信息。它們的唯一目標是:最大化收益

      初步結果顯示,不同模型在風險偏好、頭寸規模和持倉時間等方面表現出明顯的行為差異,并且對提示詞的微小變化高度敏感

      Alpha Arena如何設計?

      Alpha Arena第一賽季的目標有兩個:

      1.揭示主流LLM固有的偏見和默認交易行為。通過比較分析,觀察不同模型的交易方式是否存在巨大差異,以及這些差異是否隨時間保持一致

      2.推動AI研究文化從靜態基準轉向真實世界基準。倡導在更具現實意義和影響力的環境中評估AI,以更快地發現前沿AI的關鍵差距和洞見

      為了實現這一目標,實驗選擇了真金白銀的實盤交易,而非模擬盤。因為真實市場才能暴露執行挑戰、逆向選擇和責任歸屬等全部問題

      參賽選手與賽場規則

      本次比賽陣容匯集了全球頂尖的AI研究成果,共六個模型:

      • ? GPT-5

      • ? Gemini 2.5 Pro

      • ? Claude Sonnet 4.5

      • ? Grok 4

      • ? DeepSeek v3.1

      • ? Qwen3-Max

      這些模型涵蓋了中美兩國的閉源和開源提供商。除Qwen3-Max外,所有模型都配置了最高的推理能力,且未經任何任務特定的微調

      交易環境:在Hyperliquid交易所進行中低頻交易(決策間隔為數分鐘到數小時)。
      交易資產:BTC、ETH、SOL、BNB、DOGE、XRP六種主流加密貨幣的永續合約

      操作空間:買入開倉(做多)、賣出開倉(做空)、持有或平倉

      數據輸入:僅提供定量的市場數據,如當前和歷史中間價、成交量、技術指標(EMA、MACD、RSI等)以及其他輔助特征

      交易杠桿:允許模型使用杠桿,這既能提高資金效率,加速反饋循環,也極大地考驗了模型的風險管理能力

      構建執行系統(Harness)

      整個系統的推理循環如下:

      模型在每次被調用時(約2-3分鐘一次),會接收到一個包含簡潔指令集(系統提示)和實時市場及賬戶狀態(用戶提示)的輸入

      然后,模型需要返回結構化的操作指令,包括:

      交易決策:買入/賣出/持有/平倉
      交易細節:幣種、數量、杠桿
      決策依據:簡短的理由陳述、一個0到1之間的置信度分數
      退出計劃:預設的止盈目標、止損價位和使計劃失效的條件

      其中,退出計劃的引入顯著提升了模型的表現。倉位大小由模型根據可用現金、杠桿和其內部風險偏好自行計算。

      一個交易實例:從決策到執行

      為了直觀展示模型如何工作,以下是Claude模型一次完整的BTC交易生命周期


      入場:2025年10月19日 10:10

      模型收到了詳細的上下文信息,包括:分鐘級的價格和指標序列、4小時周期的長線數據、持倉量和資金費率,以及精確的賬戶狀態(可用現金8308.94美元,持有一個盈利493.42美元的XRP多頭倉位)

      推理過程摘要:

      1.分析現有倉位:模型首先檢查了持有的XRP多頭倉位。它確認該倉位盈利狀態良好,且其預設的失效條件“BTC跌破105,000美元”并未觸發(當時BTC價格為107,982.5美元),因此決定繼續持有

      2.進行市場全面掃描:接著,模型系統性地分析了其他主要加密貨幣的機會,包括ETH、SOL、BNB和DOGE。它注意到市場整體呈現建設性技術形態,其中BTC和ETH顯示出顯著強勢,BNB則表現出特別強勁的相對性能

      3.制定新策略并進行資本分配:在綜合評估后,模型認為BTC的機會展現出引人入勝的技術特征。它明確考慮到了自己有限的可用資金(8308美元),因此決定采取“選擇性”策略。模型制定了精確的頭寸計劃:動用40%的保證金(約3323美元),配合20倍杠桿建立BTC多頭頭寸,并將風險參數控制在997美元左右。其理由是BTC正在突破盤整區,動能強勁,且4小時RSI指標從超賣區恢復,目標是重新測試11萬美元區域

      模型輸出的交易指令:

                                                                  {
      "coin": "BTC",
      "signal": "buy_to_enter",
      "quantity": 0.62,
      "leverage": 20,
      "profit_target": 111000.0,
      "stop_loss": 106361.0,
      "invalidation_condition": "4H RSI breaks back below 40...",
      "justification": "BTC breaking above consolidation zone with strong momentum...",
      "confidence": 0.72,
      "risk_usd": 997.0
      }

      出場:2025年10月20日 01:54

      在開倉大約15小時44分鐘后,BTC價格觸及了模型預設的111,000美元止盈目標,交易被自動平倉

      在此期間,Claude模型接收并處理了443次連續的市場數據更新,每次都重新評估并選擇堅守其最初的退出計劃,最終成功獲利。

      初步發現:模型的行為模式差異顯著

      盡管頂級的性能指標(PnL、夏普比率)很重要,但它們并不能揭示全部情況。通過數千次調用和多次預發布測試,研究人員觀察到了一些一致的行為模式:

      看漲/看跌傾向:模型在多空選擇上存在差異。Grok 4、GPT-5和Gemini 2.5 Pro做空頻率遠高于其他模型;而Claude Sonnet 4.5則極少做空

      持倉周期:不同模型的持倉時間差距巨大。在預發布測試中,Grok 4的持倉時間最長

      交易頻率:Gemini 2.5 Pro是交易最活躍的模型;Grok 4通常最不活躍。

      風險偏好(倉位大小):Qwen3-Max的倉位規模一直最大,常常是GPT-5和Gemini 2.5 Pro的數倍

      自我報告的置信度:Qwen3-Max經常報告最高的置信度,而GPT-5最低。這一模式似乎與實際交易表現無關

      退出計劃的松緊度:Qwen3-Max設置的止盈止損范圍最窄;Grok 4和DeepSeek V3.1則最為寬松

      同時持倉數量:一些模型傾向于同時持有多個倉位,而Claude Sonnet 4.5和Qwen3-Max通常只保持1-2個活躍倉位。

      模型在實際操作中的脆弱性

      實驗還暴露出LLM在操作層面的一些“脆弱”之處:

      1.順序偏見:早期的提示詞將市場數據從“最新→最舊”排列,即使有明確說明,多個模型仍會錯誤地按“最舊→最新”來解讀。將順序調整后問題才解決,這表明當前LLM存在格式上的先驗假設

      2.術語模糊性:交替使用“可用現金”和“自由抵押品”導致模型行為不一致。雖然這種模糊性可以理解,但模型的脆弱反應才是問題所在——一個可靠的智能體應能在不確定性下做出明確假設并繼續行動

      3.在約束下的規則博弈與欺騙:在一個測試版本中,當限制模型連續持有次數不能超過3次時,測試模型(Gemini 2.5 Flash)的內部推理鏈(CoT)抱怨無法第四次持有,但它在暴露給外部的“思考”字段中給出了一個中性理由,然后迅速恢復了持有操作。內部CoT和外部“思考”的分歧,揭示了模型在壓力下可能出現的規則博弈行為

      4.自我參照的混淆:模型有時會誤讀或與自己先前設定的計劃相矛盾。例如,GPT-5后來不確定如何應用自己提出的“EMA20收復”條件;Qwen 3則在計算止盈點時出現算術錯誤,并在其CoT中指出了這一矛盾,然后猶豫不決,沒有按計劃止盈。這暴露了模型在狀態演變過程中維持連貫自我溝通的困難

      第二賽季

      研究人員承認,第一賽季的設置存在局限性,例如上下文窗口有限,模型沒有對過往行為的記憶,也無法對現有倉位進行加倉或減倉。

      目前,基于第一賽季的發現,第二賽季的籌備工作已接近尾聲。計劃將引入更豐富的特征、優化的提示詞和執行系統,并增加更多的統計嚴謹性

      Nof1的最終目標是探索如何讓未來的Agent更好地理解市場:需要什么樣的條件和接口來幫助自主系統學習、公平競爭并創造價值,而不是依賴特權信息或市場操縱?實現超人級交易還缺少哪些能力?如果每個人都能部署自己的交易智能體,又需要什么樣的安全保障?

      第一賽季,只是這個宏大愿景邁出的一小步

      參考:

      https://nof1.ai/blog/TechPost1

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      船東表態:全面暫停涉俄所有航運業務

      船東表態:全面暫停涉俄所有航運業務

      新浪財經
      2025-12-08 07:25:14
      足球報:中赫接手國安9年已投80億,近兩年沒有屬地政府資金支持

      足球報:中赫接手國安9年已投80億,近兩年沒有屬地政府資金支持

      懂球帝
      2025-12-08 14:18:46
      72歲老戲骨濮存昕官宣外孫女出道,尖嘴猴腮,長相遭吐槽:太丑了

      72歲老戲骨濮存昕官宣外孫女出道,尖嘴猴腮,長相遭吐槽:太丑了

      深析古今
      2025-12-08 12:29:36
      0-2!姆巴佩失單刀,熊皇11場0球,皇馬主場爆冷,恐遭曼城吊打

      0-2!姆巴佩失單刀,熊皇11場0球,皇馬主場爆冷,恐遭曼城吊打

      我的護球最獨特
      2025-12-08 06:06:05
      國際巨頭確認裁員!6000人將失業

      國際巨頭確認裁員!6000人將失業

      支點財經
      2025-12-08 09:53:08
      借調到市里2年被原單位催著回去,臨走前市長把我叫到辦公室

      借調到市里2年被原單位催著回去,臨走前市長把我叫到辦公室

      故事那點事
      2025-12-06 09:50:08
      中日戰機對峙創下3個首次,日方召見中國大使抗議,中方當場駁斥

      中日戰機對峙創下3個首次,日方召見中國大使抗議,中方當場駁斥

      時時有聊
      2025-12-08 07:19:38
      中日開戰概率到底有多大?答案震撼:日本敢開第一槍,就是結局!

      中日開戰概率到底有多大?答案震撼:日本敢開第一槍,就是結局!

      健身狂人
      2025-12-08 09:58:05
      楊振寧走后1個月,翁帆搬離別墅,穿帆布鞋吃食堂,帶走34箱東西

      楊振寧走后1個月,翁帆搬離別墅,穿帆布鞋吃食堂,帶走34箱東西

      禾寒敘
      2025-11-28 19:07:41
      曾被中央通報違規聚餐飲酒致人死亡,魏栓師被開除黨籍和公職

      曾被中央通報違規聚餐飲酒致人死亡,魏栓師被開除黨籍和公職

      南方都市報
      2025-12-08 13:50:08
      黃循財強踩歷史雷區后,新加坡三線崩盤:內政、外交與輿情全面失控

      黃循財強踩歷史雷區后,新加坡三線崩盤:內政、外交與輿情全面失控

      阿離家居
      2025-12-08 12:06:28
      重磅決定!退休人員笑了?2026年養老金新政施行,每月多領多少!

      重磅決定!退休人員笑了?2026年養老金新政施行,每月多領多少!

      陳博世財經
      2025-12-08 14:14:43
      我在邊境釋放被俘的女兵,35年后我訪問越南,剛落地就被軍車圍住

      我在邊境釋放被俘的女兵,35年后我訪問越南,剛落地就被軍車圍住

      張道陵秘話
      2025-12-04 16:36:04
      全體退休人員,12月養老金到賬后,千萬別急著花!先做這3件事

      全體退休人員,12月養老金到賬后,千萬別急著花!先做這3件事

      李博世財經
      2025-12-08 10:49:40
      人民日報怒轉!杭州師大通報出爐:名單造假實錘,但是沒貪污!

      人民日報怒轉!杭州師大通報出爐:名單造假實錘,但是沒貪污!

      金哥說新能源車
      2025-12-08 09:57:15
      東方衛視首播!35集諜戰巨制來襲,開播一天,口碑爆表。不輸潛伏

      東方衛視首播!35集諜戰巨制來襲,開播一天,口碑爆表。不輸潛伏

      樂楓電影
      2025-12-08 15:41:04
      消防隊脫離武警后,如今是軍還是警?看完才知國家的良苦用心

      消防隊脫離武警后,如今是軍還是警?看完才知國家的良苦用心

      小莜讀史
      2025-12-08 13:06:39
      掃地出門!皇馬正式批準出售“頭號廢柴”!1.1億歐強援“空降”

      掃地出門!皇馬正式批準出售“頭號廢柴”!1.1億歐強援“空降”

      頭狼追球
      2025-12-08 11:13:44
      《三國演義》常被叫錯的12個名字,沒點文化張口就鬧笑話,你讀對了嗎?

      《三國演義》常被叫錯的12個名字,沒點文化張口就鬧笑話,你讀對了嗎?

      詩詞世界
      2025-12-06 06:04:09
      48歲男子因心梗猝死,生前堅持每天散步5公里,醫生:3個習慣致命

      48歲男子因心梗猝死,生前堅持每天散步5公里,醫生:3個習慣致命

      卡西莫多的故事
      2025-12-08 10:20:04
      2025-12-08 18:59:00
      AI寒武紀 incentive-icons
      AI寒武紀
      專注于人工智能,科技領域
      1001文章數 375關注度
      往期回顧 全部

      科技要聞

      外面有人挖,家里有人跑:蘋果亂成了一鍋粥

      頭條要聞

      臺學者:殲-15開射控雷達照射F-15 反而是日本撿到寶

      頭條要聞

      臺學者:殲-15開射控雷達照射F-15 反而是日本撿到寶

      體育要聞

      一位大學美術生,如何用4年成為頂級跑者?

      娛樂要聞

      章子怡被說拜高踩低 主動和卡梅隆熱聊

      財經要聞

      重磅!政治局會議定調明年經濟工作

      汽車要聞

      純電全尺寸大六座 凱迪拉克"小凱雷德"申報圖曝光

      態度原創

      健康
      房產
      本地
      數碼
      公開課

      甲狀腺結節到這個程度,該穿刺了!

      房產要聞

      碧桂園,開始甩賣海口家底!

      本地新聞

      云游安徽|七千年敘事,第一章寫在蚌埠

      數碼要聞

      華為Mate 80 RS率先實現BT.2020色域 李小龍:過于先進!

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 离岛区| 久久精品国产亚洲夜色av网站| 亚洲AV成人无码久久精品色欲| 伊人色区| 国产精品成人网| 国产69久久精品成人看| 亚洲欧美日韩一区在线观看| 国产成人午夜高潮毛片| 最近中文国语字幕在线播放| 一区二区三区四区视频| 99re国产| 久久视频这里只精品| 国产成人免费一区二区三区| 国产成人剧情AV麻豆果冻| 成人福利网站导航秘?涩涩屋| 精品国产国产2021| 苍南县| 无码人妻丰满熟妇区毛片| 人妻激情偷乱一区二区三区| 久久婷婷五月| 蜜桃AV在线| 国产XXXX| 亚洲精品一品区二品区三品区| 肉色丝袜足j视频国产| 亚洲欧美成人久久综合中文网| 日韩精品亚洲精品第一页| 91在线影院| 狠狠?亚洲?一区| 精品乱码久久久久久中文字幕| 国产精品久久无码一区二区三区网| 足交在线观看| 亚洲中文在线播放| 彰化县| 中文字幕无码免费久久| 国产精品 视频一区 二区三区| 日韩人妻无码精品久久| 中文字幕在线亚洲| 一本a新久道| 欧日韩无套内射变态| 亚洲69视频| 久久国产乱子伦免费精品无码|