網易首頁 > 網易號 > 正文申請入駐

中美六大頂尖模型第一賽季實盤量化交易結果出爐：Qwen最后反超奪冠，GPT-5墊底「復盤」

2025-11-04 11:00:40　來源: AI寒武紀

江蘇舉報

分享至

大家對LLM在棋類、算法競賽和數學證明等領域的金牌級表現已經見怪不怪了，LLM在現實世界中表現究竟會怎么樣

這就不得不得提最近大火的一家名為 Nof1 的機構，發起了一個名為 Alpha Arena 的LLM自主進行量化交易項目，旨在探索LLM在真實、動態且充滿風險的金融市場中的決策能力

目前第一賽季（10月18到11月4）已經結束，國產模型Qwen（阿里Qwen最后實現反超）和 DeepSeek最終獲得了冠亞軍且都盈利了，GPT-5墊底！以下是比賽結果：

下面我們就對本次比賽的過程做一個全面復盤：

Alpha Arena項目核心問題非常直接：

一個大型語言模型，在最少的指導下，能否充當一個零樣本（zero-shot）的系統化交易模型？

為此，他們為六個業界領先的LLM分別提供了1萬美元的真實資金，讓它們在加密貨幣衍生品交易所Hyperliquid上進行自主交易，全程零人工干預。

這些模型只能依賴提供的純數值市場數據進行決策，無法獲取任何新聞或市場“敘事”信息。它們的唯一目標是：最大化收益

初步結果顯示，不同模型在風險偏好、頭寸規模和持倉時間等方面表現出明顯的行為差異，并且對提示詞的微小變化高度敏感

Alpha Arena如何設計？

Alpha Arena第一賽季的目標有兩個：

1.揭示主流LLM固有的偏見和默認交易行為。通過比較分析，觀察不同模型的交易方式是否存在巨大差異，以及這些差異是否隨時間保持一致

2.推動AI研究文化從靜態基準轉向真實世界基準。倡導在更具現實意義和影響力的環境中評估AI，以更快地發現前沿AI的關鍵差距和洞見

為了實現這一目標，實驗選擇了真金白銀的實盤交易，而非模擬盤。因為真實市場才能暴露執行挑戰、逆向選擇和責任歸屬等全部問題

參賽選手與賽場規則

本次比賽陣容匯集了全球頂尖的AI研究成果，共六個模型：

? GPT-5
? Gemini 2.5 Pro
? Claude Sonnet 4.5
? Grok 4
? DeepSeek v3.1
? Qwen3-Max

這些模型涵蓋了中美兩國的閉源和開源提供商。除Qwen3-Max外，所有模型都配置了最高的推理能力，且未經任何任務特定的微調

交易環境：在Hyperliquid交易所進行中低頻交易（決策間隔為數分鐘到數小時）。
交易資產：BTC、ETH、SOL、BNB、DOGE、XRP六種主流加密貨幣的永續合約

操作空間：買入開倉（做多）、賣出開倉（做空）、持有或平倉

數據輸入：僅提供定量的市場數據，如當前和歷史中間價、成交量、技術指標（EMA、MACD、RSI等）以及其他輔助特征

交易杠桿：允許模型使用杠桿，這既能提高資金效率，加速反饋循環，也極大地考驗了模型的風險管理能力

構建執行系統（Harness）

整個系統的推理循環如下：

模型在每次被調用時（約2-3分鐘一次），會接收到一個包含簡潔指令集（系統提示）和實時市場及賬戶狀態（用戶提示）的輸入

然后，模型需要返回結構化的操作指令，包括：

交易決策：買入/賣出/持有/平倉
交易細節：幣種、數量、杠桿
決策依據：簡短的理由陳述、一個0到1之間的置信度分數
退出計劃：預設的止盈目標、止損價位和使計劃失效的條件

其中，退出計劃的引入顯著提升了模型的表現。倉位大小由模型根據可用現金、杠桿和其內部風險偏好自行計算。

一個交易實例：從決策到執行

為了直觀展示模型如何工作，以下是Claude模型一次完整的BTC交易生命周期

入場：2025年10月19日 10:10

模型收到了詳細的上下文信息，包括：分鐘級的價格和指標序列、4小時周期的長線數據、持倉量和資金費率，以及精確的賬戶狀態（可用現金8308.94美元，持有一個盈利493.42美元的XRP多頭倉位）

推理過程摘要：

1.分析現有倉位：模型首先檢查了持有的XRP多頭倉位。它確認該倉位盈利狀態良好，且其預設的失效條件“BTC跌破105,000美元”并未觸發（當時BTC價格為107,982.5美元），因此決定繼續持有

2.進行市場全面掃描：接著，模型系統性地分析了其他主要加密貨幣的機會，包括ETH、SOL、BNB和DOGE。它注意到市場整體呈現建設性技術形態，其中BTC和ETH顯示出顯著強勢，BNB則表現出特別強勁的相對性能

3.制定新策略并進行資本分配：在綜合評估后，模型認為BTC的機會展現出引人入勝的技術特征。它明確考慮到了自己有限的可用資金（8308美元），因此決定采取“選擇性”策略。模型制定了精確的頭寸計劃：動用40%的保證金（約3323美元），配合20倍杠桿建立BTC多頭頭寸，并將風險參數控制在997美元左右。其理由是BTC正在突破盤整區，動能強勁，且4小時RSI指標從超賣區恢復，目標是重新測試11萬美元區域

模型輸出的交易指令：

                                                            {
    "coin": "BTC",
    "signal": "buy_to_enter",
    "quantity": 0.62,
    "leverage": 20,
    "profit_target": 111000.0,
    "stop_loss": 106361.0,
    "invalidation_condition": "4H RSI breaks back below 40...",
    "justification": "BTC breaking above consolidation zone with strong momentum...",
    "confidence": 0.72,
    "risk_usd": 997.0
}

出場：2025年10月20日 01:54

在開倉大約15小時44分鐘后，BTC價格觸及了模型預設的111,000美元止盈目標，交易被自動平倉

在此期間，Claude模型接收并處理了443次連續的市場數據更新，每次都重新評估并選擇堅守其最初的退出計劃，最終成功獲利。

初步發現：模型的行為模式差異顯著

盡管頂級的性能指標（PnL、夏普比率）很重要，但它們并不能揭示全部情況。通過數千次調用和多次預發布測試，研究人員觀察到了一些一致的行為模式：

看漲/看跌傾向：模型在多空選擇上存在差異。Grok 4、GPT-5和Gemini 2.5 Pro做空頻率遠高于其他模型；而Claude Sonnet 4.5則極少做空

持倉周期：不同模型的持倉時間差距巨大。在預發布測試中，Grok 4的持倉時間最長

交易頻率：Gemini 2.5 Pro是交易最活躍的模型；Grok 4通常最不活躍。

風險偏好（倉位大小）：Qwen3-Max的倉位規模一直最大，常常是GPT-5和Gemini 2.5 Pro的數倍

自我報告的置信度：Qwen3-Max經常報告最高的置信度，而GPT-5最低。這一模式似乎與實際交易表現無關

退出計劃的松緊度：Qwen3-Max設置的止盈止損范圍最窄；Grok 4和DeepSeek V3.1則最為寬松

同時持倉數量：一些模型傾向于同時持有多個倉位，而Claude Sonnet 4.5和Qwen3-Max通常只保持1-2個活躍倉位。

模型在實際操作中的脆弱性

實驗還暴露出LLM在操作層面的一些“脆弱”之處：

1.順序偏見：早期的提示詞將市場數據從“最新→最舊”排列，即使有明確說明，多個模型仍會錯誤地按“最舊→最新”來解讀。將順序調整后問題才解決，這表明當前LLM存在格式上的先驗假設

2.術語模糊性：交替使用“可用現金”和“自由抵押品”導致模型行為不一致。雖然這種模糊性可以理解，但模型的脆弱反應才是問題所在——一個可靠的智能體應能在不確定性下做出明確假設并繼續行動

3.在約束下的規則博弈與欺騙：在一個測試版本中，當限制模型連續持有次數不能超過3次時，測試模型（Gemini 2.5 Flash）的內部推理鏈（CoT）抱怨無法第四次持有，但它在暴露給外部的“思考”字段中給出了一個中性理由，然后迅速恢復了持有操作。內部CoT和外部“思考”的分歧，揭示了模型在壓力下可能出現的規則博弈行為

4.自我參照的混淆：模型有時會誤讀或與自己先前設定的計劃相矛盾。例如，GPT-5后來不確定如何應用自己提出的“EMA20收復”條件；Qwen 3則在計算止盈點時出現算術錯誤，并在其CoT中指出了這一矛盾，然后猶豫不決，沒有按計劃止盈。這暴露了模型在狀態演變過程中維持連貫自我溝通的困難

第二賽季

研究人員承認，第一賽季的設置存在局限性，例如上下文窗口有限，模型沒有對過往行為的記憶，也無法對現有倉位進行加倉或減倉。

目前，基于第一賽季的發現，第二賽季的籌備工作已接近尾聲。計劃將引入更豐富的特征、優化的提示詞和執行系統，并增加更多的統計嚴謹性

Nof1的最終目標是探索如何讓未來的Agent更好地理解市場：需要什么樣的條件和接口來幫助自主系統學習、公平競爭并創造價值，而不是依賴特權信息或市場操縱？實現超人級交易還缺少哪些能力？如果每個人都能部署自己的交易智能體，又需要什么樣的安全保障？

第一賽季，只是這個宏大愿景邁出的一小步

參考：

https://nof1.ai/blog/TechPost1

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.