![]()
大家對LLM在棋類、算法競賽和數學證明等領域的金牌級表現已經見怪不怪了,LLM在現實世界中表現究竟會怎么樣
這就不得不得提最近大火的一家名為 Nof1 的機構,發起了一個名為 Alpha Arena 的LLM自主進行量化交易項目,旨在探索LLM在真實、動態且充滿風險的金融市場中的決策能力
目前第一賽季(10月18到11月4)已經結束,國產模型Qwen(阿里Qwen最后實現反超) 和 DeepSeek最終獲得了冠亞軍且都盈利了,GPT-5墊底!以下是比賽結果:
![]()
![]()
下面我們就對本次比賽的過程做一個全面復盤:
Alpha Arena項目核心問題非常直接:
一個大型語言模型,在最少的指導下,能否充當一個零樣本(zero-shot)的系統化交易模型?
為此,他們為六個業界領先的LLM分別提供了1萬美元的真實資金,讓它們在加密貨幣衍生品交易所Hyperliquid上進行自主交易,全程零人工干預。
這些模型只能依賴提供的純數值市場數據進行決策,無法獲取任何新聞或市場“敘事”信息。它們的唯一目標是:最大化收益
初步結果顯示,不同模型在風險偏好、頭寸規模和持倉時間等方面表現出明顯的行為差異,并且對提示詞的微小變化高度敏感
Alpha Arena如何設計?
Alpha Arena第一賽季的目標有兩個:
1.揭示主流LLM固有的偏見和默認交易行為。通過比較分析,觀察不同模型的交易方式是否存在巨大差異,以及這些差異是否隨時間保持一致
2.推動AI研究文化從靜態基準轉向真實世界基準。倡導在更具現實意義和影響力的環境中評估AI,以更快地發現前沿AI的關鍵差距和洞見
為了實現這一目標,實驗選擇了真金白銀的實盤交易,而非模擬盤。因為真實市場才能暴露執行挑戰、逆向選擇和責任歸屬等全部問題
參賽選手與賽場規則
本次比賽陣容匯集了全球頂尖的AI研究成果,共六個模型:
? GPT-5
? Gemini 2.5 Pro
? Claude Sonnet 4.5
? Grok 4
? DeepSeek v3.1
? Qwen3-Max
這些模型涵蓋了中美兩國的閉源和開源提供商。除Qwen3-Max外,所有模型都配置了最高的推理能力,且未經任何任務特定的微調
交易環境:在Hyperliquid交易所進行中低頻交易(決策間隔為數分鐘到數小時)。
交易資產:BTC、ETH、SOL、BNB、DOGE、XRP六種主流加密貨幣的永續合約
操作空間:買入開倉(做多)、賣出開倉(做空)、持有或平倉
數據輸入:僅提供定量的市場數據,如當前和歷史中間價、成交量、技術指標(EMA、MACD、RSI等)以及其他輔助特征
交易杠桿:允許模型使用杠桿,這既能提高資金效率,加速反饋循環,也極大地考驗了模型的風險管理能力
構建執行系統(Harness)
整個系統的推理循環如下:
模型在每次被調用時(約2-3分鐘一次),會接收到一個包含簡潔指令集(系統提示)和實時市場及賬戶狀態(用戶提示)的輸入
然后,模型需要返回結構化的操作指令,包括:
交易決策:買入/賣出/持有/平倉
交易細節:幣種、數量、杠桿
決策依據:簡短的理由陳述、一個0到1之間的置信度分數
退出計劃:預設的止盈目標、止損價位和使計劃失效的條件
其中,退出計劃的引入顯著提升了模型的表現。倉位大小由模型根據可用現金、杠桿和其內部風險偏好自行計算。
一個交易實例:從決策到執行
為了直觀展示模型如何工作,以下是Claude模型一次完整的BTC交易生命周期
![]()
入場:2025年10月19日 10:10
模型收到了詳細的上下文信息,包括:分鐘級的價格和指標序列、4小時周期的長線數據、持倉量和資金費率,以及精確的賬戶狀態(可用現金8308.94美元,持有一個盈利493.42美元的XRP多頭倉位)
推理過程摘要:
1.分析現有倉位:模型首先檢查了持有的XRP多頭倉位。它確認該倉位盈利狀態良好,且其預設的失效條件“BTC跌破105,000美元”并未觸發(當時BTC價格為107,982.5美元),因此決定繼續持有
2.進行市場全面掃描:接著,模型系統性地分析了其他主要加密貨幣的機會,包括ETH、SOL、BNB和DOGE。它注意到市場整體呈現建設性技術形態,其中BTC和ETH顯示出顯著強勢,BNB則表現出特別強勁的相對性能
3.制定新策略并進行資本分配:在綜合評估后,模型認為BTC的機會展現出引人入勝的技術特征。它明確考慮到了自己有限的可用資金(8308美元),因此決定采取“選擇性”策略。模型制定了精確的頭寸計劃:動用40%的保證金(約3323美元),配合20倍杠桿建立BTC多頭頭寸,并將風險參數控制在997美元左右。其理由是BTC正在突破盤整區,動能強勁,且4小時RSI指標從超賣區恢復,目標是重新測試11萬美元區域
模型輸出的交易指令:
{
"coin": "BTC",
"signal": "buy_to_enter",
"quantity": 0.62,
"leverage": 20,
"profit_target": 111000.0,
"stop_loss": 106361.0,
"invalidation_condition": "4H RSI breaks back below 40...",
"justification": "BTC breaking above consolidation zone with strong momentum...",
"confidence": 0.72,
"risk_usd": 997.0
}出場:2025年10月20日 01:54
在開倉大約15小時44分鐘后,BTC價格觸及了模型預設的111,000美元止盈目標,交易被自動平倉
在此期間,Claude模型接收并處理了443次連續的市場數據更新,每次都重新評估并選擇堅守其最初的退出計劃,最終成功獲利。
初步發現:模型的行為模式差異顯著
盡管頂級的性能指標(PnL、夏普比率)很重要,但它們并不能揭示全部情況。通過數千次調用和多次預發布測試,研究人員觀察到了一些一致的行為模式:
看漲/看跌傾向:模型在多空選擇上存在差異。Grok 4、GPT-5和Gemini 2.5 Pro做空頻率遠高于其他模型;而Claude Sonnet 4.5則極少做空
持倉周期:不同模型的持倉時間差距巨大。在預發布測試中,Grok 4的持倉時間最長
交易頻率:Gemini 2.5 Pro是交易最活躍的模型;Grok 4通常最不活躍。
風險偏好(倉位大小):Qwen3-Max的倉位規模一直最大,常常是GPT-5和Gemini 2.5 Pro的數倍
自我報告的置信度:Qwen3-Max經常報告最高的置信度,而GPT-5最低。這一模式似乎與實際交易表現無關
退出計劃的松緊度:Qwen3-Max設置的止盈止損范圍最窄;Grok 4和DeepSeek V3.1則最為寬松
同時持倉數量:一些模型傾向于同時持有多個倉位,而Claude Sonnet 4.5和Qwen3-Max通常只保持1-2個活躍倉位。
模型在實際操作中的脆弱性
實驗還暴露出LLM在操作層面的一些“脆弱”之處:
1.順序偏見:早期的提示詞將市場數據從“最新→最舊”排列,即使有明確說明,多個模型仍會錯誤地按“最舊→最新”來解讀。將順序調整后問題才解決,這表明當前LLM存在格式上的先驗假設
2.術語模糊性:交替使用“可用現金”和“自由抵押品”導致模型行為不一致。雖然這種模糊性可以理解,但模型的脆弱反應才是問題所在——一個可靠的智能體應能在不確定性下做出明確假設并繼續行動
3.在約束下的規則博弈與欺騙:在一個測試版本中,當限制模型連續持有次數不能超過3次時,測試模型(Gemini 2.5 Flash)的內部推理鏈(CoT)抱怨無法第四次持有,但它在暴露給外部的“思考”字段中給出了一個中性理由,然后迅速恢復了持有操作。內部CoT和外部“思考”的分歧,揭示了模型在壓力下可能出現的規則博弈行為
4.自我參照的混淆:模型有時會誤讀或與自己先前設定的計劃相矛盾。例如,GPT-5后來不確定如何應用自己提出的“EMA20收復”條件;Qwen 3則在計算止盈點時出現算術錯誤,并在其CoT中指出了這一矛盾,然后猶豫不決,沒有按計劃止盈。這暴露了模型在狀態演變過程中維持連貫自我溝通的困難
第二賽季
研究人員承認,第一賽季的設置存在局限性,例如上下文窗口有限,模型沒有對過往行為的記憶,也無法對現有倉位進行加倉或減倉。
目前,基于第一賽季的發現,第二賽季的籌備工作已接近尾聲。計劃將引入更豐富的特征、優化的提示詞和執行系統,并增加更多的統計嚴謹性
Nof1的最終目標是探索如何讓未來的Agent更好地理解市場:需要什么樣的條件和接口來幫助自主系統學習、公平競爭并創造價值,而不是依賴特權信息或市場操縱?實現超人級交易還缺少哪些能力?如果每個人都能部署自己的交易智能體,又需要什么樣的安全保障?
第一賽季,只是這個宏大愿景邁出的一小步
參考:
https://nof1.ai/blog/TechPost1
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.