![]()
“ 市場是對智力的終極考驗”
作者 | 王子
出品 | 極新
金融領域的AI用戶們,對AI的“開發程度”超乎我們的想象。這次的“華爾街之狼”,是AI。
今年10月17日至11月3日(預計),由Jay Azhang創辦的Alpha Arena實驗室在互聯網發起了一場加密貨幣的實時AI交易競賽。
![]()
比賽規則如下:
- 參與模型:共涉及6個全球頂尖AI模型,包括GPT-5、Gemini 2.5 Pro、Grok-4、Claude Sonnet 4.5、DeepSeek V3.1、Qwen3 Max。
- 初始資本:每個模型分配10,000美元的真實資金。
- 交易標的: BTC、ETH、SOL、BNB、DOGE、XRP等主流加密貨幣永續合約自主交易。
- 交易平臺:所有交易均在 Hyperliquid 上執行,確保資金安全和交易透明度。
- 比賽時間: 2025年10月18日開始,持續進行。
簡單來說,比賽規則就是:所有模型獲得相同的初始資金和統一的實時數據源,在無人類干預下自主決策交易——包括策略生成、倉位管理、開平倉時機和風控設置。
同時設置一個基準選手,簡單買入并持有BTC策略,用來對比驗證AI模型的收益表現。
為增加曝光度,比賽甚至引入了第三方預測市場Polymarket:觀眾可以對哪家AI會最終勝出下注押注,形成一個伴隨競賽進行的元賭局。
整個過程公開透明:nof1.ai官網實時展示所有模型的持倉、交易記錄和決策日志。
![]()
這些AI如同被送上無人駕駛的過山車,必須依靠自身“經驗”應對市場的劇烈波動。
任何一次判斷失誤,市場都會毫不留情地給出懲罰。
傳統的AI評估,無論是要求模型編寫代碼、做數學題還是撰寫文章,本質上都是在“靜態”環境中進行測試。
問題是固定的,答案是可預測的,甚至可能大部分已經在訓練數據中出現過。
但加密市場不同。
由于信息極度不對稱,價格每分每秒都在波動——沒有唯一的答案,只有盈利和虧損。更重要的是,加密貨幣市場是一個典型的零和博弈:你的利潤就是別人的損失。
中國模型領跑:Qwen險中求勝,DeepSeek穩中有升
經過一周多的實盤廝殺,中國的大模型在這場競賽中拔得頭籌,而西方模型差距則越拉越大。
根據10月23日前后的公開數據,阿里巴巴的Qwen3 Max和DeepSeek AI的DeepSeek V3.1雙雙實現賬戶盈利,分列榜單第一、二名;相比之下,OpenAI、Google等模型多數本金虧損過半,凸顯出截然不同的“多空人生”。
![]()
具體來看,Qwen3 Max展現了險中求勝的機會主義風格:它一度在前期表現平平,起步階段甚至略有虧損(首日回撤約5%)。
然而在10月19-20日市場劇烈上漲時,Qwen果斷重倉做多BTC/ETH并大膽使用高杠桿(據稱一度開出了20倍杠桿BTC永續多單),憑借這次押注在隨后幾天賬戶資產扶搖直上,實現了兩位數的累計收益率。
截至10月23日,Qwen3 Max賬戶價值較初始上漲約13%-47%不等(不同統計口徑差異),一舉從中游逆襲登頂榜首。Qwen的交易頻率反而相對較低,幾乎把寶押在單一資產上,平均持倉時長達7小時以上,生動解釋了“少即是多”。
與Qwen的激進風格形成對比,DeepSeek V3.1始終保持穩健盈利:它在競賽初期曾一路領先 ——開賽三天賬戶價值沖高到14150美元(+40%) 。
DeepSeek的策略被形容為“耐心的狙擊手” :總共只下了6筆訂單,平均單筆持倉超過21小時 。它在六種加密資產上都有所布局,持倉組合高度多元化且杠桿適中,嚴格遵守預設的止盈止損紀律 。
正因如此,當市場在10月21日前后出現回調時,DeepSeek及時收縮戰線,避免了利潤的大幅回吐:截至23日仍保持約+8%至+21%的凈收益,穩居第二。
這樣“小虧不放過,大盈拿得住”的紀律性,也印證了其背后研發團隊的量化對沖基金背景。
![]()
而西方模型則多陷入“快速虧光”的窘境。
其中表現最慘烈的是OpenAI的GPT-5和Google的Gemini 2.5 Pro。
GPT-5本被寄予厚望,但在實盤中卻頻繁追漲殺跌、情緒化操作:幾筆小額交易錯失行情,加上止損設定不當,短短數日虧損已近30%-40%。據后續統計,GPT-5到一周時賬戶縮水甚至高達65%-75%,成為“虧損之最”。
Gemini 2.5 Pro的問題更在于過度交易和濫用杠桿:它幾乎無分晝夜地下單,平均每日多達15次進出場 。據統計,Gemini在前三天就進行了44次交易,累積支付了近440美元手續費,直接蠶食了將近三分之一本金!
更糟的是,Gemini一開始看空做空,錯過了10月19日的大漲行情后又在高位匆忙翻多,動輒使用最高40倍杠桿,結果遭遇行情反轉幾近爆倉,首周虧損超過55% 。這樣“猛踩油門又急剎車”的操作也令人大跌眼鏡。
相比之下,xAI的Grok-4和Anthropic的Claude Sonnet 4.5雖然沒有爆倉式慘敗,但也未能幸免虧損。
Grok-4憑借對社交媒體情緒的敏銳捕捉,一開始僅用一筆長達54小時的持倉便豪取+35%的收益。然而好景不長,隨著后續行情變化,Grok沒能鎖定勝局,回吐了大部分利潤,迄今凈收益轉為約-15%左右。
![]()
Claude Sonnet 4.5則全程謹慎保守,只下了寥寥3單,在前幾日曾有+24%的漲幅 。它大量資金閑置觀望,以致錯過行情,最終收益也掉頭轉負約-17%。
值得一提的是,Claude雖然盈利不多,卻一度創造了所有模型中最優的夏普比率,這說明“穩健不過山,有時勝過猛盈利” 。
夏普比率是衡量投資在承擔每一單位總風險(波動率)時能獲得多少超過無風險利率的超額收益的指標,計算式為:(投資組合預期收益率 ? 無風險利率) ÷ 投資組合標準差,常用于評估和比較基金或組合的風險調整后收益,數值越高通常代表“性價比”越好。
此外,用來對照的“買入并持有BTC”基準策略在此期間盈虧基本持平,并未大幅跑輸或跑贏這些AI模型。
這場看似“娛樂化”的AI交易大戰,實則是一場關于智能邊界的深度實驗,當算法被放進真實市場,語言模型的“聰明”不再是唯一的勝負手。
當AI開始在沒有標準答案的世界里試錯,人類第一次有機會觀察人工智能如何在風險中學習、在波動中成長。這次實驗只是開始,借貸、投資、財富管理等所有金融行為都可以用AI重做一遍,股市、房市、匯市、債市的智能體將輪番來到華爾街辦公桌上。考驗投資機構膽量的時候到了,誰敢確認自己拿到的不是GPT?
或許,這才是真正的“通用智能”測試場——最好的評委,是市場。
實盤實時交易情況請瀏覽:https://arena.chronoeffector.ai/
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.