網易首頁 > 網易號 > 正文申請入駐

華爾街之狼，與AI共舞

2025-10-28 16:02:00　來源: 極新

廣東舉報

分享至

“ 市場是對智力的終極考驗”

作者 | 王子

出品 | 極新

金融領域的AI用戶們，對AI的“開發程度”超乎我們的想象。這次的“華爾街之狼”，是AI。

今年10月17日至11月3日（預計），由Jay Azhang創辦的Alpha Arena實驗室在互聯網發起了一場加密貨幣的實時AI交易競賽。

比賽規則如下：

參與模型：共涉及6個全球頂尖AI模型，包括GPT-5、Gemini 2.5 Pro、Grok-4、Claude Sonnet 4.5、DeepSeek V3.1、Qwen3 Max。
初始資本：每個模型分配10,000美元的真實資金。
交易標的： BTC、ETH、SOL、BNB、DOGE、XRP等主流加密貨幣永續合約自主交易。
交易平臺：所有交易均在 Hyperliquid 上執行，確保資金安全和交易透明度。
比賽時間： 2025年10月18日開始，持續進行。

簡單來說，比賽規則就是：所有模型獲得相同的初始資金和統一的實時數據源，在無人類干預下自主決策交易——包括策略生成、倉位管理、開平倉時機和風控設置。

同時設置一個基準選手，簡單買入并持有BTC策略，用來對比驗證AI模型的收益表現。

為增加曝光度，比賽甚至引入了第三方預測市場Polymarket：觀眾可以對哪家AI會最終勝出下注押注，形成一個伴隨競賽進行的元賭局。

整個過程公開透明：nof1.ai官網實時展示所有模型的持倉、交易記錄和決策日志。

這些AI如同被送上無人駕駛的過山車，必須依靠自身“經驗”應對市場的劇烈波動。

任何一次判斷失誤，市場都會毫不留情地給出懲罰。

傳統的AI評估，無論是要求模型編寫代碼、做數學題還是撰寫文章，本質上都是在“靜態”環境中進行測試。

問題是固定的，答案是可預測的，甚至可能大部分已經在訓練數據中出現過。

但加密市場不同。

由于信息極度不對稱，價格每分每秒都在波動——沒有唯一的答案，只有盈利和虧損。更重要的是，加密貨幣市場是一個典型的零和博弈：你的利潤就是別人的損失。

中國模型領跑：Qwen險中求勝，DeepSeek穩中有升

經過一周多的實盤廝殺，中國的大模型在這場競賽中拔得頭籌，而西方模型差距則越拉越大。

根據10月23日前后的公開數據，阿里巴巴的Qwen3 Max和DeepSeek AI的DeepSeek V3.1雙雙實現賬戶盈利，分列榜單第一、二名；相比之下，OpenAI、Google等模型多數本金虧損過半，凸顯出截然不同的“多空人生”。

具體來看，Qwen3 Max展現了險中求勝的機會主義風格：它一度在前期表現平平，起步階段甚至略有虧損（首日回撤約5%）。

然而在10月19-20日市場劇烈上漲時，Qwen果斷重倉做多BTC/ETH并大膽使用高杠桿（據稱一度開出了20倍杠桿BTC永續多單），憑借這次押注在隨后幾天賬戶資產扶搖直上，實現了兩位數的累計收益率。

截至10月23日，Qwen3 Max賬戶價值較初始上漲約13%-47%不等（不同統計口徑差異），一舉從中游逆襲登頂榜首。Qwen的交易頻率反而相對較低，幾乎把寶押在單一資產上，平均持倉時長達7小時以上，生動解釋了“少即是多”。

與Qwen的激進風格形成對比，DeepSeek V3.1始終保持穩健盈利：它在競賽初期曾一路領先 ——開賽三天賬戶價值沖高到14150美元（+40%）。

DeepSeek的策略被形容為“耐心的狙擊手” ：總共只下了6筆訂單，平均單筆持倉超過21小時。它在六種加密資產上都有所布局，持倉組合高度多元化且杠桿適中，嚴格遵守預設的止盈止損紀律。

正因如此，當市場在10月21日前后出現回調時，DeepSeek及時收縮戰線，避免了利潤的大幅回吐：截至23日仍保持約+8%至+21%的凈收益，穩居第二。

這樣“小虧不放過，大盈拿得住”的紀律性，也印證了其背后研發團隊的量化對沖基金背景。

而西方模型則多陷入“快速虧光”的窘境。

其中表現最慘烈的是OpenAI的GPT-5和Google的Gemini 2.5 Pro。

GPT-5本被寄予厚望，但在實盤中卻頻繁追漲殺跌、情緒化操作：幾筆小額交易錯失行情，加上止損設定不當，短短數日虧損已近30%-40%。據后續統計，GPT-5到一周時賬戶縮水甚至高達65%-75%，成為“虧損之最”。

Gemini 2.5 Pro的問題更在于過度交易和濫用杠桿：它幾乎無分晝夜地下單，平均每日多達15次進出場。據統計，Gemini在前三天就進行了44次交易，累積支付了近440美元手續費，直接蠶食了將近三分之一本金！

更糟的是，Gemini一開始看空做空，錯過了10月19日的大漲行情后又在高位匆忙翻多，動輒使用最高40倍杠桿，結果遭遇行情反轉幾近爆倉，首周虧損超過55% 。這樣“猛踩油門又急剎車”的操作也令人大跌眼鏡。

相比之下，xAI的Grok-4和Anthropic的Claude Sonnet 4.5雖然沒有爆倉式慘敗，但也未能幸免虧損。

Grok-4憑借對社交媒體情緒的敏銳捕捉，一開始僅用一筆長達54小時的持倉便豪取+35%的收益。然而好景不長，隨著后續行情變化，Grok沒能鎖定勝局，回吐了大部分利潤，迄今凈收益轉為約-15%左右。

Claude Sonnet 4.5則全程謹慎保守，只下了寥寥3單，在前幾日曾有+24%的漲幅。它大量資金閑置觀望，以致錯過行情，最終收益也掉頭轉負約-17%。

值得一提的是，Claude雖然盈利不多，卻一度創造了所有模型中最優的夏普比率，這說明“穩健不過山，有時勝過猛盈利” 。

夏普比率是衡量投資在承擔每一單位總風險（波動率）時能獲得多少超過無風險利率的超額收益的指標，計算式為：(投資組合預期收益率 ? 無風險利率) ÷ 投資組合標準差，常用于評估和比較基金或組合的風險調整后收益，數值越高通常代表“性價比”越好。

此外，用來對照的“買入并持有BTC”基準策略在此期間盈虧基本持平，并未大幅跑輸或跑贏這些AI模型。

這場看似“娛樂化”的AI交易大戰，實則是一場關于智能邊界的深度實驗，當算法被放進真實市場，語言模型的“聰明”不再是唯一的勝負手。

當AI開始在沒有標準答案的世界里試錯，人類第一次有機會觀察人工智能如何在風險中學習、在波動中成長。這次實驗只是開始，借貸、投資、財富管理等所有金融行為都可以用AI重做一遍，股市、房市、匯市、債市的智能體將輪番來到華爾街辦公桌上。考驗投資機構膽量的時候到了，誰敢確認自己拿到的不是GPT？

或許，這才是真正的“通用智能”測試場——最好的評委，是市場。

實盤實時交易情況請瀏覽：https://arena.chronoeffector.ai/

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.