一項測試時擴展技術,讓中國大模型在深夜的科技圈投下震撼彈,全球AI性能紀錄被一夜刷新。
![]()
深夜的科技圈,被一則重磅消息點燃。1月26日晚,阿里巴巴正式發布了其預告已久的千問旗艦推理模型——Qwen3-Max-Thinking。
這不僅是阿里迄今為止規模最大、能力最強的千問推理模型,更在多項關鍵性能基準測試中,直接超越了GPT-5.2、Claude Opus 4.5和Gemini 3 Pro等國際頂尖對手。
01 深夜王炸
![]()
就在昨晚,阿里巴巴通義千問團隊扔出了一枚“深夜王炸”。Qwen3-Max-Thinking的正式發布,標志著中國大模型技術邁上了一個全新的臺階。
這個模型的總參數超過萬億(1T),預訓練數據量高達36T Tokens。它經過了更大規模的強化學習后訓練,并通過一系列推理技術的創新,最終實現了模型性能的飛躍式突破。
此前,預覽版Qwen3-Max-Thinking已經展示了驚人的潛力,斬獲了數學推理AIME 25和HMMT 25的國內首個雙滿分。而正式版在此基礎上,性能得到了全面增強。
通義團隊為這個模型引入了兩項核心創新:自適應工具調用能力和測試時擴展技術。這兩項技術,特別是測試時擴展技術,可能是它能夠在多項基準測試中脫穎而出的關鍵。
02 性能狂飆
在多項關鍵性能基準測試中,Qwen3-Max-Thinking的表現令人震撼。它刷新了科學知識、數學推理、代碼編程等多項關鍵性能基準測試的全球紀錄。
在科學知識測試中,它超越了GPT-5.2;在數學推理領域,它擊敗了Claude Opus 4.5;在代碼編程方面,它的表現也優于Gemini 3 Pro。
這些成績的背后,是通義團隊在模型推理能力上的重大突破。傳統的推理計算往往只是簡單增加并行推理路徑,重復推導已知結論,造成了冗余和效率低下。
而Qwen3-Max-Thinking采用的測試時擴展新機制,能夠對之前的推理結果進行“經驗提取”式的提煉,并據此進行多輪自我迭代。這意味著在相同的上下文中,它能夠實現更高效的推理計算,獲得更智能的推理結果。
03 突破創新
除了測試時擴展機制外,Qwen3-Max-Thinking還大幅增強了自主調用工具的原生Agent能力。
通義團隊對模型進行了基于規則獎勵與模型獎勵的聯合強化學習訓練,讓模型能夠自主選用搜索、個性化記憶和代碼解釋器等三個核心的Agent工具功能。
這意味著,當你向它提出問題時,它不僅能給出答案,還能像專業人士一樣,知道什么時候需要搜索最新信息,什么時候需要調取相關知識儲備,什么時候需要用代碼解釋器來驗證解決方案。
同時,模型的幻覺現象也大為降低。這是AI領域長期面臨的難題——模型有時會“自信地”給出錯誤答案。Qwen3-Max-Thinking在這方面取得的進展,使它的回答更加可靠和準確。
04 全面開放
最令人振奮的是,這個強大的模型并非只供少數人使用。普通用戶現在就可以通過千問PC端和網頁端試用模型,開發者可以在QwenChat上免費體驗Qwen3-Max-Thinking模型。
對于企業用戶,可以通過阿里云百煉獲取新模型API服務。而據了解,千問APP也即將接入新模型,所有用戶都可免費體驗。
這意味著,中國企業和開發者將能夠第一時間接觸并使用到與世界頂尖水平媲美的大模型技術。這種開放和普惠的策略,無疑將加速AI技術在各行各業的應用和創新。
自2022年開始研發以來,阿里Qwen大模型已經成為全球排名第一的開源大模型。而Qwen3-Max-Thinking的發布,無疑是在這一成功基礎上的又一次飛躍。
阿里美股在模型發布當天微跌1.07%,但港股27日盤前卻漲超2%。資本市場似乎已經開始對這個技術突破作出反應。
當國際巨頭還在為模型參數的微小提升而沾沾自喜時,中國團隊已經通過架構和機制的創新,實現了質的飛躍。一個能夠在測試時自我迭代、自我完善的AI大腦,正在從實驗室走向千家萬戶的電腦和手機屏幕。
這不僅是技術的勝利,更是創新思維的勝利。
AI眼鏡處于爆發前夜,有很多值得體驗的好產品
歡迎大家進群一起交流使用心得!
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.