網易首頁 > 網易號 > 正文申請入駐

阿里千問最強推理模型問世：采用全新測試時擴展機制，性能比肩GPT-5.2

2026-01-27 10:55:12　來源: 澎湃新聞

北京舉報

分享至

阿里正式發布千問最強AI（人工智能）模型。

1月26日晚間，阿里正式發布預告已久的千問旗艦推理模型Qwen3-Max-Thinking。據介紹，該模型創下數項權威評測全球新紀錄，性能媲美GPT-5.2、Gemini 3 Pro，成為迄今為止最接近國際頂尖模型的國內最強AI大模型。通義團隊還為其引入了兩項核心創新：自適應工具調用能力和測試時擴展技術（Test-Time Scaling）。

從參數來看，千問新模型總參數超萬億（1T），預訓練數據量高達36T Tokens，是目前阿里規模最大、能力最強的千問推理模型。該模型進行了更大規模的強化學習后訓練，并通過推理技術的系列創新，最終完成模型性能的大幅飛躍。

此前，預覽版Qwen3-Max-Thinking已斬獲數學推理AIME 25和HMMT 25的國內首個雙滿分。在此基礎上，阿里通義團隊進行了更大規模的強化學習后訓練，全面提升了正式版Qwen3-Max-Thinking性能。

在多項關鍵性能基準測試中，千問表現超過了GPT-5.2、Claude Opus 4.5和Gemini 3 Pro等頂尖模型，刷新科學知識（GPQA Diamond）、數學推理（IMO-AnswerBench）、代碼編程（LiveCodeBench）等多項關鍵性能基準測試的全球紀錄。

千問在多項關鍵性能基準測試中的表現。來源：阿里云

據介紹，在關鍵的模型推理能力提升中，千問新模型采用了一種全新的測試時擴展機制。業界普遍的推理時計算，只會簡單增加并行推理路徑，重復推導已知結論，造成冗余推理效率低下；而千問采用的這一新機制，可對此前推理的結果進行“經驗提取”式的提煉，并據此進行多輪自我迭代，在相同的上下文中實現更高效的推理計算，獲得更智能的推理結果。

此外，Qwen3-Max-Thinking還大幅增強了自主調用工具的原生Agent能力。具體而言，通義團隊對模型進一步在大量多樣化任務上進行了基于規則獎勵與模型獎勵的聯合強化學習訓練。模型能夠自主選用搜索、個性化記憶和代碼解釋器等三個核心的Agent工具功能，提供和專業人士一樣水平的回答。同時，模型幻覺也大為降低。

目前，普通用戶可以通過千問PC端和網頁端試用模型，開發者可在QwenChat上免費體驗Qwen3-Max-Thinking模型，企業可通過阿里云百煉獲取新模型API服務。據了解，千問APP也即將接入新模型，所有用戶都可免費體驗。

阿里Qwen大模型的研發始于2022年，已經成為全球排名第一的開源大模型。大模型Qwen3-Max發布于2025年9月，是通義千問家族中最大、最強的基礎模型。

26日當天，阿里巴巴美股（NYSE:BABA）跌1.07%收于每股171.38美元，總市值4091億美元；港股（9988.HK）27日盤前漲超2%。

澎湃新聞記者胡含嫣

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.