![]()
導語:Qwen3 旗艦模型已進入全球第一梯隊、國內Top 2–3的行列:綜合能力略低于Gemini3、GPT-5.1和Kimi K2 Thinking,但與Grok 4.1、Claude Opus 4.1屬于同檔。
阿里近期發布的千問App引發了外界的關注,其背后的Qwen3大模型與國際和國內幾大模型的性能對比,到底水平如何?對用戶來說又該如何根據不同的任務來選擇不同的大模型?今天給大家做個對比與總結。
01 Qwen3的基本面
阿里在今年推出的第三代大模型Qwen3,是千問App的核心底座。它有幾個關鍵特點:
一、體量和架構
Dense模型:從0.6B一直到32B;
MoE旗艦:Qwen3-235B-A22B(235B 總參數、22B 活躍參數),相當于“參數巨艦+算力省電”。
二、訓練規模
訓練數據約36萬億token,覆蓋119種語言/方言。對數學、代碼、STEM推理做了額外強化。提供“Thinking 模式”,類似GPT-o1 / DeepSeek-R1那種顯式推理版。
三、應用形態
包括文本對話、寫作、代碼、多模態(圖像/文檔/表格),長上下文版本能支持百萬級token,對長文檔場景很友好。
千問App由于面向C端,通常會使用類似“Qwen3-Max / Qwen3-235B旗艦+ Thinking版”的組合。
02 拿什么“尺子”來衡量Qwen3?
使用如下指標來測評Qwen3的水平:
- Artificial Analysis Intelligence Index(AA 指數)
AA指數把MMLU-Pro、GPQA、HLE、LiveCodeBench、SciCode 等十幾個高含金量基準融合,
最后給每個模型一個0–100 的綜合“智能分”。這個分數目前是國際上最常被引用的大模型“總評分”之一。
- LMArena / Text Arena(人類盲評Elo榜)
采用大量真實用戶不看模型名,只看回答,投票哪一個更好的方法,用Elo評分來排名,更偏“真實使用體驗”的維度。
除此以外,還會使用一些單項基準來進行評測:
AIME2025:競賽級數學;HLE(Humanity’s Last Exam):極難綜合考試;LiveCodeBench/SciCode:偏實戰的軟件工程與科學代碼;以及其它經典的MMLU、GSM8K、HumanEval 等。
本次評測主要圍繞AA榜+人類盲評榜,再輔以少量專項基準,盡量做到客觀公正。
進入“頂級區”,但天花板依舊。
AA指數:按目前公開信息,各主流大模型的AA指數得分可以見下表:
![]()
注:在AA《State of AI: China Q2 2025》里被列為“最佳非推理 LLM”之一,分數帶星號表示部分基于廠商數據估計
就以上得分看,Qwen3的旗艦版本已經站在Grok 4.1和Claude 4.1的身邊,但和Gemini3 Pro、GPT-5.1、K2 Thinking之間,還維持著7–10分左右的差距——這在頂尖模型之間,依然是能感知的差距。
人類盲評Elo榜:評測結果是Gemini3 Pro和Grok4.1(Thinking)輪流占據榜首附近。GPT-5.1、Claude 4家族也穩居頭部。Qwen3旗艦的打分雖然略低于這些“榜一大哥”,但確實已經混在第一梯隊前列,和它們同一張榜單搶票。
更直觀的表述是:真正讓海外開發者和研究者投票時,用戶已經可以感受到:“Qwen3是強模型,和GPT-5 / Gemini3這一線對比,體驗上不會拉開巨大差距。”
再看幾個單項評測:
- AIME 2025:競賽數學
測試結果大致排序是:GPT-5 Codex (high) ≈ GPT-5.1 > Kimi K2 Thinking > Grok 4 > Qwen3 235B > Gemini 2.5 / Claude 4 系列。
可以理解為,Qwen3在高難數學上是第一梯隊,只是在“競賽數學+推理特化”的場景中,GPT-5.1 / K2 / Grok 4這些“卷數學的怪物”更強。
- HLE:超難綜合推理
在這個測試中,Kimi K2 Thinking和GPT-5家族在HLE里表現最扎眼。Qwen3和GPT-4.1/Grok-3/Gemini-2.5 Pro這一代差不多,略有提升。測試結果意味著,Qwen3在極限綜合推理上沒拉胯,但也不是拿第一的那個。
- LiveCodeBench / SciCode:工程代碼&科學代碼
在工程代碼方面,GPT-5.1?K2 Thinking? Grok4≈Gemini2.5Pro> Qwen3≈DeepSeek-V3.2。在科學代碼(SciCode)測試中,差距更縮小,大家都在40%多一點的區間里擠。
也就是說,如果你用千問寫代碼,它的水平大致就是“略弱一點的GPT-5.1 / K2 / Grok4”,但絕不是上一代那種明顯掉隊。
03 中國四強對比:Kimi、Qwen3、DeepSeek、豆包
Kimi K2 Thinking的綜合智能得分約67分,在AA榜上直接沖進全球前五,由于模型專門強調瀏覽、工具調用、Agent任務,所以在HLE、BrowseComp等偏“代理”的基準上特別強。
Qwen3的綜合智能得分60 分左右,各方面比較均衡。DeepSeek-V3.2-Exp的綜合智能約57分,特點是國產芯片適配、長上下文性能、推理能效方面做了優化,為中國算力環境量身定制。
豆包1.5 Pro(非推理版),AA China Q2 報告中給出的智能指數約 48*,在非推理模型里屬于頭部,且被列為“最佳非推理大模型”之一;但其推理版(Thinking)目前還沒有完整的AA綜合分公開。
綜合分數上:K2 Thinking > Qwen3 > DeepSeek-V3.2 >豆包1.5Pro。但如果從“算力成本+國產芯片環境”出發,DeepSeek就有獨特位置,而Qwen3則在“生態+穩健通用能力”上更加均衡。
![]()
04 用戶的視角
- 日常問答、寫作與知識檢索
對中文/中英混合的日常用法來說,Qwen3 + 千問App 基本已經是世界級的體驗之一。回答速度、知識覆蓋、上下文記憶、寫作風格都很成熟。和GPT-5.1 / Gemini 3 Pro相比,差距主要在極限長鏈推理和一些特定專業英文領域。豆包則在自然中文表達、口語化對話、社交媒體語境下的風格更自然,適合做聊天、輕量問答和內容創作。
- 數學&競賽級題目
如果用戶的使用場景是:競賽數學、高級邏輯題、極端復雜鏈式推理等,GPT-5.1、Gemini 3 Pro、Kimi K2 Thinking、Grok 4.1 目前仍然略強。
- 代碼開發
Qwen3 在LiveCodeBench / SciCode 這類基準上的表現,已經是“工程可用”的一線水平。真正大規模做代碼重構、復雜調試時,GPT-5.1、K2 Thinking、Grok4在一些數據里略有優勢,但Qwen3+好的工具鏈(IDE插件、CI集成)足以支撐絕大多數團隊的日常開發工作。
- 多模態、文檔和表格
這一塊是Qwen家族的強項之一:Qwen2.5-VL和Qwen3-Omni在圖像理解、PDF/文檔解析、表格/圖表任務上,經常在論文和評測里拿高分。對用戶來說意味著你把PPT、PDF、掃描件、復雜報表丟給千問,它一般能看得比較明白。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.