網易首頁 > 網易號 > 正文申請入駐

給阿里千問一個“客觀估計”——圍繞QWen3的大模型橫評

2025-11-20 10:56:07　來源: 阿爾法工場

北京舉報

分享至

導語：Qwen3 旗艦模型已進入全球第一梯隊、國內Top 2–3的行列：綜合能力略低于Gemini3、GPT-5.1和Kimi K2 Thinking，但與Grok 4.1、Claude Opus 4.1屬于同檔。

阿里近期發布的千問App引發了外界的關注，其背后的Qwen3大模型與國際和國內幾大模型的性能對比，到底水平如何？對用戶來說又該如何根據不同的任務來選擇不同的大模型？今天給大家做個對比與總結。

01 Qwen3的基本面

阿里在今年推出的第三代大模型Qwen3，是千問App的核心底座。它有幾個關鍵特點：

一、體量和架構

Dense模型：從0.6B一直到32B；

MoE旗艦：Qwen3-235B-A22B（235B 總參數、22B 活躍參數），相當于“參數巨艦+算力省電”。

二、訓練規模

訓練數據約36萬億token，覆蓋119種語言/方言。對數學、代碼、STEM推理做了額外強化。提供“Thinking 模式”，類似GPT-o1 / DeepSeek-R1那種顯式推理版。

三、應用形態

包括文本對話、寫作、代碼、多模態（圖像/文檔/表格），長上下文版本能支持百萬級token，對長文檔場景很友好。

千問App由于面向C端，通常會使用類似“Qwen3-Max / Qwen3-235B旗艦+ Thinking版”的組合。

02 拿什么“尺子”來衡量Qwen3？

使用如下指標來測評Qwen3的水平：

Artificial Analysis Intelligence Index（AA 指數）

AA指數把MMLU-Pro、GPQA、HLE、LiveCodeBench、SciCode 等十幾個高含金量基準融合，

最后給每個模型一個0–100 的綜合“智能分”。這個分數目前是國際上最常被引用的大模型“總評分”之一。

LMArena / Text Arena（人類盲評Elo榜）

采用大量真實用戶不看模型名，只看回答，投票哪一個更好的方法，用Elo評分來排名，更偏“真實使用體驗”的維度。

除此以外，還會使用一些單項基準來進行評測：

AIME2025：競賽級數學；HLE（Humanity’s Last Exam）：極難綜合考試；LiveCodeBench/SciCode：偏實戰的軟件工程與科學代碼；以及其它經典的MMLU、GSM8K、HumanEval 等。

本次評測主要圍繞AA榜+人類盲評榜，再輔以少量專項基準，盡量做到客觀公正。

進入“頂級區”，但天花板依舊。

AA指數：按目前公開信息，各主流大模型的AA指數得分可以見下表：

注：在AA《State of AI: China Q2 2025》里被列為“最佳非推理 LLM”之一，分數帶星號表示部分基于廠商數據估計

就以上得分看，Qwen3的旗艦版本已經站在Grok 4.1和Claude 4.1的身邊，但和Gemini3 Pro、GPT-5.1、K2 Thinking之間，還維持著7–10分左右的差距——這在頂尖模型之間，依然是能感知的差距。

人類盲評Elo榜:評測結果是Gemini3 Pro和Grok4.1（Thinking）輪流占據榜首附近。GPT-5.1、Claude 4家族也穩居頭部。Qwen3旗艦的打分雖然略低于這些“榜一大哥”，但確實已經混在第一梯隊前列，和它們同一張榜單搶票。

更直觀的表述是：真正讓海外開發者和研究者投票時，用戶已經可以感受到：“Qwen3是強模型，和GPT-5 / Gemini3這一線對比，體驗上不會拉開巨大差距。”

再看幾個單項評測：

AIME 2025：競賽數學

測試結果大致排序是：GPT-5 Codex (high) ≈ GPT-5.1 > Kimi K2 Thinking > Grok 4 > Qwen3 235B > Gemini 2.5 / Claude 4 系列。

可以理解為，Qwen3在高難數學上是第一梯隊，只是在“競賽數學+推理特化”的場景中，GPT-5.1 / K2 / Grok 4這些“卷數學的怪物”更強。

HLE：超難綜合推理

在這個測試中，Kimi K2 Thinking和GPT-5家族在HLE里表現最扎眼。Qwen3和GPT-4.1/Grok-3/Gemini-2.5 Pro這一代差不多，略有提升。測試結果意味著，Qwen3在極限綜合推理上沒拉胯，但也不是拿第一的那個。

LiveCodeBench / SciCode：工程代碼&科學代碼

在工程代碼方面,GPT-5.1?K2 Thinking? Grok4≈Gemini2.5Pro> Qwen3≈DeepSeek-V3.2。在科學代碼（SciCode）測試中，差距更縮小，大家都在40%多一點的區間里擠。

也就是說，如果你用千問寫代碼，它的水平大致就是“略弱一點的GPT-5.1 / K2 / Grok4”，但絕不是上一代那種明顯掉隊。

03 中國四強對比：Kimi、Qwen3、DeepSeek、豆包

Kimi K2 Thinking的綜合智能得分約67分，在AA榜上直接沖進全球前五，由于模型專門強調瀏覽、工具調用、Agent任務，所以在HLE、BrowseComp等偏“代理”的基準上特別強。

Qwen3的綜合智能得分60 分左右，各方面比較均衡。DeepSeek-V3.2-Exp的綜合智能約57分，特點是國產芯片適配、長上下文性能、推理能效方面做了優化，為中國算力環境量身定制。

豆包1.5 Pro（非推理版），AA China Q2 報告中給出的智能指數約 48*，在非推理模型里屬于頭部，且被列為“最佳非推理大模型”之一；但其推理版（Thinking）目前還沒有完整的AA綜合分公開。

綜合分數上：K2 Thinking > Qwen3 > DeepSeek-V3.2 >豆包1.5Pro。但如果從“算力成本+國產芯片環境”出發，DeepSeek就有獨特位置，而Qwen3則在“生態+穩健通用能力”上更加均衡。

04 用戶的視角

日常問答、寫作與知識檢索

對中文/中英混合的日常用法來說，Qwen3 + 千問App 基本已經是世界級的體驗之一。回答速度、知識覆蓋、上下文記憶、寫作風格都很成熟。和GPT-5.1 / Gemini 3 Pro相比，差距主要在極限長鏈推理和一些特定專業英文領域。豆包則在自然中文表達、口語化對話、社交媒體語境下的風格更自然，適合做聊天、輕量問答和內容創作。

數學&競賽級題目

如果用戶的使用場景是：競賽數學、高級邏輯題、極端復雜鏈式推理等，GPT-5.1、Gemini 3 Pro、Kimi K2 Thinking、Grok 4.1 目前仍然略強。

代碼開發

Qwen3 在LiveCodeBench / SciCode 這類基準上的表現，已經是“工程可用”的一線水平。真正大規模做代碼重構、復雜調試時，GPT-5.1、K2 Thinking、Grok4在一些數據里略有優勢，但Qwen3+好的工具鏈（IDE插件、CI集成）足以支撐絕大多數團隊的日常開發工作。

多模態、文檔和表格

這一塊是Qwen家族的強項之一：Qwen2.5-VL和Qwen3-Omni在圖像理解、PDF/文檔解析、表格/圖表任務上，經常在論文和評測里拿高分。對用戶來說意味著你把PPT、PDF、掃描件、復雜報表丟給千問，它一般能看得比較明白。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.