<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      給阿里千問一個“客觀估計”——圍繞QWen3的大模型橫評

      0
      分享至




      導語:Qwen3 旗艦模型已進入全球第一梯隊、國內Top 2–3的行列:綜合能力略低于Gemini3、GPT-5.1和Kimi K2 Thinking,但與Grok 4.1、Claude Opus 4.1屬于同檔。

      阿里近期發布的千問App引發了外界的關注,其背后的Qwen3大模型與國際和國內幾大模型的性能對比,到底水平如何?對用戶來說又該如何根據不同的任務來選擇不同的大模型?今天給大家做個對比與總結。

      01 Qwen3的基本面

      阿里在今年推出的第三代大模型Qwen3,是千問App的核心底座。它有幾個關鍵特點:

      一、體量和架構

      Dense模型:從0.6B一直到32B;

      MoE旗艦:Qwen3-235B-A22B(235B 總參數、22B 活躍參數),相當于“參數巨艦+算力省電”。

      二、訓練規模

      訓練數據約36萬億token,覆蓋119種語言/方言。對數學、代碼、STEM推理做了額外強化。提供“Thinking 模式”,類似GPT-o1 / DeepSeek-R1那種顯式推理版。

      三、應用形態

      包括文本對話、寫作、代碼、多模態(圖像/文檔/表格),長上下文版本能支持百萬級token,對長文檔場景很友好。

      千問App由于面向C端,通常會使用類似“Qwen3-Max / Qwen3-235B旗艦+ Thinking版”的組合。

      02 拿什么“尺子”來衡量Qwen3?

      使用如下指標來測評Qwen3的水平:

      • Artificial Analysis Intelligence Index(AA 指數)

      AA指數把MMLU-Pro、GPQA、HLE、LiveCodeBench、SciCode 等十幾個高含金量基準融合,

      最后給每個模型一個0–100 的綜合“智能分”。這個分數目前是國際上最常被引用的大模型“總評分”之一。

      • LMArena / Text Arena(人類盲評Elo榜)

      采用大量真實用戶不看模型名,只看回答,投票哪一個更好的方法,用Elo評分來排名,更偏“真實使用體驗”的維度。

      除此以外,還會使用一些單項基準來進行評測:

      AIME2025:競賽級數學;HLE(Humanity’s Last Exam):極難綜合考試;LiveCodeBench/SciCode:偏實戰的軟件工程與科學代碼;以及其它經典的MMLU、GSM8K、HumanEval 等。

      本次評測主要圍繞AA榜+人類盲評榜,再輔以少量專項基準,盡量做到客觀公正。

      進入“頂級區”,但天花板依舊。

      AA指數:按目前公開信息,各主流大模型的AA指數得分可以見下表:



      注:在AA《State of AI: China Q2 2025》里被列為“最佳非推理 LLM”之一,分數帶星號表示部分基于廠商數據估計

      就以上得分看,Qwen3的旗艦版本已經站在Grok 4.1和Claude 4.1的身邊,但和Gemini3 Pro、GPT-5.1、K2 Thinking之間,還維持著7–10分左右的差距——這在頂尖模型之間,依然是能感知的差距。

      人類盲評Elo榜:評測結果是Gemini3 Pro和Grok4.1(Thinking)輪流占據榜首附近。GPT-5.1、Claude 4家族也穩居頭部。Qwen3旗艦的打分雖然略低于這些“榜一大哥”,但確實已經混在第一梯隊前列,和它們同一張榜單搶票。

      更直觀的表述是:真正讓海外開發者和研究者投票時,用戶已經可以感受到:“Qwen3是強模型,和GPT-5 / Gemini3這一線對比,體驗上不會拉開巨大差距。”

      再看幾個單項評測:

      • AIME 2025:競賽數學

      測試結果大致排序是:GPT-5 Codex (high) ≈ GPT-5.1 > Kimi K2 Thinking > Grok 4 > Qwen3 235B > Gemini 2.5 / Claude 4 系列。

      可以理解為,Qwen3在高難數學上是第一梯隊,只是在“競賽數學+推理特化”的場景中,GPT-5.1 / K2 / Grok 4這些“卷數學的怪物”更強。

      • HLE:超難綜合推理

      在這個測試中,Kimi K2 Thinking和GPT-5家族在HLE里表現最扎眼。Qwen3和GPT-4.1/Grok-3/Gemini-2.5 Pro這一代差不多,略有提升。測試結果意味著,Qwen3在極限綜合推理上沒拉胯,但也不是拿第一的那個。

      • LiveCodeBench / SciCode:工程代碼&科學代碼

      在工程代碼方面,GPT-5.1?K2 Thinking? Grok4≈Gemini2.5Pro> Qwen3≈DeepSeek-V3.2。在科學代碼(SciCode)測試中,差距更縮小,大家都在40%多一點的區間里擠。

      也就是說,如果你用千問寫代碼,它的水平大致就是“略弱一點的GPT-5.1 / K2 / Grok4”,但絕不是上一代那種明顯掉隊。

      03 中國四強對比:Kimi、Qwen3、DeepSeek、豆包

      Kimi K2 Thinking的綜合智能得分約67分,在AA榜上直接沖進全球前五,由于模型專門強調瀏覽、工具調用、Agent任務,所以在HLE、BrowseComp等偏“代理”的基準上特別強。

      Qwen3的綜合智能得分60 分左右,各方面比較均衡。DeepSeek-V3.2-Exp的綜合智能約57分,特點是國產芯片適配、長上下文性能、推理能效方面做了優化,為中國算力環境量身定制。

      豆包1.5 Pro(非推理版),AA China Q2 報告中給出的智能指數約 48*,在非推理模型里屬于頭部,且被列為“最佳非推理大模型”之一;但其推理版(Thinking)目前還沒有完整的AA綜合分公開。

      綜合分數上:K2 Thinking > Qwen3 > DeepSeek-V3.2 >豆包1.5Pro。但如果從“算力成本+國產芯片環境”出發,DeepSeek就有獨特位置,而Qwen3則在“生態+穩健通用能力”上更加均衡。



      04 用戶的視角

      • 日常問答、寫作與知識檢索

      對中文/中英混合的日常用法來說,Qwen3 + 千問App 基本已經是世界級的體驗之一。回答速度、知識覆蓋、上下文記憶、寫作風格都很成熟。和GPT-5.1 / Gemini 3 Pro相比,差距主要在極限長鏈推理和一些特定專業英文領域。豆包則在自然中文表達、口語化對話、社交媒體語境下的風格更自然,適合做聊天、輕量問答和內容創作。

      • 數學&競賽級題目

      如果用戶的使用場景是:競賽數學、高級邏輯題、極端復雜鏈式推理等,GPT-5.1、Gemini 3 Pro、Kimi K2 Thinking、Grok 4.1 目前仍然略強。

      • 代碼開發

      Qwen3 在LiveCodeBench / SciCode 這類基準上的表現,已經是“工程可用”的一線水平。真正大規模做代碼重構、復雜調試時,GPT-5.1、K2 Thinking、Grok4在一些數據里略有優勢,但Qwen3+好的工具鏈(IDE插件、CI集成)足以支撐絕大多數團隊的日常開發工作。

      • 多模態、文檔和表格

      這一塊是Qwen家族的強項之一:Qwen2.5-VL和Qwen3-Omni在圖像理解、PDF/文檔解析、表格/圖表任務上,經常在論文和評測里拿高分。對用戶來說意味著你把PPT、PDF、掃描件、復雜報表丟給千問,它一般能看得比較明白。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      廣廈陣容再提升!2新外援即插即用,趙巖昊林秉圣補強替補實力!

      廣廈陣容再提升!2新外援即插即用,趙巖昊林秉圣補強替補實力!

      籃球資訊達人
      2025-12-13 00:39:35
      老道長講述:這幾個屬相的孩子在家中,是祖上積了大德

      老道長講述:這幾個屬相的孩子在家中,是祖上積了大德

      古怪奇談錄
      2025-12-11 13:27:28
      55年授銜時,毛主席流淚道:若澤覃還在,我們毛家可能會出個將軍

      55年授銜時,毛主席流淚道:若澤覃還在,我們毛家可能會出個將軍

      云霄紀史觀
      2025-12-12 18:05:53
      調整!央視直播乒乓球總決賽有變,13日誕生首冠,孫穎莎一天雙賽

      調整!央視直播乒乓球總決賽有變,13日誕生首冠,孫穎莎一天雙賽

      侃球熊弟
      2025-12-12 23:21:38
      羅伯特和靈魂伴侶結婚生娃,恩愛生活打破暮光CP幻想,太割裂了

      羅伯特和靈魂伴侶結婚生娃,恩愛生活打破暮光CP幻想,太割裂了

      黔鄉小姊妹
      2025-11-03 11:11:34
      評論炸了,網友卻不敢看她坐下來

      評論炸了,網友卻不敢看她坐下來

      章眽八卦
      2025-12-07 11:32:57
      1931年,周恩來帶人處決叛徒顧順章家人,放過3小孩,卻釀成禍患

      1931年,周恩來帶人處決叛徒顧順章家人,放過3小孩,卻釀成禍患

      獅拓一葉知秋
      2024-08-23 21:46:48
      9500萬人口的東北,去年生了38萬,死亡91萬!情況比想象中更嚴重

      9500萬人口的東北,去年生了38萬,死亡91萬!情況比想象中更嚴重

      狐貍先森講升學規劃
      2025-08-01 18:30:03
      歐陽娜娜穿衣服被夸成熟網友卻盯著副乳看!身體標準真能隨便定?

      歐陽娜娜穿衣服被夸成熟網友卻盯著副乳看!身體標準真能隨便定?

      艷姐的搞笑視頻
      2025-12-10 17:03:59
      摩納哥主帥:博格巴膝蓋肌腱有點拉傷,能否出戰馬賽還得看看

      摩納哥主帥:博格巴膝蓋肌腱有點拉傷,能否出戰馬賽還得看看

      懂球帝
      2025-12-13 01:52:05
      歐盟警告比利時:想想匈牙利的下場

      歐盟警告比利時:想想匈牙利的下場

      觀察者網
      2025-12-11 19:46:05
      87歲老藝術家范曾喜得幼子,律師、醫生出來解釋……

      87歲老藝術家范曾喜得幼子,律師、醫生出來解釋……

      法律讀品
      2025-12-12 11:49:36
      中國資產價值必將重估

      中國資產價值必將重估

      雪球
      2025-12-11 16:10:31
      人類對某魚的開發不足1%,網友:只有你想不到,沒有你買不到的

      人類對某魚的開發不足1%,網友:只有你想不到,沒有你買不到的

      奇特短尾矮袋鼠
      2025-12-02 07:45:05
      婆婆說我不孕要我們離婚,我離開時回頭說了一句話,她當場跪了

      婆婆說我不孕要我們離婚,我離開時回頭說了一句話,她當場跪了

      李子木說
      2025-11-17 17:48:17
      記者:38歲蘇亞雷斯已經決定與邁阿密國際續約一年

      記者:38歲蘇亞雷斯已經決定與邁阿密國際續約一年

      懂球帝
      2025-12-12 20:33:19
      魔獸目前最讓人震撼的房屋!中國玩家造出高達房,驚呆暴雪員工!

      魔獸目前最讓人震撼的房屋!中國玩家造出高達房,驚呆暴雪員工!

      魔獸世界研究所
      2025-12-11 18:58:58
      特斯拉Model Y再降價,后驅版跌破25萬,純電SUV進入新價格戰!

      特斯拉Model Y再降價,后驅版跌破25萬,純電SUV進入新價格戰!

      沙雕小琳琳
      2025-12-12 12:46:45
      共和黨失去邁阿密市長,金卡降價,特朗普家族財富暴漲

      共和黨失去邁阿密市長,金卡降價,特朗普家族財富暴漲

      山河路口
      2025-12-11 19:43:44
      104:0!印媒:F15從未被擊落過,被殲15鎖定,印軍慘敗心有不甘

      104:0!印媒:F15從未被擊落過,被殲15鎖定,印軍慘敗心有不甘

      博覽歷史
      2025-12-11 19:14:36
      2025-12-13 04:16:49
      阿爾法工場 incentive-icons
      阿爾法工場
      中國上市公司研究平臺
      12562文章數 302620關注度
      往期回顧 全部

      科技要聞

      凌晨突發!GPT-5.2上線,首批實測感受來了

      頭條要聞

      高市早苗政權下的日本 西方媒體終于察覺到不對勁了

      頭條要聞

      高市早苗政權下的日本 西方媒體終于察覺到不對勁了

      體育要聞

      15輪2分,他們怎么成了英超最爛球隊?

      娛樂要聞

      上海這一夜,33歲陳麗君秒了32歲吉娜?

      財經要聞

      鎂信健康闖關港交所:被指竊取商業秘密

      汽車要聞

      表面風平浪靜 內里翻天覆地!試駕銀河星艦7 EM-i

      態度原創

      藝術
      時尚
      親子
      游戲
      教育

      藝術要聞

      圓通豪擲10億!上海總部“星空大樓”建成!

      秋冬發色天花板!5款顯白溫柔發色拿圖給Tony,染完被夸到過年

      親子要聞

      產后康復別花大幾萬,記住3做3不做

      油條杯S4今晚開戰,Happy&浪漫領銜八大高手參賽

      教育要聞

      2025年黃州區幼兒園劃片圖搶先看!

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 日日躁狠狠躁| 国产欧美精品一区aⅴ影院| 亚洲成a人片在线观看无码| 成人av中文字幕在线播放 | 欧美成人一区二区三区| 亚洲精品九九| 欧美Aⅴ| 自拍亚洲欧美| 无码不卡av东京热毛片| 亚洲日韩av无码中文字幕美国| 寻甸| 精品伊人久久久久7777人| 少妇被粗大的猛烈进出动视频| 美女张开腿黄网站免费| 国产麻豆剧传媒精品国产av| 欧美整片sss| 亚洲av伊人久久青青草原| 国产一区二区三区免费观看| 少妇高潮大叫好爽| 欧美成人猛片aaaaaaa| 一本色道久久亚洲加勒比| 999成人网站| 高清国产一区二区无遮挡| 免费大片av手机看片高清| 成人自拍网| 久色88| 亚洲性爱片| 蜜桃久久精品成人无码av | 少妇久久久久久久久久| 三明市| 午夜无码熟妇丰满人妻| 亚洲第一香蕉视频啪啪爽| 精品人妻大屁股白浆无码| 人妻综合页| 广南县| 国产在线你懂| 麻豆国产成人AV在线播放| 久久国产精99精产国高潮| 九九精品99久久久香蕉| 亚洲精品一区二区三区蜜臀| 色偷偷偷久久伊人大杳蕉|