阿里Qwen3深夜發(fā)布，能終結(jié)汪峰式尷尬嗎

2025-04-29 20:20:45　來源: 白鯨實驗室one

北京舉報

分享至

很多人大概不知道通義Qwen的地位。蘋果公司已選定Qwen作為其在中國市場的大模型技術(shù)合作伙伴，這標志著Qwen在商業(yè)應(yīng)用領(lǐng)域取得重要突破。

與此同時，學(xué)術(shù)界也展現(xiàn)出對Qwen的青睞。李飛飛團隊正基于Qwen架構(gòu)開發(fā)具備超低推理成本的AI模型，通用智能體平臺Manus已將其作為核心決策引擎。而最被大家熟悉的DeepSeekR1，其小尺寸模型的訓(xùn)練也用到了Qwen。

實際上，我和身邊多位朋友都有聊過，國外最受追捧的中國大模型，一個是DeepSeek，另一個就是通義Qwen了。

盡管Qwen在技術(shù)社區(qū)持續(xù)引發(fā)關(guān)注，但在國內(nèi)的公眾感知度常常與之不相稱。開發(fā)者社群中流傳著"大模型界汪峰"的戲稱，意思是其技術(shù)實力常被行業(yè)熱點事件暫時遮蔽，幾次重大版本發(fā)布均遭遇其他科技頭條的"截胡"現(xiàn)象。

這種技術(shù)影響力與商業(yè)聲量的錯位，恰恰反映出Qwen作為底層基礎(chǔ)模型，在一個特殊時期技術(shù)內(nèi)核上的堅定。

言歸正傳。從主流學(xué)術(shù)基準的權(quán)威數(shù)據(jù)看，這次Qwen3對DeepSeek R1實現(xiàn)了全方位壓制，這里的"全方位"并非夸張表述，而是實打?qū)嵉臄?shù)學(xué)、推理與代碼三大核心領(lǐng)域的集體突破。

尤其值得關(guān)注的是其代碼生成能力，在LiveCodeBench和Codeforces雙榜中不僅甩開所有競品，甚至將當(dāng)前業(yè)界最強的Gemini2.5-Pro也拉入了追趕行列。

具體來看，Qwen3在推理、指令遵循、工具調(diào)用、多語言能力等方面均大幅增強。在奧數(shù)水平的AIME25測評中，Qwen3斬獲81.5分，刷新開源紀錄。在考察代碼能力的LiveCodeBench評測中，Qwen3突破70分大關(guān)，表現(xiàn)甚至超過Grok3。在評估模型人類偏好對齊的ArenaHard測評中，Qwen3以95.6分超越OpenAI-o1及DeepSeek-R1。

而且Qwen3成本很低，旗艦?zāi)Ｐ?35B參數(shù)部署成本只要DeepSeek R1的三分之一。

這些硬核數(shù)據(jù)背后，是Qwen3通過動態(tài)參數(shù)激活架構(gòu)（MoE）實現(xiàn)的質(zhì)變。在2350億總參數(shù)中精準調(diào)用220億激活參數(shù)，既保證了算力密度，又將硬件成本壓縮至行業(yè)平均水平的1/3。

如今它已不只是"全球最強開源模型"的稱號持有者，更是重新定義了大模型性能評估的標準坐標系。

再繼續(xù)說點干貨，本次Qwen的發(fā)布包含MoE 和Dense 兩種架構(gòu)。

MoE：有30B（3B激活）和235B（22B激活）兩種。Dense：包含0.6B、1.7B、4B、8B、14B 和32B 這六款。

模型的詳細參數(shù)

旗艦?zāi)Ｐ褪荙wen3-235B-A22B，后綴235B指的是模型大小2350億參數(shù)，A22B指的是激活參數(shù)220億。

如果你以為大模型的世界只有“參數(shù)越大越強”的套路，那Qwen3可能會讓你重新認識什么叫“小而精”。

作為阿里巴巴通義千問系列的最新一代模型，Qwen3在性能、成本和靈活性上玩出了新花樣，甚至可以用“降維打擊”來形容它對前代模型的碾壓，不是夸張，而是實打?qū)嵉挠脭?shù)據(jù)說話。

先說說Qwen3為什么參數(shù)“瘦身”，反而更聰明。

Qwen3的旗艦版Qwen3-235B-A22B總參數(shù)高達2350億，但激活參數(shù)僅需220億。換句話說，它就像一個學(xué)霸，考試時只翻220頁筆記就能完勝對手。相比之下，Qwen2.5-72B-Instruct這類前輩，可得靠“死記硬背”720億參數(shù)才能勉強跟上節(jié)奏。

更絕的是，Qwen3的“小型號”也藏著玄機。比如Qwen3-4B這個迷你模型，居然能在代碼生成、數(shù)學(xué)推理等任務(wù)中匹敵Qwen2.5-72B-Instruct的性能。

對比來看，Qwen3-4B VS Qwen2.5-72B-Instruct：參數(shù)量縮小18倍，性能不降反升。Qwen3-30B-A3B VS Qwen2.5-32B：激活參數(shù)僅為10%，但性能直接跨級超越。

這次Qwen3最被業(yè)內(nèi)稱道的是，引入了思考模式和非思考模式，類似人類的大腦高速切換狀態(tài)。

思考模式，適合解決復(fù)雜問題，比如寫論文、做數(shù)學(xué)題，模型會一步步推理，像考試時反復(fù)演算一樣細致。非思考模式，用于簡單任務(wù)，比如聊天、查天氣，直接給出答案，省電又高效。

舉個例子，如果你問Qwen3：請證明費馬大定理。它會啟動學(xué)霸模式，用長思維鏈逐步推導(dǎo)。但如果你問：今天北京天氣如何？它會立刻切換成快問快答，省下你寶貴的等待時間。

在不同思考深度下，模型的得分情況

我們都知道，DeepSeek R1就是深度思考，關(guān)閉R1選項，它就用v3來給你回答。但是Qwen3把這兩個功能融為了一體，方便很多。

另一個亮點，是Agent能力的增強。

如今，Agent已經(jīng)是大模型領(lǐng)域重點關(guān)注的能力之一，尤其是最近MCP模型上下文協(xié)議的引入，更是大大增強了Agent 的適用性和靈活性，拓寬了應(yīng)用場景。

這次Qwen3模型的Agent和代碼能力得到增強，包括加強了對MCP 的支持。我們可以看下面一個示例（提取QwenLM 庫的markdown 內(nèi)容，然后繪制顯示項目stars 數(shù)量的條形圖），展示了Qwen3 如何思考并與環(huán)境進行交互：

很多人可能更關(guān)心這個模型是怎么訓(xùn)出來的。

Qwen3模型訓(xùn)練數(shù)據(jù)體量較前代實現(xiàn)指數(shù)級增長，從Qwen2.5的18萬億token擴容至36萬億token，覆蓋119種語言及方言體系。

數(shù)據(jù)采集采用多源融合策略：一方面通過全網(wǎng)爬取獲取泛化文本，另一方面部

署Qwen2.5-VL視覺語言模型實現(xiàn)PDF文檔的深度解析，同時結(jié)合Qwen2.5基礎(chǔ)模型進行多輪數(shù)據(jù)精煉，確保信息質(zhì)量。

針對數(shù)學(xué)與編程垂直領(lǐng)域，通義研發(fā)團隊構(gòu)建了專用數(shù)據(jù)生成管線。Qwen2.5-Math：生成復(fù)雜公式推導(dǎo)、幾何證明等數(shù)學(xué)專項訓(xùn)練數(shù)據(jù)。Qwen2.5-Coder：產(chǎn)出代碼注釋、算法實現(xiàn)等編程領(lǐng)域合成語料。

通過這種領(lǐng)域自適應(yīng)的數(shù)據(jù)增強策略，顯著提升模型在專業(yè)場景的推理精度。

三階段漸進式預(yù)訓(xùn)練

1.基礎(chǔ)能力構(gòu)建階段
在30萬億token數(shù)據(jù)池上進行基礎(chǔ)預(yù)訓(xùn)練，采用4K固定上下文窗口，重點培養(yǎng)模型的語言組織能力與常識推理基礎(chǔ)。此階段相當(dāng)于構(gòu)建認知底座，使模型掌握自然語言的底層表達規(guī)律。

2.專業(yè)能力深化階段
新增5萬億token專項訓(xùn)練數(shù)據(jù)，聚焦STEM學(xué)科（科學(xué)/技術(shù)/工程/數(shù)學(xué)）與編程任務(wù)。通過高密度專業(yè)語料注入，實現(xiàn)復(fù)雜邏輯推演能力的跨越式提升，特別強化代碼生成、科學(xué)計算等場景表現(xiàn)。

3.長程理解突破階段
引入高質(zhì)量長文本語料庫，將上下文處理能力從4K擴展至32K，使模型具備處理學(xué)術(shù)長文、多輪技術(shù)對話等超長文本的能力。該階段突破了傳統(tǒng)模型的記憶限制，可完整理解萬字量級的專業(yè)文檔。

這種分層訓(xùn)練架構(gòu)既保證了基礎(chǔ)能力的廣度，又通過專項強化實現(xiàn)了深度能力的突破，最終構(gòu)建出兼具通用性與專業(yè)性的新一代語言大模型。

如果說Qwen2開源時還帶著點“技術(shù)保留”，Qwen3則徹底放飛自我。2款MoE模型+6款Dense模型全部開源，連協(xié)議都換成Apache 2.0（商用隨便薅?。７从^Llama3，至今還在“開源但不可商用”的扭捏狀態(tài)。

斯坦?！?025人工智能指數(shù)報告》顯示，通義千問有六款模型入選全球前三，技術(shù)貢獻位列中國第一，全球第三，僅次于谷歌和OpenAI。

增加模型在海外的部署，也是大廠在AI方面的競賽之一。開源模型成為技術(shù)出海的重要抓手，DeepSeek推出的MoE架構(gòu)模型，通過動態(tài)路由技術(shù)將推理成本降至GPT-4的17%，吸引全球3.6萬開發(fā)者參與優(yōu)化。百度文心一言、阿里Qwen等模型也在GitHub開源基礎(chǔ)版本，形成“開源獲客+閉源變現(xiàn)”的雙軌模式。

今天上午和一個做算力的資深業(yè)內(nèi)人士聊，他說：“各大廠把模型做的越來越快，技術(shù)上沒有本質(zhì)上的變革，目的是在海外擴大自己的模型部署，不過就提升模型的能力方面，對大廠來說也是利好?！?/p>

他認為，阿里這一次發(fā)布8個模型，是因為算力在不斷提升，大模型就像數(shù)學(xué)原理上的發(fā)展，數(shù)學(xué)原理發(fā)展的越好未必能直接帶來效益，但能帶來AI應(yīng)用方面的增長，AI應(yīng)用全部依賴于大模型的基礎(chǔ)，沒有大模型的發(fā)展，應(yīng)用很難實現(xiàn)突破。

相較于Llama 4系列模型獲得的社區(qū)反響，Qwen系列已憑借扎實的數(shù)據(jù)支撐確立其全球開源領(lǐng)域的領(lǐng)先地位。作為目前全球規(guī)模最大的開源模型體系，阿里通義已向公眾開放200余個預(yù)訓(xùn)練模型，累計下載量突破3億次（綜合 Hugging Face、魔搭等社區(qū)數(shù)據(jù)）。

更值得關(guān)注的是，基于Qwen核心架構(gòu)衍生的定制化模型已超過10萬個，這一數(shù)字不僅超越了Llama系列，更標志著Qwen生態(tài)已成長為全球最活躍的開源模型矩陣。這種指數(shù)級增長，印證了中國開源大模型在技術(shù)創(chuàng)新與社區(qū)共建方面的雙重突破。

自通義千問自2023年首次亮相以來，幾乎以驚人的迭代速度和技術(shù)突破，從一款基礎(chǔ)語言模型逐步成長為橫跨多模態(tài)、全生態(tài)的AI平臺。這一歷程不僅展現(xiàn)了阿里巴巴在大模型領(lǐng)域的布局野心，也折射出國產(chǎn)人工智能技術(shù)在全球競爭中的崛起軌跡。

2023年4月，通義千問1.0作為阿里巴巴推出的首款超大規(guī)模語言模型，正式開啟探索之路。該版本初步實現(xiàn)了中文、英文等多語言文本生成與對話交互能力，并通過阿里云峰會展開定向企業(yè)測試。

盡管此時其整體技術(shù)成熟度仍落后于國際頭部模型（如GPT-3.5），但已在國內(nèi)首批通用型大模型中占據(jù)先機，與百度文心一言、騰訊混元形成早期競爭格局。

同年10月31日發(fā)布的通義千問2.0標志著性能的飛躍。參數(shù)規(guī)模突破千億級，復(fù)雜指令理解、文學(xué)創(chuàng)作與數(shù)學(xué)推理能力顯著提升，并推出8大垂直領(lǐng)域子模型（如編程助手通義靈碼、法律助手通義法睿）。

App端向個人用戶開放后，其綜合性能接近GPT-3.5，超越Meta Llama-2-70B，成為國內(nèi)首個實現(xiàn)工具化鏈路的企業(yè)級大模型平臺。

2024年4月至5月，Qwen1.5系列的開源策略進一步鞏固了其行業(yè)地位。覆蓋5億至1100億參數(shù)的全尺寸模型矩陣滿足多樣化部署需求，CodeQwen1.5-7B成為智能編碼標桿，下載量超700萬次。

2024年5月9日，通義千問2.5在多模態(tài)任務(wù)上實現(xiàn)質(zhì)的突破。深度推理能力優(yōu)化后，邏輯與數(shù)學(xué)題解答準確率大幅提升，旗艦?zāi)Ｐ蚎wen-VL-Max性能超越Gemini Ultra和GPT-4V，成為多模態(tài)領(lǐng)域的標桿產(chǎn)品。同年8月30日，視覺語言模型Qwen2-VL-72B重新定義視頻分析邊界。

今年3月27日，Qwen2.5-Omni開創(chuàng)端到端全模態(tài)處理范式。文本、圖像、音頻、視頻同步處理能力實現(xiàn)人機交互體驗革新，實時語音合成與情緒識別功能適配智能家居、車載系統(tǒng)，輕量化設(shè)計支持手機端高效部署，對標OpenAI GPT-4o和Google Gemini 2.5 Pro，引領(lǐng)下一代交互體驗。

直到這次發(fā)布Qwen3，正式成長為從初代通用模型到全球開源領(lǐng)袖，通義千問的演進軌跡映射出中國AI力量的成長路徑。

你已經(jīng)嘗鮮Qwen3了嗎，感覺怎么樣，歡迎評論區(qū)交流。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.