![]()
作為2025年,國內巨頭中第一家發布下一代大模型的玩家,阿里 Qwen3吊足了AI圈的眼球。
現在大模型更新基本集中在二代半,GPT-4.5和GPT-4o為代表,Claude 3.7 sonnet、近期剛更新的文心4.5 Turbo ,都具有非常顯著的AI 特性,但并不足以稱之為換代。
阿里 Qwen3則呈現了下一代模型的一些標準,具有以下四種特性:混合推理模型,實現自動快慢思考;模型內置Agent+MCP,垂直場景 開發更易用;8款尺寸全覆蓋,旗艦還是移動端都可適配;更多語言支持,真正支持全球化開源。
![]()
鯨哥詳細了解下這次發布的模型,一共有8款不同尺寸,分別是6款Dense模型以及2款MoE模型,Qwen3 模型以更小的規模實現了對更大體量上一代模型的超越,性價比強無敵。
![]()
值得關注的是,旗艦模型Qwen3-235B-A22B在代碼、數學、通用能力等基準測試中,超越了DeepSeek R1、OpenAI o1 o3mini、Grok 3等國內外頂尖大模型,和Gemini 2.5 Pro略有差距。
![]()
然后Qwen采用 Apache 2.0 許可 ,模型能力已經超越 Meta Llama 和Mistral,而且Qwen系列衍生模型全球已經超過10萬個,現在可以說是全球最好的開源模型。
![]()
不過最強開源并非無敵,在強堆預訓練數據下,Qwen3 使用的數據量是Qwen2.5兩倍,達到了約 36 萬億個 token,實現了一些雄心壯志,但也有一些現實需要面對。
畢竟在訓練數據量同樣是30T以上的級別中,Llama 4坊間評價已經撲街。Qwen3在很多方面,對最強閉源模型也沒有優勢。通過更多場景測評,我們能更了解這款“強大的模型”。
首先是一個在DeepSeek中,很受大家喜歡的能力,就是制定學習計劃表格并導出,通義也實現了相應的功能,從Html代碼到預覽呈現,以及Excel下載。
![]()
在寫作能力上,先點了深度思考模式,文章內容深度并沒有體現,點擊聯網模式后,文章內容提到了很好的升級。這個主題下寫作,Qwen也認為餓了么有邊緣化的危機,就沒截全。
![]()
從結尾看總結寫的也不錯,在國產AI助手中寫的算頂尖行列。
在生成報告方面,要求 Qwen3生成兼具美觀的報告,它選擇生成了Markdown格式,最終的效果如下圖。從生成內容質量看,距離現在的Deepresearch產品也有距離。
![]()
在可視化網頁方面,此前鯨哥經常用一套優化的提示詞做秀圖。
![]()
上面是DeepSeek V3生成的效果,下圖是Qwen 3生成的效果,對文章結構處理和審美理解都差一點意思。
![]()
在代碼生成方面,也有很多的進步空間,這里是給了提示詞: 生成一個星級旅游網頁,賽博朋克風格,背景是無垠宇宙,一艘飛船中間有輸入旅行地址框。
![]()
做高考數學題也不在話下,利用 Qwen2.5-Math 和 Qwen2.5-Coder 這兩個數學和代碼領域的專家模型合成數據,合成了包括教科書、問答對以及代碼片段等多種形式的數據。
![]()
Qwen3這次傳說中的多模態沒上,超長上下文還要補課。
整體來看,Qwen更多的驚喜試是相較過去自己,能力差不多實現30%的升級,而且是全家桶便宜且開源,以及支持Agent和MCP,企業落地更多場景更方便,對于大模型再企業端落地有很大促進作用。
但是在很多用戶應用場景下,能力升級但沒達到預期驚喜。尤其代碼等場景下,舉例DeepSeek V3和Claude 3.7還有不少的距離。
沒能全方位超越閉源模型,并不意味著通義App不好用。長短思考自動切換,內置APP生成,以及視頻和圖片生成能力,在一眾國產AI助手中還, 通義App還是那個更絲滑和更全能的助手。
視頻內容推薦:
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.