![]()
作者 | Yoky
郵箱 | yokyliu@pingwest.com
第一個國產版Gemini3,來了。
1月26日,阿里正式發布千問旗艦推理模型Qwen3-Max-Thinking。
據介紹,Qwen3-Max-Thinking總參數超萬億、預訓練數據量高達36T Tokens,在科學知識(GPQA Diamond)、數學推理(IMO-AnswerBench)、代碼編程(LiveCodeBench)等多項權威評測中刷新了全球紀錄。它在數學推理AIME 25和HMMT 25上拿到了國內首個雙滿分,甚至在“人類最后的測試”HLE中得分58.3,大幅超過GPT-5.2-Thinking的45.5和Gemini 3 Pro的45.8。
![]()
更關鍵的是時間點。如果你最近關注AI圈,會發現各家大模型廠商都在憋大招,阿里搶在這個節骨眼上發布Qwen3-Max-Thinking,擺明了就是要搶“國產第一個Gemini 3”的名號。
榜單數據再好看,到底能不能媲美Gemini3?
試了幾次Qwen生成代碼,前幾次任務失敗率還挺高的,但只要碰到阿里擅長的場景,表現就完全不一樣。比如讓它做一個賣水果的電商網站,商品分類、加購物車、一起結算這些功能,基本一次就寫出來了,而且邏輯很完整,體驗也流暢。很明顯,電商這種場景它見得太多了,淘寶天貓的數據喂得夠飽,所以做起來特別順手。
但換成其他類型的任務,成功率就不太穩定了。如果你的需求正好在它的舒適區里,那體驗確實要相對好;如果偏離了,可能得多試幾次調整提示詞。
我還專門測試了一個更復雜的交互案例:用攝像頭做體感控制的打氣球游戲,這也是Gemini 3展示過的經典demo。具體需求是:用手勢控制屏幕上的準星,做捏合動作(拇指和食指并攏)來射擊從下往上飄的氣球,還要有天空背景、云層漂移、擊中特效、連擊反饋這些細節。
千問的表現讓我有點意外。整個游戲的框架它一次就搭出來了:天空漸變背景、氣球從底部生成往上飄、大小不同速度不同、UI顯示分數和連擊數,這些基礎邏輯都沒問題。
交互效果做得挺有意思。伸出食指,屏幕上的準星就會跟著手移動,拇指和食指捏合就能開火。擊中氣球的瞬間,屏幕會輕微震動,氣球爆開時有粒子特效散開,還有“啵”的一聲音效,反饋感做得很足。連續擊中會顯示combo數字,這種即時反饋確實有代入感。
但實際玩起來有個明顯的問題:瞄不準。手指明明對著一個氣球,但準星位置總是偏的,打了好幾發才能碰巧打中。這應該是手部追蹤和屏幕坐標映射之間有偏差,或者校準算法不夠精確。雖然Qwen做出了體感控制的完整流程:攝像頭調用、手勢識別、射擊反饋這些環節都跑通了,但核心的“指哪打哪”這個精度沒做好,導致游戲性打了折扣。
不過,千問這次最厲害的地方,不是參數有多大,而是它“想問題”的方式變了。在關鍵的模型推理能力提升中,千問新模型采用了一種全新的測試時擴展(Test-time Scaling)機制,推理性能提升的同時還更經濟。
打個比方,以前的AI做數學題是這樣的:同時寫10份答案,然后投票看哪個對的人多,就選哪個。這種方法很笨,浪費算力,而且10份答案里可能犯的都是同一個錯誤。
Qwen3改成了人類的做法:先做一遍,做完看看哪里不對,總結一下經驗,再重新做。就像你做錯題本一樣,第二遍肯定比第一遍做得好。結果就是,在那個需要用工具解決問題的測試里,Qwen拿了58.3分,Gemini只有45.8分,差了一大截。
在調用工具層面,千問的做法是把工具使用能力“訓練進”模型里,在完成初步的工具使用微調后,通義團隊對模型進一步在大量多樣化任務上進行了基于規則獎勵與模型獎勵的聯合強化學習訓練,使得Qwen3-Max-Thinking擁有更智能結合工具進行思考的能力。
它用三步訓練法:先教會用工具,再在各種任務里強化練習,最后形成條件反射。好處很明顯:用起來又快又順,不用每次都去讀工具說明書,而且模型自己知道該在什么時候用什么工具。這就是為什么Qwen在HLE測試里比Gemini高出12分,特別是需要連續用好幾個工具解決復雜問題的時候,這種“肌肉記憶”優勢就體現出來了。
對比之下,Gemini走的是傳統軟件工程的路子:模型只負責理解你要干什么,具體調工具靠外部API框架。這樣做最大的好處是靈活:Google想接入沃爾瑪的購物功能,不用重新訓練模型,插個API就行。但代價是每次用工具都要走“理解意圖—翻譯成API調用—執行—解析結果”這一整套流程,慢而且容易出錯。
千問的代碼生成能力,已超越單純的“語法翻譯器”,更像一位理解你意圖的技術伙伴。它不僅能將需求轉化為可運行的代碼,更具備工程直覺:知道何時優化性能、何時簡化實現、何時添加容錯機制。
這種“度”的把握,恰恰是AI從“工具”走向“協作者”的關鍵躍遷。
![]()
點個“愛心”,再走 吧
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.