<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      千問版Gemini3,來了

      0
      分享至


      作者 | Yoky
      郵箱 | yokyliu@pingwest.com

      第一個國產版Gemini3,來了。

      1月26日,阿里正式發布千問旗艦推理模型Qwen3-Max-Thinking。

      據介紹,Qwen3-Max-Thinking總參數超萬億、預訓練數據量高達36T Tokens,在科學知識(GPQA Diamond)、數學推理(IMO-AnswerBench)、代碼編程(LiveCodeBench)等多項權威評測中刷新了全球紀錄。它在數學推理AIME 25和HMMT 25上拿到了國內首個雙滿分,甚至在“人類最后的測試”HLE中得分58.3,大幅超過GPT-5.2-Thinking的45.5和Gemini 3 Pro的45.8。


      更關鍵的是時間點。如果你最近關注AI圈,會發現各家大模型廠商都在憋大招,阿里搶在這個節骨眼上發布Qwen3-Max-Thinking,擺明了就是要搶“國產第一個Gemini 3”的名號。

      榜單數據再好看,到底能不能媲美Gemini3?

      試了幾次Qwen生成代碼,前幾次任務失敗率還挺高的,但只要碰到阿里擅長的場景,表現就完全不一樣。比如讓它做一個賣水果的電商網站,商品分類、加購物車、一起結算這些功能,基本一次就寫出來了,而且邏輯很完整,體驗也流暢。很明顯,電商這種場景它見得太多了,淘寶天貓的數據喂得夠飽,所以做起來特別順手。

      但換成其他類型的任務,成功率就不太穩定了。如果你的需求正好在它的舒適區里,那體驗確實要相對好;如果偏離了,可能得多試幾次調整提示詞。

      我還專門測試了一個更復雜的交互案例:用攝像頭做體感控制的打氣球游戲,這也是Gemini 3展示過的經典demo。具體需求是:用手勢控制屏幕上的準星,做捏合動作(拇指和食指并攏)來射擊從下往上飄的氣球,還要有天空背景、云層漂移、擊中特效、連擊反饋這些細節。

      千問的表現讓我有點意外。整個游戲的框架它一次就搭出來了:天空漸變背景、氣球從底部生成往上飄、大小不同速度不同、UI顯示分數和連擊數,這些基礎邏輯都沒問題。

      交互效果做得挺有意思。伸出食指,屏幕上的準星就會跟著手移動,拇指和食指捏合就能開火。擊中氣球的瞬間,屏幕會輕微震動,氣球爆開時有粒子特效散開,還有“啵”的一聲音效,反饋感做得很足。連續擊中會顯示combo數字,這種即時反饋確實有代入感。

      但實際玩起來有個明顯的問題:瞄不準。手指明明對著一個氣球,但準星位置總是偏的,打了好幾發才能碰巧打中。這應該是手部追蹤和屏幕坐標映射之間有偏差,或者校準算法不夠精確。雖然Qwen做出了體感控制的完整流程:攝像頭調用、手勢識別、射擊反饋這些環節都跑通了,但核心的“指哪打哪”這個精度沒做好,導致游戲性打了折扣。

      不過,千問這次最厲害的地方,不是參數有多大,而是它“想問題”的方式變了。在關鍵的模型推理能力提升中,千問新模型采用了一種全新的測試時擴展(Test-time Scaling)機制,推理性能提升的同時還更經濟。

      打個比方,以前的AI做數學題是這樣的:同時寫10份答案,然后投票看哪個對的人多,就選哪個。這種方法很笨,浪費算力,而且10份答案里可能犯的都是同一個錯誤。

      Qwen3改成了人類的做法:先做一遍,做完看看哪里不對,總結一下經驗,再重新做。就像你做錯題本一樣,第二遍肯定比第一遍做得好。結果就是,在那個需要用工具解決問題的測試里,Qwen拿了58.3分,Gemini只有45.8分,差了一大截。

      在調用工具層面,千問的做法是把工具使用能力“訓練進”模型里,在完成初步的工具使用微調后,通義團隊對模型進一步在大量多樣化任務上進行了基于規則獎勵與模型獎勵的聯合強化學習訓練,使得Qwen3-Max-Thinking擁有更智能結合工具進行思考的能力。

      它用三步訓練法:先教會用工具,再在各種任務里強化練習,最后形成條件反射。好處很明顯:用起來又快又順,不用每次都去讀工具說明書,而且模型自己知道該在什么時候用什么工具。這就是為什么Qwen在HLE測試里比Gemini高出12分,特別是需要連續用好幾個工具解決復雜問題的時候,這種“肌肉記憶”優勢就體現出來了。

      對比之下,Gemini走的是傳統軟件工程的路子:模型只負責理解你要干什么,具體調工具靠外部API框架。這樣做最大的好處是靈活:Google想接入沃爾瑪的購物功能,不用重新訓練模型,插個API就行。但代價是每次用工具都要走“理解意圖—翻譯成API調用—執行—解析結果”這一整套流程,慢而且容易出錯。

      千問的代碼生成能力,已超越單純的“語法翻譯器”,更像一位理解你意圖的技術伙伴。它不僅能將需求轉化為可運行的代碼,更具備工程直覺:知道何時優化性能、何時簡化實現、何時添加容錯機制。

      這種“度”的把握,恰恰是AI從“工具”走向“協作者”的關鍵躍遷。


      點個愛心,再走 吧

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      火箭擊敗老鷹,賽后3個好消息1個壞消息,伊森和申京能換字母哥?

      火箭擊敗老鷹,賽后3個好消息1個壞消息,伊森和申京能換字母哥?

      鄒維體育
      2026-01-30 11:34:49
      陪讀媽媽怒懟牢A,脖子上的“認主項鏈”被滬爺認出,暴露真相

      陪讀媽媽怒懟牢A,脖子上的“認主項鏈”被滬爺認出,暴露真相

      妍妍教育日記
      2026-01-27 20:19:13
      詹姆斯大幅降薪!?勇士梭哈字母!

      詹姆斯大幅降薪!?勇士梭哈字母!

      柚子說球
      2026-01-30 12:34:58
      兩性關系:70歲后想多活20年,牢記這5句話,健康長壽少煩惱

      兩性關系:70歲后想多活20年,牢記這5句話,健康長壽少煩惱

      匹夫來搞笑
      2026-01-22 12:05:40
      17戰16勝,勇士找到贏球秘訣!一人力壓庫里成最佳 5大奇兵更該夸

      17戰16勝,勇士找到贏球秘訣!一人力壓庫里成最佳 5大奇兵更該夸

      鍋子籃球
      2026-01-29 14:22:42
      布魯克林分享愛妻愜意床照,妮可拉赤裸上身瘦脫相,原因令人稱贊

      布魯克林分享愛妻愜意床照,妮可拉赤裸上身瘦脫相,原因令人稱贊

      夜深愛雜談
      2026-01-28 22:52:08
      胡靜現身昆明菜市場,主打一個接地氣,毫無明星架子。

      胡靜現身昆明菜市場,主打一個接地氣,毫無明星架子。

      可樂談情感
      2026-01-30 05:48:33
      薛佳凝自曝金價300多元一克時,買了兩公斤!有個男演員當時買了9公斤

      薛佳凝自曝金價300多元一克時,買了兩公斤!有個男演員當時買了9公斤

      現代快報
      2026-01-29 14:26:10
      中國垃圾真不夠燒了:真相,遠沒那么簡單

      中國垃圾真不夠燒了:真相,遠沒那么簡單

      正解局
      2026-01-29 17:15:02
      星光黯淡!海斯布萊恩特參加扣籃大賽 三屆扣籃王麥克朗不再參賽

      星光黯淡!海斯布萊恩特參加扣籃大賽 三屆扣籃王麥克朗不再參賽

      羅說NBA
      2026-01-30 06:38:29
      偉大的2-0!中國金花直通澳網決賽:解鎖2大成就,爭冠對手確定!

      偉大的2-0!中國金花直通澳網決賽:解鎖2大成就,爭冠對手確定!

      劉姚堯的文字城堡
      2026-01-29 16:33:24
      滬指失守4100點,日內跌超1.5%

      滬指失守4100點,日內跌超1.5%

      每日經濟新聞
      2026-01-30 10:24:27
      美國政府又“停擺”?特朗普發聲!黃金、白銀再爆發!

      美國政府又“停擺”?特朗普發聲!黃金、白銀再爆發!

      證券時報e公司
      2026-01-30 08:13:06
      國籍爭議不到1年,人民日報公開點名谷愛凌,鄧亞萍的話有人信了

      國籍爭議不到1年,人民日報公開點名谷愛凌,鄧亞萍的話有人信了

      閱微札記
      2025-12-22 14:28:33
      四川省委常委會召開會議 堅決擁護黨中央對包惠涉嫌嚴重違紀違法進行紀律審查和監察調查的決定

      四川省委常委會召開會議 堅決擁護黨中央對包惠涉嫌嚴重違紀違法進行紀律審查和監察調查的決定

      環球網資訊
      2026-01-29 19:02:10
      陳夢沒想到,自己創辦的乒乓學校,出了個男單冠軍,成了國乒希望

      陳夢沒想到,自己創辦的乒乓學校,出了個男單冠軍,成了國乒希望

      胡一舸南游y
      2026-01-30 12:28:21
      獲“救命錢”后,賈國龍攤牌:累計虧損將超6億!他終于認清自己

      獲“救命錢”后,賈國龍攤牌:累計虧損將超6億!他終于認清自己

      社會日日鮮
      2026-01-27 13:22:49
      中方開始清場?日本下令,所有漁船撤離釣魚島,高市當眾哭泣!

      中方開始清場?日本下令,所有漁船撤離釣魚島,高市當眾哭泣!

      悠悠寫故事
      2026-01-28 17:37:46
      什么是性成癮?患者自述:比煙癮、酒癮厲害多了,比戒毒還難

      什么是性成癮?患者自述:比煙癮、酒癮厲害多了,比戒毒還難

      泠泠說史
      2025-10-30 15:20:45
      山西婚鬧致死案:新郎被4個伴郎暴打致死,婚禮結束直接辦喪事

      山西婚鬧致死案:新郎被4個伴郎暴打致死,婚禮結束直接辦喪事

      明智家庭教育
      2025-12-02 11:20:34
      2026-01-30 13:08:49
      硅星人 incentive-icons
      硅星人
      硅(Si)是創造未來的基礎,歡迎來到這個星球。
      2830文章數 10432關注度
      往期回顧 全部

      科技要聞

      單季狂賺3000億;iPhone 17 全球賣瘋了!

      頭條要聞

      英國、法國、加拿大、日本等11國聯合發聲:強烈譴責

      頭條要聞

      英國、法國、加拿大、日本等11國聯合發聲:強烈譴責

      體育要聞

      敢揍多爾特,此子必成大器?

      娛樂要聞

      金晨出事前 曾靈魂發問未收到春晚邀請

      財經要聞

      血鉛超標工人,擋在“勞動關系”門檻外

      汽車要聞

      全面科技化 新款梅賽德斯-奔馳S級發布

      態度原創

      健康
      數碼
      教育
      本地
      軍事航空

      耳石癥分類型,癥狀大不同

      數碼要聞

      英偉達GeForce NOW云游戲服務正式推出Linux原生應用

      教育要聞

      湖南科技大學就業好不好?成功創業者頻出,以創業有效帶動就業!

      本地新聞

      云游中國|撥開云霧,巫山每幀都是航拍大片

      軍事要聞

      中方被指支持俄生產武器 外交部回應

      無障礙瀏覽 進入關懷版