<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      那個用半成品刷爆SOTA的Qwen3超大杯推理版,現在正式上線

      0
      分享至

      魚羊 發自 凹非寺
      量子位 | 公眾號 QbitAI

      新一年的基礎模型競逐,沒想到是阿里千問率先出手了!

      就在剛剛,Qwen3-Max-Thinking正式版突然發布,當即刷新全球SOTA:

      在涵蓋科學知識、數學推理、代碼編程的19項權威基準測試中,趕上甚至超越GPT-5.2-Thinking、Claude-Opus-4.5和Gemini 3 Pro等TOP閉源模型。



      p.s. 此前這一超大杯推理模型的“早期預覽版”,已經在AIME 25和HMMT 25(哈佛-MIT數學競賽)中達到100%的準確率。

      量子位了解到,完全體的Qwen3-Max-Thinking總參數超萬億(1T),預訓練數據量高達36T Tokens,并且進行了更大規模的強化學習后訓練。

      核心技術方面,通過引入自適應工具調用測試時擴展兩項技術創新,Qwen3-Max-Thinking的推理性能調用工具的原生Agent能力都有顯著提升。

      千問APP PC端和網頁端已經第一時間上新這一Qwen系列最強模型,現在即可免費體驗。API(qwen3-max-2026-01-23)也已開放。

      Qwen3超大杯推理版實測

      話不多說,Qwen3超大杯推理版到底有多強,我們直接來看效果。

      代碼能力

      現場寫一個小游戲,對大模型們來說早已不是難事,什么貪食蛇、flappy bird基本都能輕松搞定。

      如果再加上一點難度,讓Qwen3-Max-Thinking在網頁小游戲里加上手勢識別呢?

      • 創建一個基于瀏覽器的氣球射擊游戲,使用天空背景,并通過攝像頭跟蹤用戶的手部動作來控制屏幕上的指針。

      還真能work!并且在prompt的指導下,細節也都到位:

      瞄準動作下,屏幕左上方會顯示“瞄準中”的狀態;雙指捏合觸發射擊時,能瞬間轉換“射擊!”提示;如果手出框了,還會出現紅色高亮提醒。



      完整prompt如下:

      prompt:“Create a browser-based balloon shooter with a sky background, using the webcam to track a user’s hand and control an on-screen pointer.Core requirements1. Sky screen- Fullscreen sky backdrop (gradient + soft clouds OR skybox).- Subtle parallax and gentle cloud drift for depth.2. Balloons- Spawn balloons from the bottom and drift upward with slight side-to-side motion.- Different sizes (small = faster / worth more, large = slower / worth less).- Optional wind gusts that shift all balloons briefly.3. Hand pointer- Use real-time hand tracking from the camera.- Track index fingertip and map it to screen coordinates.- Render a crosshair/pointer at that position.- Add smoothing so the pointer doesn’t jitter (exponential moving average).4. Shooting- Shooting gesture: pinch (thumb + index) to fire.- Add a cooldown (e.g., 150–250ms) to prevent accidental rapid-fire.- When firing, do a raycast / hit-test from the pointer to balloons.- If hit: pop balloon + add score + combo streak feedback.5. Feedback- Pop VFX: quick burst particles + optional “rubber fragments.”- Small screen shake or micro “kick” on hit (subtle).- Sound toggle (pop + whoosh).6. UI (simple + modern)- Minimal HUD: score, combo, and a small “calibration” indicator.- Settings drawer: sensitivity, smoothing, spawn rate, difficulty, left/right hand selection.- Fallback controls: mouse pointer + click if camera isn’t available.7. Calibration & stabilityInclude a calibration step:- Ask the user to hold their hand in view and point to screen corners to fit mapping.- Handle low-confidence frames:- If hand not detected, fade crosshair and show “Hand not found” hint.prompt:“Create a browser-based balloon shooter with a sky background, using the webcam to track a user’s hand and control an on-screen pointer.Core requirements

      再來一手經典難度題:鵜鶘騎自行車。

      • An animated SVG of a pelican riding a bicycle.

      emmm…談不上完美,但鑒于給出的提示詞比較簡略,至少確實是那么個意思了(doge)。



      工具調用

      此次更新,官方重點強調了兩方面的能力提升:推理能力和自主調用工具的原生Agent能力。

      剛好最近在關注內存漲價這事兒,不妨讓Qwen3-Max-Thinking直接幫我們分析一波,寫份研報。

      提示詞:

      • 最近內存價格瘋漲,幫我分析下哪些股票受到了影響,畫出相關股價走勢



      從側邊欄顯示的思考細節可以看到,Qwen3-Max-Thinking先是自主上網收集好了資料,然后調用代碼解釋器做起了數據分析和繪圖,就像人類一樣是邊用工具邊思考的。

      不到1分鐘時間,一份囊括漲價原因、受益/受損產業分析、下一階段存儲芯片產業走勢的完整報告,就新鮮出爐了。

      技術解析

      在模型上線的同時,阿里千問團隊也通過官方技術博客,透露了Qwen3-Max-Thinking的不少技術細節。

      技術博客提到,Qwen3-Max-Thinking在事實知識、復雜推理、指令遵循、人類偏好對齊以及智能體能力等評估維度上都實現了顯著提升。

      背后有兩項核心創新:

      • 自適應工具調用能力,可按需調用搜索引擎和代碼解釋器;
      • 測試時擴展技術(Test-Time Scaling),顯著提升推理性能。

      來看具體細節。

      自適應工具調用

      與早期需要用戶手動選擇工具的方法不同,通過引入自適應工具調用,Qwen3-Max-Thinking能在對話中自主選擇并調用其內置的搜索、記憶和代碼解釋器功能。

      比如,搜索《醉翁亭記》全文,并調用代碼解釋器把所有的“也”替換成“喵”。



      最終的完成效果如下:



      在此背后,阿里千問團隊專門設計了一套訓練流程:

      在完成初步的工具使用微調后,模型在多樣化任務上使用基于規則和模型的反饋來做進一步訓練。

      實驗表明,搜索和記憶工具能有效緩解幻覺,提供實時信息訪問,并支持更個性化的回復。代碼解釋器允許用戶執行代碼片段,并應用計算推理來解決復雜問題。

      測試時擴展技術

      測試時擴展是指在推理階段分配額外計算資源,以提升模型性能的技術。

      阿里千問團隊提出了一種經驗積累式、多輪迭代的測試時擴展策略

      不同于簡單增加并行推理路徑數量N(這往往會導致冗余推理),研究團隊限制N并將節省的計算資源用于由“經驗提取”機制引導的迭代式自我反思。

      這樣做的好處在于,模型不會推理著推理著又繞回到已經得出的結論上去,瘋狂廢話浪費token,而是會專注于未解決的不確定性。

      更關鍵的是,相比于直接引用原始推理軌跡,該機制實現了更高的上下文利用效率,在相同上下文窗口內能更充分地融合歷史信息。

      實驗證明,在大致相同的token消耗下,該方法優于標準的并行采樣與聚合方法,推理性能和推理效率大幅提升。

      比如,在啟用工具的“人類最后的測試”HLE中,Qwen3-Max-Thinking得分58.3,超過GPT-5.2-Thinking的45.5,以及Gemini 3 Pro的45.8,刷新SOTA。

      在IMO難度級別的數學能力測試基準IMO-AnswerBench上,Qwen3-Max-Thinking也以91.5的成績拿下全場最高分。



      中國開源持續席卷世界

      意料之中,2026年的第一個重量級模型更新,再次來自中國。

      而有些意料之外但也在情理之中的是,這一次率先出手的,是阿里千問。

      根據MIT-Hugging Face數據,在全球22億次模型下載行為之中,中國開源AI模型的采用份額已經躍升至17.1%,超過了美國的15.8%。

      在過去一年內新發布的模型中,中國模型的下載量穩居第一。



      在其中,從迭代頻率、下載量和社區影響力來看,千問系列拔得頭籌。



      Hugging Face的最新數據顯示,阿里千問系列衍生模型數量突破20萬個,成為全球首個達成此目標的開源大模型。同時,千問系列模型下載量突破10億次,平均每天被下載110萬次,完全超越Llama,實際上已經成為全球AI開源界的新標桿。



      值得關注的是,在飛快壯大自身開源、頂級模型影響力的同時,阿里也已在實踐中揭示了2026年模型廠商的新著力點——

      將頂尖模型能力和應用生態體系做更深入的結合。

      日前,千問APP已全面接入淘寶、支付寶、淘寶閃購、飛豬、高德等阿里生態業務。

      可以預見的是,2026基礎模型還將持續增強,并且更深入地與各個垂直領域、與實際生活相結合,在落地實踐中展現更多應用的可能。

      第一炮已經打響,期待中國開源延續2025年的勢頭,持續給世界帶來新驚喜~

      官網地址:
      https://chat.qwen.ai/

      — 完 —

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      俄烏打了三年,打窮了三個國家,富了三個國家,中國也在其中

      俄烏打了三年,打窮了三個國家,富了三個國家,中國也在其中

      林子說事
      2026-01-26 12:49:07
      U23亞洲杯結束僅1天,亞足聯宣布新消息,下屆分檔出爐 中國第3檔

      U23亞洲杯結束僅1天,亞足聯宣布新消息,下屆分檔出爐 中國第3檔

      大秦壁虎白話體育
      2026-01-26 08:14:34
      她用完所有積蓄給丈夫安葬后,在墓碑下睡了7個月.. 直到一天,她的“天使”出現了…

      她用完所有積蓄給丈夫安葬后,在墓碑下睡了7個月.. 直到一天,她的“天使”出現了…

      英國那些事兒
      2026-01-25 23:17:43
      外網網友太有才!這 P 圖簡直是維多利亞 “本色出演”

      外網網友太有才!這 P 圖簡直是維多利亞 “本色出演”

      述家娛記
      2026-01-23 10:04:59
      均勝電子:預計2025年凈利潤約13.5億元

      均勝電子:預計2025年凈利潤約13.5億元

      每日經濟新聞
      2026-01-27 00:24:05
      女人這兩件事,99%不會告訴男人,100%的男人都不知道

      女人這兩件事,99%不會告訴男人,100%的男人都不知道

      青蘋果sht
      2026-01-20 05:45:59
      徐彬加盟狼隊應該只剩下官宣!未來大概率被外租葡超,值得期待

      徐彬加盟狼隊應該只剩下官宣!未來大概率被外租葡超,值得期待

      懂個球
      2026-01-26 23:45:17
      近7輪獨造5球!曼聯水貨徹底蛻變 詹俊:這有阿莫林的功勞

      近7輪獨造5球!曼聯水貨徹底蛻變 詹俊:這有阿莫林的功勞

      球事百科吖
      2026-01-26 05:50:02
      天價索賠后,欣旺達還能穩當“老六”嗎?

      天價索賠后,欣旺達還能穩當“老六”嗎?

      財經無忌
      2026-01-26 17:35:06
      在美國買了房,房子是你的不假一旦你無力負擔房產稅照樣無家可歸

      在美國買了房,房子是你的不假一旦你無力負擔房產稅照樣無家可歸

      忠于法紀
      2025-12-23 21:02:38
      2026新門的澳027期最新內部精準一肖資料,精選預測特碼

      2026新門的澳027期最新內部精準一肖資料,精選預測特碼

      寧美汽車服務
      2026-01-27 01:03:16
      球霸?25歲安東尼失態!不滿被換下踹飛衣物包 怒視+飆臟話罵老帥

      球霸?25歲安東尼失態!不滿被換下踹飛衣物包 怒視+飆臟話罵老帥

      我愛英超
      2026-01-26 07:13:24
      央視曝光!致命游戲“夢回大唐”正通過學生社交群擴散!央媒發聲:別讓這些暗語藏匿在隱秘的角落

      央視曝光!致命游戲“夢回大唐”正通過學生社交群擴散!央媒發聲:別讓這些暗語藏匿在隱秘的角落

      每日經濟新聞
      2026-01-26 11:45:09
      馬年給孩子發紅包有講究,避開“3個數”,既不得罪人寓意又好

      馬年給孩子發紅包有講究,避開“3個數”,既不得罪人寓意又好

      小書蟲媽媽
      2026-01-25 22:55:43
      49歲李維嘉無婚無子,提醒不婚人士的生活選擇。

      49歲李維嘉無婚無子,提醒不婚人士的生活選擇。

      特約前排觀眾
      2026-01-27 00:15:06
      李銀橋在回憶錄中提及毛岸英犧牲需由彭德懷承擔一定責任,但這一表述缺乏充分依據,難以成立

      李銀橋在回憶錄中提及毛岸英犧牲需由彭德懷承擔一定責任,但這一表述缺乏充分依據,難以成立

      史海殘云
      2025-12-23 11:22:17
      澳網男單八強全出爐:前8號種子7人晉級+05后大滿貫八強第一人

      澳網男單八強全出爐:前8號種子7人晉級+05后大滿貫八強第一人

      全景體育V
      2026-01-26 20:43:02
      原來她是李亞鵬初戀,兩次退學比王菲還任性,只拍了一部戲就消失

      原來她是李亞鵬初戀,兩次退學比王菲還任性,只拍了一部戲就消失

      以茶帶書
      2026-01-26 20:16:57
      癌癥去世的人越來越多?醫生反復叮囑:寧可打打牌,也別做這5事

      癌癥去世的人越來越多?醫生反復叮囑:寧可打打牌,也別做這5事

      醫學原創故事會
      2026-01-25 22:54:04
      火葬場燒尸人:見慣了生離死別,最喜歡年輕漂亮的女尸

      火葬場燒尸人:見慣了生離死別,最喜歡年輕漂亮的女尸

      吳學華看天下
      2024-06-26 12:43:21
      2026-01-27 01:56:49
      量子位 incentive-icons
      量子位
      追蹤人工智能動態
      12065文章數 176362關注度
      往期回顧 全部

      科技要聞

      印奇再上牌桌,階躍融資50億

      頭條要聞

      女子被丈夫和閨蜜背叛一夜白頭:聽到兒子叫第三者媽媽

      頭條要聞

      女子被丈夫和閨蜜背叛一夜白頭:聽到兒子叫第三者媽媽

      體育要聞

      叛逆的大公子,要砸了貝克漢姆這塊招牌

      娛樂要聞

      張雨綺被抵制成功!遼視春晚已將她除名

      財經要聞

      從美式斬殺線看中國社會的制度韌性構建

      汽車要聞

      賓利第四臺Batur敞篷版發布 解鎖四項定制創新

      態度原創

      房產
      藝術
      本地
      健康
      家居

      房產要聞

      突發!三亞官宣,調整安居房政策!

      藝術要聞

      沙特急剎車,NEOM規模大縮水,線性摩天樓留小段

      本地新聞

      云游中國|格爾木的四季朋友圈,張張值得你點贊

      耳石脫落為何讓人天旋地轉+惡心?

      家居要聞

      流韻雅居,讓復雜變純粹

      無障礙瀏覽 進入關懷版