<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      那個用半成品刷爆SOTA的Qwen3超大杯推理版,現在正式上線

      0
      分享至

      魚羊 發自 凹非寺
      量子位 | 公眾號 QbitAI

      新一年的基礎模型競逐,沒想到是阿里千問率先出手了!

      就在剛剛,Qwen3-Max-Thinking正式版突然發布,當即刷新全球SOTA:

      在涵蓋科學知識、數學推理、代碼編程的19項權威基準測試中,趕上甚至超越GPT-5.2-Thinking、Claude-Opus-4.5和Gemini 3 Pro等TOP閉源模型。



      p.s. 此前這一超大杯推理模型的“早期預覽版”,已經在AIME 25和HMMT 25(哈佛-MIT數學競賽)中達到100%的準確率。

      量子位了解到,完全體的Qwen3-Max-Thinking總參數超萬億(1T),預訓練數據量高達36T Tokens,并且進行了更大規模的強化學習后訓練。

      核心技術方面,通過引入自適應工具調用測試時擴展兩項技術創新,Qwen3-Max-Thinking的推理性能調用工具的原生Agent能力都有顯著提升。

      千問APP PC端和網頁端已經第一時間上新這一Qwen系列最強模型,現在即可免費體驗。API(qwen3-max-2026-01-23)也已開放。

      Qwen3超大杯推理版實測

      話不多說,Qwen3超大杯推理版到底有多強,我們直接來看效果。

      代碼能力

      現場寫一個小游戲,對大模型們來說早已不是難事,什么貪食蛇、flappy bird基本都能輕松搞定。

      如果再加上一點難度,讓Qwen3-Max-Thinking在網頁小游戲里加上手勢識別呢?

      • 創建一個基于瀏覽器的氣球射擊游戲,使用天空背景,并通過攝像頭跟蹤用戶的手部動作來控制屏幕上的指針。

      還真能work!并且在prompt的指導下,細節也都到位:

      瞄準動作下,屏幕左上方會顯示“瞄準中”的狀態;雙指捏合觸發射擊時,能瞬間轉換“射擊!”提示;如果手出框了,還會出現紅色高亮提醒。



      完整prompt如下:

      prompt:“Create a browser-based balloon shooter with a sky background, using the webcam to track a user’s hand and control an on-screen pointer.Core requirements1. Sky screen- Fullscreen sky backdrop (gradient + soft clouds OR skybox).- Subtle parallax and gentle cloud drift for depth.2. Balloons- Spawn balloons from the bottom and drift upward with slight side-to-side motion.- Different sizes (small = faster / worth more, large = slower / worth less).- Optional wind gusts that shift all balloons briefly.3. Hand pointer- Use real-time hand tracking from the camera.- Track index fingertip and map it to screen coordinates.- Render a crosshair/pointer at that position.- Add smoothing so the pointer doesn’t jitter (exponential moving average).4. Shooting- Shooting gesture: pinch (thumb + index) to fire.- Add a cooldown (e.g., 150–250ms) to prevent accidental rapid-fire.- When firing, do a raycast / hit-test from the pointer to balloons.- If hit: pop balloon + add score + combo streak feedback.5. Feedback- Pop VFX: quick burst particles + optional “rubber fragments.”- Small screen shake or micro “kick” on hit (subtle).- Sound toggle (pop + whoosh).6. UI (simple + modern)- Minimal HUD: score, combo, and a small “calibration” indicator.- Settings drawer: sensitivity, smoothing, spawn rate, difficulty, left/right hand selection.- Fallback controls: mouse pointer + click if camera isn’t available.7. Calibration & stabilityInclude a calibration step:- Ask the user to hold their hand in view and point to screen corners to fit mapping.- Handle low-confidence frames:- If hand not detected, fade crosshair and show “Hand not found” hint.prompt:“Create a browser-based balloon shooter with a sky background, using the webcam to track a user’s hand and control an on-screen pointer.Core requirements

      再來一手經典難度題:鵜鶘騎自行車。

      • An animated SVG of a pelican riding a bicycle.

      emmm…談不上完美,但鑒于給出的提示詞比較簡略,至少確實是那么個意思了(doge)。



      工具調用

      此次更新,官方重點強調了兩方面的能力提升:推理能力和自主調用工具的原生Agent能力。

      剛好最近在關注內存漲價這事兒,不妨讓Qwen3-Max-Thinking直接幫我們分析一波,寫份研報。

      提示詞:

      • 最近內存價格瘋漲,幫我分析下哪些股票受到了影響,畫出相關股價走勢



      從側邊欄顯示的思考細節可以看到,Qwen3-Max-Thinking先是自主上網收集好了資料,然后調用代碼解釋器做起了數據分析和繪圖,就像人類一樣是邊用工具邊思考的。

      不到1分鐘時間,一份囊括漲價原因、受益/受損產業分析、下一階段存儲芯片產業走勢的完整報告,就新鮮出爐了。

      技術解析

      在模型上線的同時,阿里千問團隊也通過官方技術博客,透露了Qwen3-Max-Thinking的不少技術細節。

      技術博客提到,Qwen3-Max-Thinking在事實知識、復雜推理、指令遵循、人類偏好對齊以及智能體能力等評估維度上都實現了顯著提升。

      背后有兩項核心創新:

      • 自適應工具調用能力,可按需調用搜索引擎和代碼解釋器;
      • 測試時擴展技術(Test-Time Scaling),顯著提升推理性能。

      來看具體細節。

      自適應工具調用

      與早期需要用戶手動選擇工具的方法不同,通過引入自適應工具調用,Qwen3-Max-Thinking能在對話中自主選擇并調用其內置的搜索、記憶和代碼解釋器功能。

      比如,搜索《醉翁亭記》全文,并調用代碼解釋器把所有的“也”替換成“喵”。



      最終的完成效果如下:



      在此背后,阿里千問團隊專門設計了一套訓練流程:

      在完成初步的工具使用微調后,模型在多樣化任務上使用基于規則和模型的反饋來做進一步訓練。

      實驗表明,搜索和記憶工具能有效緩解幻覺,提供實時信息訪問,并支持更個性化的回復。代碼解釋器允許用戶執行代碼片段,并應用計算推理來解決復雜問題。

      測試時擴展技術

      測試時擴展是指在推理階段分配額外計算資源,以提升模型性能的技術。

      阿里千問團隊提出了一種經驗積累式、多輪迭代的測試時擴展策略

      不同于簡單增加并行推理路徑數量N(這往往會導致冗余推理),研究團隊限制N并將節省的計算資源用于由“經驗提取”機制引導的迭代式自我反思。

      這樣做的好處在于,模型不會推理著推理著又繞回到已經得出的結論上去,瘋狂廢話浪費token,而是會專注于未解決的不確定性。

      更關鍵的是,相比于直接引用原始推理軌跡,該機制實現了更高的上下文利用效率,在相同上下文窗口內能更充分地融合歷史信息。

      實驗證明,在大致相同的token消耗下,該方法優于標準的并行采樣與聚合方法,推理性能和推理效率大幅提升。

      比如,在啟用工具的“人類最后的測試”HLE中,Qwen3-Max-Thinking得分58.3,超過GPT-5.2-Thinking的45.5,以及Gemini 3 Pro的45.8,刷新SOTA。

      在IMO難度級別的數學能力測試基準IMO-AnswerBench上,Qwen3-Max-Thinking也以91.5的成績拿下全場最高分。



      中國開源持續席卷世界

      意料之中,2026年的第一個重量級模型更新,再次來自中國。

      而有些意料之外但也在情理之中的是,這一次率先出手的,是阿里千問。

      根據MIT-Hugging Face數據,在全球22億次模型下載行為之中,中國開源AI模型的采用份額已經躍升至17.1%,超過了美國的15.8%。

      在過去一年內新發布的模型中,中國模型的下載量穩居第一。



      在其中,從迭代頻率、下載量和社區影響力來看,千問系列拔得頭籌。



      Hugging Face的最新數據顯示,阿里千問系列衍生模型數量突破20萬個,成為全球首個達成此目標的開源大模型。同時,千問系列模型下載量突破10億次,平均每天被下載110萬次,完全超越Llama,實際上已經成為全球AI開源界的新標桿。



      值得關注的是,在飛快壯大自身開源、頂級模型影響力的同時,阿里也已在實踐中揭示了2026年模型廠商的新著力點——

      將頂尖模型能力和應用生態體系做更深入的結合。

      日前,千問APP已全面接入淘寶、支付寶、淘寶閃購、飛豬、高德等阿里生態業務。

      可以預見的是,2026基礎模型還將持續增強,并且更深入地與各個垂直領域、與實際生活相結合,在落地實踐中展現更多應用的可能。

      第一炮已經打響,期待中國開源延續2025年的勢頭,持續給世界帶來新驚喜~

      官網地址:
      https://chat.qwen.ai/

      — 完 —

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      《我是刑警》原型,四人血洗煤礦、兄弟相殘,鶴崗128案真相還原

      《我是刑警》原型,四人血洗煤礦、兄弟相殘,鶴崗128案真相還原

      史記趣聞
      2025-01-08 20:50:03
      紫金礦業:擬280億元收購聯合黃金100%股權

      紫金礦業:擬280億元收購聯合黃金100%股權

      每日經濟新聞
      2026-01-26 21:10:02
      突發!廣東隊2米11中鋒,意外受到重傷,被隊友攙扶下場 令人擔憂

      突發!廣東隊2米11中鋒,意外受到重傷,被隊友攙扶下場 令人擔憂

      體育哲人
      2026-01-26 22:03:46
      央視怒批,人民日報點名封殺,這5位目無法紀的大網紅,徹底涼涼

      央視怒批,人民日報點名封殺,這5位目無法紀的大網紅,徹底涼涼

      一娛三分地
      2025-12-04 17:00:33
      于適聯手葛曉倩,報復張雨綺!

      于適聯手葛曉倩,報復張雨綺!

      八卦瘋叔
      2026-01-25 11:06:43
      2026秋冬巴黎男裝周ISSUE 02:打破想象與實穿的邊界

      2026秋冬巴黎男裝周ISSUE 02:打破想象與實穿的邊界

      風度mensuno
      2026-01-26 19:04:05
      大伯從不在乎人情世故,我出嫁時他沒隨禮,卻把我叫到了門口

      大伯從不在乎人情世故,我出嫁時他沒隨禮,卻把我叫到了門口

      五元講堂
      2026-01-01 07:10:03
      黃景瑜官宣上太空剛過一天,航天公司被扒底朝天,離譜事接連發生

      黃景瑜官宣上太空剛過一天,航天公司被扒底朝天,離譜事接連發生

      一娛三分地
      2026-01-24 19:27:30
      壽命與大便次數有關?研究發現:壽命長的人,每天排便在這個次數

      壽命與大便次數有關?研究發現:壽命長的人,每天排便在這個次數

      DrX說
      2025-10-24 14:15:19
      1968年,林彪想換北京軍區司令,毛主席只問了一句話,林彪徹底啞火

      1968年,林彪想換北京軍區司令,毛主席只問了一句話,林彪徹底啞火

      老杉說歷史
      2026-01-09 22:00:17
      斷崖式下跌!中國人突然不愛喝酒了?真相太扎心!

      斷崖式下跌!中國人突然不愛喝酒了?真相太扎心!

      達文西看世界
      2026-01-18 20:56:11
      全新奧迪A4L上市!售價親民,年輕外觀更動感,搭2.0T+7速雙離合

      全新奧迪A4L上市!售價親民,年輕外觀更動感,搭2.0T+7速雙離合

      小史談車
      2026-01-24 11:30:03
      馬年給孩子發紅包有講究,避開“3個數”,既不得罪人寓意又好

      馬年給孩子發紅包有講究,避開“3個數”,既不得罪人寓意又好

      小書蟲媽媽
      2026-01-25 22:55:43
      現貨白銀漲超11%

      現貨白銀漲超11%

      財聯社
      2026-01-27 01:06:04
      事業巔峰遠赴美國,被老外“玩膩”后晚年回國,如今變成了這樣!

      事業巔峰遠赴美國,被老外“玩膩”后晚年回國,如今變成了這樣!

      歸史
      2025-12-09 11:10:44
      上海炒股大賽冠軍的箴言:如果手里只有10萬,不妨死磕"七大口訣"

      上海炒股大賽冠軍的箴言:如果手里只有10萬,不妨死磕"七大口訣"

      一方聊市
      2026-01-19 13:13:48
      外網網友太有才!這 P 圖簡直是維多利亞 “本色出演”

      外網網友太有才!這 P 圖簡直是維多利亞 “本色出演”

      述家娛記
      2026-01-23 10:04:59
      全球首個戰術“方盒子”來襲,硬派SUV鼻祖,媲美大G,劍指坦克700!

      全球首個戰術“方盒子”來襲,硬派SUV鼻祖,媲美大G,劍指坦克700!

      隔壁說車老王
      2026-01-27 00:06:57
      阿根廷2002韓日世界杯陣容這么豪華 為啥3場2球4分!小組賽就出局

      阿根廷2002韓日世界杯陣容這么豪華 為啥3場2球4分!小組賽就出局

      體壇八點半的那些事兒
      2026-01-26 19:48:30
      交易大地震!詹姆斯!騎士!

      交易大地震!詹姆斯!騎士!

      老壥說體育
      2026-01-26 15:31:53
      2026-01-27 03:39:00
      量子位 incentive-icons
      量子位
      追蹤人工智能動態
      12065文章數 176362關注度
      往期回顧 全部

      科技要聞

      印奇再上牌桌,階躍融資50億

      頭條要聞

      印度尼帕病毒現跨區域傳播 世衛:或引起全球大流行

      頭條要聞

      印度尼帕病毒現跨區域傳播 世衛:或引起全球大流行

      體育要聞

      叛逆的大公子,要砸了貝克漢姆這塊招牌

      娛樂要聞

      張雨綺被抵制成功!遼視春晚已將她除名

      財經要聞

      從美式斬殺線看中國社會的制度韌性構建

      汽車要聞

      賓利第四臺Batur敞篷版發布 解鎖四項定制創新

      態度原創

      教育
      房產
      時尚
      游戲
      本地

      教育要聞

      武漢燃氣熱力學校有藝考嗎?答案揭曉!

      房產要聞

      突發!三亞官宣,調整安居房政策!

      甜了10年,超多曖昧細節,全網求他倆原地結婚

      獵魂世界:先遣服1.5版本新內容匯總!這第7魂環真是夠那個了!

      本地新聞

      云游中國|格爾木的四季朋友圈,張張值得你點贊

      無障礙瀏覽 進入關懷版