<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      剛剛,阿里旗艦模型Qwen3-Max-Thinking發布,編程能力“踢館”Gemini與Claude

      0
      分享至


      作者|冬梅

      1 阿里突發最強旗艦模型,總參數過萬億

      就在剛剛,Qwen3-Max-Thinking 正式版突然發布,總參數規模超過 1 萬億(1T),位于目前全球最大規模 AI 模型行列,預訓練數據規模高達 36T Tokens,覆蓋大量高質量語料。

      Qwen3-Max 是阿里通義團隊迄今規模最大、能力最強的語言模型,該版本包括 Base、Instruct 和 Thinking 多種形式。


      在多項權威基準測試中表現優異,Qwen3-Max-Thinking 性能可與 GPT-5.2-Thinking、Claude-Opus-4.5、Gemini-3 Pro 等閉源頂級模型競爭甚至超越。


      具體而言,Qwen3-Max-Thinking 在多項關鍵 AI 基準測試中達到了或刷新了全球 SOTA 表現:

      • 在包含事實科學知識、復雜推理和編程能力在內的 19 項權威基準測試中取得極高水平,有記錄顯示其綜合表現可媲美 GPT-5.2-Thinking、Claude-Opus-4.5 及 Gemini-3 Pro 等業內領先模型。

      • 在數學推理基準測試中,該模型曾在預覽階段實現 AIME 25 和 HMMT 25 滿分(即 100% 準確率),這一表現被認為代表了高難度數學推理能力。

      • 相較于此前的 Instruct 版本,Thinking 版本在 Agent 工具調用、復雜邏輯和深度推理任務中表現出更優的能力。

      這些測試覆蓋了科學知識問答(如 GPQA Diamond)、數學推理(如 IMO 等級測試)、代碼編程(如 LiveCodeBench)等多個領域,是衡量大型語言模型綜合能力的重要指標。


      為實現上述性能突破,千問團隊在官方博客中稱為 Qwen3-Max-Thinking 引入兩項核心創新:

      • 自適應工具調用能力,可按需調用搜索引擎和代碼解釋器,現已上線;

      • 測試時擴展技術(Test-Time Scaling),顯著提升推理性能,在關鍵推理基準上超越 Gemini 3 Pro。

      那么,這兩項核心創新到底什么意思?

      首先是自適應工具調用能力,據千問團隊介紹,與早期需要用戶手動選擇工具的方法不同,Qwen3-Max-Thinking 能在對話中自主選擇并調用其內置的搜索、記憶和代碼解釋器功能。

      該能力源于專門設計的訓練流程:在完成初步的工具使用微調后,模型在多樣化任務上使用基于規則和模型的反饋進行了進一步訓練。實驗表明,搜索和記憶工具能有效緩解幻覺、提供實時信息訪問并支持更個性化的回復。代碼解釋器允許用戶執行代碼片段并應用計算推理來解決復雜問題。這些功能共同提供了流暢且強大的對話體驗。

      再來說說測試時擴展。該技術是指在推理階段分配額外計算資源以提升模型性能的技術。研發團隊提出了一種經驗累積式、多輪迭代的測試時擴展策略。

      不同于簡單增加并行推理路徑數量 N(這往往導致冗余推理),團隊對并行軌跡數量進行限制并將節省的計算資源用于由“經驗提取”機制引導的迭代式自我反思。

      該機制從過往推理輪次中提煉關鍵洞見,使模型避免重復推導已知結論,轉而聚焦于未解決的不確定性。關鍵在于,相比直接引用原始推理軌跡,該機制實現了更高的上下文利用效率,在相同上下文窗口內能更充分地融合歷史信息。在大致相同的 token 消耗下,該方法持續優于標準的并行采樣與聚合方法:GPQA (90.3 → 92.8)、HLE (34.1 → 36.5)、LiveCodeBench v6 (88.0 → 91.4)、IMO-AnswerBench (89.5 → 91.5) 和 HLE (w/ tools) (55.8 → 58.3)。

      這些技術改善了模型處理復雜任務時的自主規劃、推理鏈構建和決策能力。

      千問 App PC 端和網頁端已經第一時間上新這一 Qwen 系列最強模型,現在即可免費體驗。API(qwen3-max-2026-01-23)也已開放。

      體驗地址:https://chat.qwen.ai/?spm=a2ty_o06.30285417.0.0.1ef4c921OJuiXU

      2 網友:中國大模型不負期待!

      在模型發布消息傳出后,社交平臺上也迅速出現了大量討論。一部分網友的關注點集中在模型能力本身,語氣中帶著明顯的驚訝與認可。

      有海外開發者在 X 上表示,自己已經習慣看到 Qwen 在多個榜單上“反超”其他模型。

      “Qwen 總是能跑贏其他模型,”一位用戶調侃道,同時也提出了更偏產品層面的期待,希望 Qwen 能在 Android 端做出“更簡潔、更有辨識度的應用設計”,認為模型能力已經走在前面,產品體驗還有進一步打磨空間。


      也有不少聲音將 Qwen 的發布節奏與國際頭部廠商作對比。一位網友直言,通義千問團隊在模型更新和能力披露上的頻率,甚至“已經超過了 OpenAI”。在他看來,這種持續、高密度的迭代和公開溝通,本身就是一種對開發者更友好的信號,至少讓外界清楚知道模型在什么階段、解決了哪些問題。


      還有用戶的反饋則更為直接。一位名為 Harriett Solid 的網友在評論中寫道:“這正是我一直在等的 Qwen 發布版本。”這類評價并未展開具體技術細節,但從情緒上看,顯然將 Qwen3-Max-Thinking 視為一次“到位”的升級,而不是過渡性產品。


      整體來看,網友評論呈現出兩個明顯特點:一方面,對 Qwen 在推理能力和更新速度上的認可度較高;另一方面,討論已經開始從“模型是否強”延伸到“產品體驗、生態建設是否匹配當前能力”。

      這也從側面反映出,隨著模型能力逼近甚至進入全球第一梯隊,外界對通義千問的期待,正在從單點技術突破,轉向更完整的產品與平臺層面。

      https://chat.qwen.ai/

      https://qwen.ai/blog?id=qwen3-max-thinking

      會議推薦

      InfoQ 2026 全年會議規劃已上線!從 AI Infra 到 Agentic AI,從 AI 工程化到產業落地,從技術前沿到行業應用,全面覆蓋 AI 與軟件開發核心賽道!集結全球技術先鋒,拆解真實生產案例、深挖技術與產業落地痛點,探索前沿領域、聚焦產業賦能,獲取實戰落地方案與前瞻產業洞察,高效實現技術價值轉化。把握行業變革關鍵節點,搶占 2026 智能升級發展先機!

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      整天開會有啥必要啊?

      整天開會有啥必要啊?

      北京老付
      2026-01-20 10:59:33
      32歲凱恩獲拜仁天價續約,背后是6500萬解約條款的恐慌

      32歲凱恩獲拜仁天價續約,背后是6500萬解約條款的恐慌

      浮萍足球
      2026-01-27 00:53:05
      內幕來了!中國雷達被正名,美媒:美軍向委內瑞拉投下電磁脈沖彈

      內幕來了!中國雷達被正名,美媒:美軍向委內瑞拉投下電磁脈沖彈

      安珈使者啊
      2026-01-26 16:20:59
      女護士處理男患者隱私部位,會感覺難為情嗎?美女護士說出大實話

      女護士處理男患者隱私部位,會感覺難為情嗎?美女護士說出大實話

      第7情感
      2025-09-17 12:12:15
      日本政壇大變局,新首相人選出爐,對華態度不簡單

      日本政壇大變局,新首相人選出爐,對華態度不簡單

      你笑的好甜美
      2026-01-27 11:35:32
      庫里26397分超名宿!沖歷史前十要多久?答案太意外

      庫里26397分超名宿!沖歷史前十要多久?答案太意外

      籃球看比賽
      2026-01-27 12:33:28
      500架巨額訂單!巴基斯坦出口“梟龍”賺的錢,中國會有分成嗎?

      500架巨額訂單!巴基斯坦出口“梟龍”賺的錢,中國會有分成嗎?

      軍武次位面
      2026-01-26 19:30:48
      為何近期中國沒有懟特朗普?原來是中國銘記了拿破侖的一句名言!

      為何近期中國沒有懟特朗普?原來是中國銘記了拿破侖的一句名言!

      我心縱橫天地間
      2026-01-27 12:58:53
      烏軍能否守住紅軍城?不能!

      烏軍能否守住紅軍城?不能!

      史政先鋒
      2025-11-17 16:09:20
      格陵蘭拒絕美國吞并!有國家跪求成為美國的州,為啥美國不要?

      格陵蘭拒絕美國吞并!有國家跪求成為美國的州,為啥美國不要?

      軍武次位面
      2026-01-26 19:28:37
      負債4091億的京東花169萬買條魚,劉強東以前吃了保守的虧?

      負債4091億的京東花169萬買條魚,劉強東以前吃了保守的虧?

      BT財經
      2026-01-27 07:00:03
      1951年,戴笠獨子被處決,蔣介石兩年后下令:他的子孫全接回臺灣

      1951年,戴笠獨子被處決,蔣介石兩年后下令:他的子孫全接回臺灣

      古書記史
      2025-12-11 17:37:45
      翟欣欣鄰居曝猛料:她被帶走時哭瘋了,父母跟著落淚,稱跟她無關

      翟欣欣鄰居曝猛料:她被帶走時哭瘋了,父母跟著落淚,稱跟她無關

      談史論天地
      2026-01-26 18:40:03
      年薪近2000萬,在49歲時仍然是單身!這位董秘的硬核人生,太颯了

      年薪近2000萬,在49歲時仍然是單身!這位董秘的硬核人生,太颯了

      墨蘭史書
      2026-01-22 23:50:03
      策略:明天1月28日的預判出來了,全面減倉之前,我要說兩句!

      策略:明天1月28日的預判出來了,全面減倉之前,我要說兩句!

      一擔金
      2026-01-27 13:09:20
      172:199,日本選舉殺出黑馬,新首相浮現?對華態度成最大看點

      172:199,日本選舉殺出黑馬,新首相浮現?對華態度成最大看點

      面包夾知識
      2026-01-27 11:45:52
      閆學晶又迎噩耗,最擔心的事還是發生了,兒媳體制內工作恐難保

      閆學晶又迎噩耗,最擔心的事還是發生了,兒媳體制內工作恐難保

      離離言幾許
      2026-01-23 00:04:19
      簡直不敢相信,莫言竟將日本侵華戰爭比作“兄弟爭奪家產”

      簡直不敢相信,莫言竟將日本侵華戰爭比作“兄弟爭奪家產”

      雪中風車
      2026-01-18 17:08:39
      詹姆斯24+5創NBA歷史第1神跡!東契奇46+7+11+8記3分刷爆紀錄

      詹姆斯24+5創NBA歷史第1神跡!東契奇46+7+11+8記3分刷爆紀錄

      一將籃球
      2026-01-27 12:05:08
      他8次上春晚,作死被捕入獄,如今56歲無人問津,淪落到四處走穴

      他8次上春晚,作死被捕入獄,如今56歲無人問津,淪落到四處走穴

      小熊侃史
      2026-01-06 11:17:00
      2026-01-27 13:43:00
      InfoQ incentive-icons
      InfoQ
      有內容的技術社區媒體
      11987文章數 51717關注度
      往期回顧 全部

      科技要聞

      理想開始關店“過冬”,否認“百家”規模

      頭條要聞

      寶馬5系車主揪出汽修店一個"意外疏忽":我氣得吐血

      頭條要聞

      寶馬5系車主揪出汽修店一個"意外疏忽":我氣得吐血

      體育要聞

      帶著母親遺愿戰斗12年,交易添頭成了隊魂

      娛樂要聞

      張雨綺被曝代孕,春晚被拒,代言跑路

      財經要聞

      金價狂飆 “牛市神話”未完待續

      汽車要聞

      劍指小米YU7與特斯拉Model Y 問界M6要來了?

      態度原創

      手機
      家居
      本地
      教育
      公開課

      手機要聞

      消息稱大疆Osmo Pocket 4云臺相機標準版機型1月29日發布

      家居要聞

      現代古典 中性又顯韻味

      本地新聞

      云游中國|格爾木的四季朋友圈,張張值得你點贊

      教育要聞

      為什么背單詞刷題幾輪,高三英語成績還是70多?從3個方面破解

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版