網易首頁 > 網易號 > 正文申請入駐

騰訊混元“重建”首作：Hy3 preview來了，Agent能力大幅提升，最低28元/月

2026-04-23 22:40:13　來源: 新聞晨報隨申Hi

上海舉報

分享至

4月23日，騰訊混元Hy3 preview語言模型發布并開源。這是一個快慢思考融合的混合專家模型，總參數295B，激活參數21B，最大支持256K上下文長度。這是混元重建后訓練的第一個模型，也是混元迄今最智能的模型，在復雜推理、指令遵循、上下文學習、代碼、智能體等能力及推理性能上實現了大幅的提升。

“Hy3 preview是混元大模型重建的第一步。我們希望通過這次開源和發布，獲得來自開源社區和用戶的真實反饋，幫助我們提升Hy3正式版的實用性。”騰訊首席AI科學家姚順雨表示，“與此同時，我們也在繼續擴大預訓練和強化學習的規模，提升模型的智能上限，并通過與騰訊眾多產品的深度Co-Design，持續提升模型在真實場景中的綜合表現，并開始探索特色模型能力。”

目前，Hy3 preview已在騰訊云、元寶、ima、CodeBuddy、WorkBuddy、QQ、QQ瀏覽器、騰訊文檔、騰訊樂享等首發上線，微信公眾號、和平精英、騰訊新聞、騰訊自選股、騰訊客服、微信讀書等多個主線產品也在陸續上線。

另外，Hy3 preview支持接入流行的開源智能體產品，如OpenClaw、OpenCode、KiloCode等，并已上架騰訊云大模型服務平臺TokenHub。

2026年2月，騰訊混元重建了預訓練和強化學習的基礎設施，以及模型追求實用性的三個原則：

1、能力體系化：不推崇“偏科”，因為即使是代碼智能體的單一應用，也涉及推理、長文、指令、對話、代碼、工具等多種能力的深度協同。

2、評測真實性：主動跳出易被“刷榜”的公開榜單，通過自建題目、最新考試、人工評測、產品眾測等多種方式評估和改進模型的“真實戰斗力”。

3、性價比追求：實用性離不開商業合理性，深度協同模型架構和推理框架的設計，大幅降低任務成本，讓智能用得起、用得好。

主打全面實用性，Agent能力大幅提升

多個測評結果顯示，Hy3 preview模型能力全面提升。

1、出色的上下文學習和指令遵循能力

在各種真實的生產與生活場景，理解雜亂冗長的上下文并遵從復雜多變的規則是模型的首要挑戰。基于騰訊業務場景的靈感，騰訊混元提出了CL-bench和CL-bench-Life來創新性地評估模型的上下文學習能力，并在Hy3 preview顯著地提升了模型上下文學習和指令遵循能力。

2、復雜推理能力突出，清華數學博士資格考試國內分數最高

復雜推理能力是模型解決各種問題的基礎。Hy3 preview 在 FrontierScience-Olympiad、IMOAnswerBench等高難度理工科推理任務中表現突出，并在最新的清華大學求真書院數學博資考(26春) 和全國中學生生物學聯賽(CHSBO 2025) 中取得優異成績，展現了可泛化的強推理能力。

3、代碼與智能體提升最為顯著，展現出高性價比

代碼和智能體是Hy3 preview提升最為顯著的方向。得益于預訓練及強化學習框架的重建和強化學習任務規模的提升，騰訊混元以較快的速度在SWE-Bench Verified、Terminal-Bench 2.0等主流代碼智能體基準以及BrowseComp、WideSearch等主流搜索智能體基準中取得了有競爭力的結果。

在數字世界中，代碼關注的是模型在開發環境中的執行能力，搜索則聚焦于開放信息空間中的檢索、篩選與整合能力，兩者共同決定了模型在復雜智能體場景（例如OpenClaw）中是否真正具備可用性。

Hy3 preview在ClawEval和WildClawBench等評測中表現突出，表明我們的智能體能力正在穩步走向全面與實用。

除了公開榜單，騰訊混元還進一步構建了多個內部的評測集，對模型在真實開發場景中的表現進行評估。結果表明，無論是在后端工程任務集Hy-Backend，貼近真實用戶開發交互的Hy-Vibe Bench，還是高難度軟件工程開發任務集Hy-SWE Max上，Hy3 preview均體現出了強競爭力。

比較各個開源模型的大小與智能體綜合表現，Hy3 preview展現出高性價比。

騰訊核心業務已全面接入，多主線AI產品驗證收益明顯

正式上線之前，Hy3 preview在騰訊主要AI 業務進行了產品測試，獲得明顯正收益。

在元寶端，混元與元寶進行了深度Co-Design。一方面，針對性地提升了模型在意圖理解精準度、文本創作質量、深度搜索等硬核指標上的表現；另一方面，對文風、文筆、情商、內容組織和內容專業度上進行了精細化調優。模型與產品的深度協同，為用戶帶來了更智能且更具“活人感”的交互體驗。

在ima知識庫問答和通用問答兩個場景下，測試結果顯示，Hy3 preview處理長文的能力出色，特別是檢索類任務，在回答信息的準確性、覆蓋度和全面性上表現較好。

在CodeBuddy、WorkBuddy產品上，Hy3 preview首token延遲降低54%、端到端時長降低47%、成功率提升至99.99%+。實際用戶環境中，Hy3 preview已穩定驅動最長495步的復雜Agent工作流，覆蓋文檔處理、數據分析、知識檢索、MCP工具鏈編排等多樣化辦公場景。

在公眾號AI分身和AI客服的場景專項評測中，Hy3 preview展現出相比Hy2更全面的能力升級。新模型在用戶意圖理解、復雜上下文承接和知識信息組織方面表現更成熟，面對模糊提問、短句追問和多輪對話時，能夠更準確地把握用戶訴求，并輸出更清晰、更穩定的回復。結合知識庫、用戶記憶與上下文生成回答時更貼合AI分身和AI客服的角色，過度腦補、主觀代入和情緒化表達顯著減少，使整體交互體驗更貼近“可信、自然、高效”的回復目標。

在和平精英AI NPC場景評測中，和平精英團隊第一時間在Hy3 preview上線后基于AI NPC場景中完成接入并開展評測，整體表現令人印象深刻。在游戲局外的人設扮演場景中，Hy3 Preview不僅能夠精準理解角色設定，還能針對開放性問題輸出高度關聯、富有增量價值的內容，帶來了更加真實、自然、沉浸的對話體驗。而在游戲局內的復雜對戰場景中，模型回復節奏貼近真實玩家聊天體驗，展現出優秀的穩定性與出色的擬人化扮演能力，整體效果表現亮眼。

在騰訊文檔AI PPT場景，較上一版本（Hy2）取得了顯著進步：生成成功率提升20%，評測得分提升10%，同時生成耗時縮短20%。整體而言，新模型在評測場景中表現優異，在模版選擇，色彩匹配，生成大綱，補充內容多個階段，均體現出優秀的表現，無幻覺，契合主題，視覺效果好。

在QQAI助手小Q產品評測中，較上一版本，在長文本首字節時延、整體響應速度與流式輸出效率方面顯著優化；核心能力上，數學推理表現提升尤為明顯，多場景指令遵循與泛化能力進一步增強；在工具調用推理及多輪指代消解方面表現更穩定高效，在OpenClaw官方PinchBench QQ智能體場景測試中取得突出效果，綜合體驗實現明顯躍升。

推理效率提升40%，個人版定價最低28元/月

得益于模型和推理框架上的深度協同，以及在推理框架、算子性能、量化算法等全方面優化，整體推理效率提升40%，Hy3 preview的成本相比上一代模型大幅下降。

在騰訊云大模型服務平臺TokenHub上，Hy3 preview輸入價格最低1.2元/百萬tokens，輸入命中緩存價格0.4元/百萬tokens，輸出價格最低4元/百萬tokens。同時，騰訊云聯合混元推出定制的Hy3 preview Token Plan套餐，個人版定價最低28元/月，為Agent開發和打造“龍蝦”應用的提供更具性價比選擇。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.