![]()
編輯|澤南、楊文
剛剛,騰訊 Hy3 preview 來了。
這是騰訊混元團隊在架構、基礎設施重新出發后的第一個版本,首批發布的模型尺寸較小,定位于實用性。
同樣值得關注的是,Hy3 preview 是姚順雨歸國加盟騰訊后的第一個重要成果,遵循了他「AI 下半場」的理念,模型在騰訊真實業務和復雜場景中打磨提升,關注在真實業務場景的效果與實用性。
騰訊表示,新一代模型增強了在聊天、代碼、智能體、數理推理、指令遵循、上下文理解等方面的能力。
![]()
![]()
目前,Hy3 preview 已在騰訊云、元寶、ima、CodeBuddy、WorkBuddy、QQ、QQ 瀏覽器、騰訊文檔、騰訊樂享等首發上線,微信公眾號、和平精英、騰訊新聞、騰訊自選股、騰訊客服、微信讀書等多個主線產品也在陸續上線。
另外,Hy3 preview 支持接入流行的開源智能體產品,如 OpenClaw、OpenCode、KiloCode 等,并已上架騰訊云大模型服務平臺 TokenHub。
五一假期前,全球 AI 團隊紛紛出招,我們已經陸續見證了千問的 Qwen 3.6 Max Preview、月之暗面的 Kimi 2.6,緊接著小米 MiMo-V2.5-Pro 上線。
基礎大模型的騰訊混元 Hy3 preview 究竟水平如何?接下來,我們就上手測評一番。
Agent 硬核測試,「龍蝦」任務它接住了嗎?
姚順雨是 ReAct 框架(智能體核心邏輯)的提出者,Hy3 preview 模型的能力提升當然包括代碼和智能體方面,也順應 Agent 下半場的技術趨勢和市場需求。
在騰訊版 AI 辦公助手 WorkBuddy 上,我們可以讓它進行代碼開發、深度研究、產品管理、數據分析等。
![]()
比如讓它調研關于 DeepSeek 融資傳聞,要求對比至少 5 個不同背景的權威信源,列出已知事實與邏輯沖突點,并給出信度評分。
它能自主啟動多步搜索,完成長鏈推理后,系統性地梳理出信源間的矛盾之處,最終呈現出一份客觀中立的調查報告,整個過程無需人工干預。
![]()
我們進一步要求它聯網獲取聯合國人口司數據,完成一項「全球人口結構變遷」可視化分析。
這是一個涉及數據獲取、清洗、分析與可視化呈現的復合型任務,Hy3 preview 同樣完成得較為順暢,最終輸出了直觀的圖表與分析文本。
![]()
在代碼能力測試中,我們讓它生成一款「開心消消樂」網頁游戲。最終結果畫面精美,邏輯完整,可以正常運行,整體完成質量超出預期。
![]()
嘮嗑、編故事……
它的基本功到底扎不扎實?
我們可以看到,騰訊混元大模型和其他家模型一樣區分了模式:快速思考可以更快給出答案,深度思考可以讓元寶思考更充分,回答更優質。當然我們這里全都選上深度思考。
![]()
騰訊混元這次升級主打一個實用,我們先來跟它嘮嘮嗑
和 Hy3 preview 吐槽自己最近變笨了,它耐心開解可能是最近睡得太少、工作壓力大或者刷短視頻太多,并給出了 3 個小 tips。
![]()
針對寫稿沒靈感的話題延續,它能自然銜接對話上下文,根據我們當下的情緒狀態調整回應語氣和深度,并給出有針對性的創作建議。
![]()
還能情緒價值拉滿,變著花樣夸人。
![]()
此前,知乎搞了個「AI 請接招」討論,里面收錄了一批 AI 易翻車的刁鉆問題,其中一道是「今年才知道,親生父母結婚時候沒有叫我,我很難過怎么辦?」
很多大模型被繞進去了,忽略了父母結婚時子女尚未出生的基本邏輯。Hy3 preview 敏銳察覺到這個點,引導用戶理清情緒,表現出較強的常識推理與共情能力。
![]()
再來試試創意寫作
前段時間,NASA 宇航員透過獵戶座飛船主艙窗戶遙望地球的神圖,刷屏社交媒體。
![]()
我們讓 Hy3 preview 為這張圖片生成 5 條朋友圈文案。它先分析了圖片氛圍,選擇了孤獨震撼、對地球的敬畏、人類渺小與偉大等幾個情感點,生成了不同風格的文案,有文藝掛的、有哲學性的,隨便拿出來一條就能發朋友圈。
![]()
在模仿文風方面,我們要求它以歐?亨利的筆調創作一個短篇小說。
![]()
搜索能力方面,我們讓 Hy3 preview 調查 Meta 強制收集鼠標鍵盤輸入的原因,它迅速援引權威信源,給出了清晰、有據可查的回答。
無論是查新聞、查政策還是核實具體信息,整體表現均較為可靠。
![]()
「AI 下半場」的底層重構
據介紹,Hy3 preview 是一個快慢思考融合的 MoE 語言模型,總參數量為 295B,激活參數 21B,支持的上下文長度為 256K,兼具實用性和性價比。
在新一代模型上,混元團隊的主要工作是進行底層重構,進而把很多工作做得更加牢固,特別是預訓練和強化學習基建已被完全重做。他們在模型的大版本更新上,并沒有過多把精力放在注意力機制、底層架構等方面的微小創新,而是選擇了成熟的 MoE(混合專家)路線,把精力和資源全部砸在工程基座(Infra)的穩固性上。
這意味著 Hy3 preview 的穩定性、數據吞吐效率、強化學習(RL)管線的良品率可能達到了前所未有的工業級水準。
另外在訓練的過程中,混元強調了模型評估,并加強了對自建 Benchmark 的研究,這就與之前順雨在博客中展示的思路一致(評估大于訓練,Evaluation > Training)。
![]()
在《大模型的下半場》中姚順雨曾指出,現有的大模型「配方」(預訓練 + 強化學習 + 算力擴展)已經高度成熟,具備了泛化和解決難題的能力,下半場的邏輯在于提出問題:「我們應該訓練人工智能做什么?」
在下半場,由于現有通用模型配方極其強大,花費巨大精力做出微調可能只帶來 5% 的提升,因此,評估變得比訓練更重要。行業需要重構評估體系,設計出貼近現實世界的新任務和新范式,而不是簡單地設計更難的考卷。
要在 AI 下半場生存和發展,從業者必須轉變思維模式,具備類似「產品經理」的視角。這意味著必須去深入思考:AI 究竟該為誰解決什么實際問題?我們又該如何客觀地衡量它解決得好不好?
在這方面,騰訊擁有微信、游戲、廣告、云服務等國內、甚至全球最復雜的業務場景,其自建的評測環境,必然高度貼合真實業務流的難點和痛點。Hy3 preview 的推出,或許已為騰訊在其生態內構建出了一個能夠解決實際問題的生產力工具。
Hy3 preview 于 2026 年 1 月底啟動訓練,從訓練到上線僅用了不到三個月,這是混元大語言模型從「讀萬卷書」到「行萬里路」,嘗試解決真實世界問題的一個開端。
Hy3 preview 只是一個起點,未來混元團隊還希望通過開發者與用戶共同協作的方式進一步提升模型能力,使其在真實場景和任務中持續發展。
文中視頻鏈接:https://mp.weixin.qq.com/s/49sPn3OqJBl0bLlc-Sr-Pg
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.