![]()
編輯|澤南、楊文
剛剛,騰訊 Hy3 preview 來了。
這是騰訊混元團(tuán)隊在架構(gòu)、基礎(chǔ)設(shè)施重新出發(fā)后的第一個版本,首批發(fā)布的模型尺寸較小,定位于實用性。
同樣值得關(guān)注的是,Hy3 preview 是姚順雨歸國加盟騰訊后的第一個重要成果,遵循了他「AI 下半場」的理念,模型在騰訊真實業(yè)務(wù)和復(fù)雜場景中打磨提升,關(guān)注在真實業(yè)務(wù)場景的效果與實用性。
騰訊表示,新一代模型增強(qiáng)了在聊天、代碼、智能體、數(shù)理推理、指令遵循、上下文理解等方面的能力。
![]()
![]()
目前,Hy3 preview 已在騰訊云、元寶、ima、CodeBuddy、WorkBuddy、QQ、QQ 瀏覽器、騰訊文檔、騰訊樂享等首發(fā)上線,微信公眾號、和平精英、騰訊新聞、騰訊自選股、騰訊客服、微信讀書等多個主線產(chǎn)品也在陸續(xù)上線。
另外,Hy3 preview 支持接入流行的開源智能體產(chǎn)品,如 OpenClaw、OpenCode、KiloCode 等,并已上架騰訊云大模型服務(wù)平臺 TokenHub。
五一假期前,全球 AI 團(tuán)隊紛紛出招,我們已經(jīng)陸續(xù)見證了千問的 Qwen 3.6 Max Preview、月之暗面的 Kimi 2.6,緊接著小米 MiMo-V2.5-Pro 上線。
基礎(chǔ)大模型的騰訊混元 Hy3 preview 究竟水平如何?接下來,我們就上手測評一番。
Agent 硬核測試,「龍蝦」任務(wù)它接住了嗎?
姚順雨是 ReAct 框架(智能體核心邏輯)的提出者,Hy3 preview 模型的能力提升當(dāng)然包括代碼和智能體方面,也順應(yīng) Agent 下半場的技術(shù)趨勢和市場需求。
在騰訊版 AI 辦公助手 WorkBuddy 上,我們可以讓它進(jìn)行代碼開發(fā)、深度研究、產(chǎn)品管理、數(shù)據(jù)分析等。
![]()
比如讓它調(diào)研關(guān)于 DeepSeek 融資傳聞,要求對比至少 5 個不同背景的權(quán)威信源,列出已知事實與邏輯沖突點(diǎn),并給出信度評分。
它能自主啟動多步搜索,完成長鏈推理后,系統(tǒng)性地梳理出信源間的矛盾之處,最終呈現(xiàn)出一份客觀中立的調(diào)查報告,整個過程無需人工干預(yù)。
![]()
我們進(jìn)一步要求它聯(lián)網(wǎng)獲取聯(lián)合國人口司數(shù)據(jù),完成一項「全球人口結(jié)構(gòu)變遷」可視化分析。
這是一個涉及數(shù)據(jù)獲取、清洗、分析與可視化呈現(xiàn)的復(fù)合型任務(wù),Hy3 preview 同樣完成得較為順暢,最終輸出了直觀的圖表與分析文本。
![]()
在代碼能力測試中,我們讓它生成一款「開心消消樂」網(wǎng)頁游戲。最終結(jié)果畫面精美,邏輯完整,可以正常運(yùn)行,整體完成質(zhì)量超出預(yù)期。
![]()
嘮嗑、編故事……
它的基本功到底扎不扎實?
我們可以看到,騰訊混元大模型和其他家模型一樣區(qū)分了模式:快速思考可以更快給出答案,深度思考可以讓元寶思考更充分,回答更優(yōu)質(zhì)。當(dāng)然我們這里全都選上深度思考。
![]()
騰訊混元這次升級主打一個實用,我們先來跟它嘮嘮嗑
和 Hy3 preview 吐槽自己最近變笨了,它耐心開解可能是最近睡得太少、工作壓力大或者刷短視頻太多,并給出了 3 個小 tips。
![]()
針對寫稿沒靈感的話題延續(xù),它能自然銜接對話上下文,根據(jù)我們當(dāng)下的情緒狀態(tài)調(diào)整回應(yīng)語氣和深度,并給出有針對性的創(chuàng)作建議。
![]()
還能情緒價值拉滿,變著花樣夸人。
![]()
此前,知乎搞了個「AI 請接招」討論,里面收錄了一批 AI 易翻車的刁鉆問題,其中一道是「今年才知道,親生父母結(jié)婚時候沒有叫我,我很難過怎么辦?」
很多大模型被繞進(jìn)去了,忽略了父母結(jié)婚時子女尚未出生的基本邏輯。Hy3 preview 敏銳察覺到這個點(diǎn),引導(dǎo)用戶理清情緒,表現(xiàn)出較強(qiáng)的常識推理與共情能力。
![]()
再來試試創(chuàng)意寫作
前段時間,NASA 宇航員透過獵戶座飛船主艙窗戶遙望地球的神圖,刷屏社交媒體。
![]()
我們讓 Hy3 preview 為這張圖片生成 5 條朋友圈文案。它先分析了圖片氛圍,選擇了孤獨(dú)震撼、對地球的敬畏、人類渺小與偉大等幾個情感點(diǎn),生成了不同風(fēng)格的文案,有文藝掛的、有哲學(xué)性的,隨便拿出來一條就能發(fā)朋友圈。
![]()
在模仿文風(fēng)方面,我們要求它以歐?亨利的筆調(diào)創(chuàng)作一個短篇小說。
![]()
搜索能力方面,我們讓 Hy3 preview 調(diào)查 Meta 強(qiáng)制收集鼠標(biāo)鍵盤輸入的原因,它迅速援引權(quán)威信源,給出了清晰、有據(jù)可查的回答。
無論是查新聞、查政策還是核實具體信息,整體表現(xiàn)均較為可靠。
![]()
「AI 下半場」的底層重構(gòu)
據(jù)介紹,Hy3 preview 是一個快慢思考融合的 MoE 語言模型,總參數(shù)量為 295B,激活參數(shù) 21B,支持的上下文長度為 256K,兼具實用性和性價比。
在新一代模型上,混元團(tuán)隊的主要工作是進(jìn)行底層重構(gòu),進(jìn)而把很多工作做得更加牢固,特別是預(yù)訓(xùn)練和強(qiáng)化學(xué)習(xí)基建已被完全重做。他們在模型的大版本更新上,并沒有過多把精力放在注意力機(jī)制、底層架構(gòu)等方面的微小創(chuàng)新,而是選擇了成熟的 MoE(混合專家)路線,把精力和資源全部砸在工程基座(Infra)的穩(wěn)固性上。
這意味著 Hy3 preview 的穩(wěn)定性、數(shù)據(jù)吞吐效率、強(qiáng)化學(xué)習(xí)(RL)管線的良品率可能達(dá)到了前所未有的工業(yè)級水準(zhǔn)。
另外在訓(xùn)練的過程中,混元強(qiáng)調(diào)了模型評估,并加強(qiáng)了對自建 Benchmark 的研究,這就與之前順雨在博客中展示的思路一致(評估大于訓(xùn)練,Evaluation > Training)。
![]()
在《大模型的下半場》中姚順雨曾指出,現(xiàn)有的大模型「配方」(預(yù)訓(xùn)練 + 強(qiáng)化學(xué)習(xí) + 算力擴(kuò)展)已經(jīng)高度成熟,具備了泛化和解決難題的能力,下半場的邏輯在于提出問題:「我們應(yīng)該訓(xùn)練人工智能做什么?」
在下半場,由于現(xiàn)有通用模型配方極其強(qiáng)大,花費(fèi)巨大精力做出微調(diào)可能只帶來 5% 的提升,因此,評估變得比訓(xùn)練更重要。行業(yè)需要重構(gòu)評估體系,設(shè)計出貼近現(xiàn)實世界的新任務(wù)和新范式,而不是簡單地設(shè)計更難的考卷。
要在 AI 下半場生存和發(fā)展,從業(yè)者必須轉(zhuǎn)變思維模式,具備類似「產(chǎn)品經(jīng)理」的視角。這意味著必須去深入思考:AI 究竟該為誰解決什么實際問題?我們又該如何客觀地衡量它解決得好不好?
在這方面,騰訊擁有微信、游戲、廣告、云服務(wù)等國內(nèi)、甚至全球最復(fù)雜的業(yè)務(wù)場景,其自建的評測環(huán)境,必然高度貼合真實業(yè)務(wù)流的難點(diǎn)和痛點(diǎn)。Hy3 preview 的推出,或許已為騰訊在其生態(tài)內(nèi)構(gòu)建出了一個能夠解決實際問題的生產(chǎn)力工具。
Hy3 preview 于 2026 年 1 月底啟動訓(xùn)練,從訓(xùn)練到上線僅用了不到三個月,這是混元大語言模型從「讀萬卷書」到「行萬里路」,嘗試解決真實世界問題的一個開端。
Hy3 preview 只是一個起點(diǎn),未來混元團(tuán)隊還希望通過開發(fā)者與用戶共同協(xié)作的方式進(jìn)一步提升模型能力,使其在真實場景和任務(wù)中持續(xù)發(fā)展。
文中視頻鏈接:https://mp.weixin.qq.com/s/49sPn3OqJBl0bLlc-Sr-Pg
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.