剛剛，姚順雨帶隊「重建」混元，首個大模型上線了

2026-04-23 17:07:34　來源: 機(jī)器之心Pro

北京舉報

分享至

編輯｜澤南、楊文

剛剛，騰訊 Hy3 preview 來了。

這是騰訊混元團(tuán)隊在架構(gòu)、基礎(chǔ)設(shè)施重新出發(fā)后的第一個版本，首批發(fā)布的模型尺寸較小，定位于實用性。

同樣值得關(guān)注的是，Hy3 preview 是姚順雨歸國加盟騰訊后的第一個重要成果，遵循了他「AI 下半場」的理念，模型在騰訊真實業(yè)務(wù)和復(fù)雜場景中打磨提升，關(guān)注在真實業(yè)務(wù)場景的效果與實用性。

騰訊表示，新一代模型增強(qiáng)了在聊天、代碼、智能體、數(shù)理推理、指令遵循、上下文理解等方面的能力。

目前，Hy3 preview 已在騰訊云、元寶、ima、CodeBuddy、WorkBuddy、QQ、QQ 瀏覽器、騰訊文檔、騰訊樂享等首發(fā)上線，微信公眾號、和平精英、騰訊新聞、騰訊自選股、騰訊客服、微信讀書等多個主線產(chǎn)品也在陸續(xù)上線。

另外，Hy3 preview 支持接入流行的開源智能體產(chǎn)品，如 OpenClaw、OpenCode、KiloCode 等，并已上架騰訊云大模型服務(wù)平臺 TokenHub。

五一假期前，全球 AI 團(tuán)隊紛紛出招，我們已經(jīng)陸續(xù)見證了千問的 Qwen 3.6 Max Preview、月之暗面的 Kimi 2.6，緊接著小米 MiMo-V2.5-Pro 上線。

基礎(chǔ)大模型的騰訊混元 Hy3 preview 究竟水平如何？接下來，我們就上手測評一番。

Agent 硬核測試，「龍蝦」任務(wù)它接住了嗎？

姚順雨是 ReAct 框架（智能體核心邏輯）的提出者，Hy3 preview 模型的能力提升當(dāng)然包括代碼和智能體方面，也順應(yīng) Agent 下半場的技術(shù)趨勢和市場需求。

在騰訊版 AI 辦公助手 WorkBuddy 上，我們可以讓它進(jìn)行代碼開發(fā)、深度研究、產(chǎn)品管理、數(shù)據(jù)分析等。

比如讓它調(diào)研關(guān)于 DeepSeek 融資傳聞，要求對比至少 5 個不同背景的權(quán)威信源，列出已知事實與邏輯沖突點(diǎn)，并給出信度評分。

它能自主啟動多步搜索，完成長鏈推理后，系統(tǒng)性地梳理出信源間的矛盾之處，最終呈現(xiàn)出一份客觀中立的調(diào)查報告，整個過程無需人工干預(yù)。

我們進(jìn)一步要求它聯(lián)網(wǎng)獲取聯(lián)合國人口司數(shù)據(jù)，完成一項「全球人口結(jié)構(gòu)變遷」可視化分析。

這是一個涉及數(shù)據(jù)獲取、清洗、分析與可視化呈現(xiàn)的復(fù)合型任務(wù)，Hy3 preview 同樣完成得較為順暢，最終輸出了直觀的圖表與分析文本。

在代碼能力測試中，我們讓它生成一款「開心消消樂」網(wǎng)頁游戲。最終結(jié)果畫面精美，邏輯完整，可以正常運(yùn)行，整體完成質(zhì)量超出預(yù)期。

嘮嗑、編故事……

它的基本功到底扎不扎實？

我們可以看到，騰訊混元大模型和其他家模型一樣區(qū)分了模式：快速思考可以更快給出答案，深度思考可以讓元寶思考更充分，回答更優(yōu)質(zhì)。當(dāng)然我們這里全都選上深度思考。

騰訊混元這次升級主打一個實用，我們先來跟它嘮嘮嗑

和 Hy3 preview 吐槽自己最近變笨了，它耐心開解可能是最近睡得太少、工作壓力大或者刷短視頻太多，并給出了 3 個小 tips。

針對寫稿沒靈感的話題延續(xù)，它能自然銜接對話上下文，根據(jù)我們當(dāng)下的情緒狀態(tài)調(diào)整回應(yīng)語氣和深度，并給出有針對性的創(chuàng)作建議。

還能情緒價值拉滿，變著花樣夸人。

此前，知乎搞了個「AI 請接招」討論，里面收錄了一批 AI 易翻車的刁鉆問題，其中一道是「今年才知道，親生父母結(jié)婚時候沒有叫我，我很難過怎么辦？」

很多大模型被繞進(jìn)去了，忽略了父母結(jié)婚時子女尚未出生的基本邏輯。Hy3 preview 敏銳察覺到這個點(diǎn)，引導(dǎo)用戶理清情緒，表現(xiàn)出較強(qiáng)的常識推理與共情能力。

再來試試創(chuàng)意寫作

前段時間，NASA 宇航員透過獵戶座飛船主艙窗戶遙望地球的神圖，刷屏社交媒體。

我們讓 Hy3 preview 為這張圖片生成 5 條朋友圈文案。它先分析了圖片氛圍，選擇了孤獨(dú)震撼、對地球的敬畏、人類渺小與偉大等幾個情感點(diǎn)，生成了不同風(fēng)格的文案，有文藝掛的、有哲學(xué)性的，隨便拿出來一條就能發(fā)朋友圈。

在模仿文風(fēng)方面，我們要求它以歐?亨利的筆調(diào)創(chuàng)作一個短篇小說。

搜索能力方面，我們讓 Hy3 preview 調(diào)查 Meta 強(qiáng)制收集鼠標(biāo)鍵盤輸入的原因，它迅速援引權(quán)威信源，給出了清晰、有據(jù)可查的回答。

無論是查新聞、查政策還是核實具體信息，整體表現(xiàn)均較為可靠。

「AI 下半場」的底層重構(gòu)

據(jù)介紹，Hy3 preview 是一個快慢思考融合的 MoE 語言模型，總參數(shù)量為 295B，激活參數(shù) 21B，支持的上下文長度為 256K，兼具實用性和性價比。

在新一代模型上，混元團(tuán)隊的主要工作是進(jìn)行底層重構(gòu)，進(jìn)而把很多工作做得更加牢固，特別是預(yù)訓(xùn)練和強(qiáng)化學(xué)習(xí)基建已被完全重做。他們在模型的大版本更新上，并沒有過多把精力放在注意力機(jī)制、底層架構(gòu)等方面的微小創(chuàng)新，而是選擇了成熟的 MoE（混合專家）路線，把精力和資源全部砸在工程基座（Infra）的穩(wěn)固性上。

這意味著 Hy3 preview 的穩(wěn)定性、數(shù)據(jù)吞吐效率、強(qiáng)化學(xué)習(xí)（RL）管線的良品率可能達(dá)到了前所未有的工業(yè)級水準(zhǔn)。

另外在訓(xùn)練的過程中，混元強(qiáng)調(diào)了模型評估，并加強(qiáng)了對自建 Benchmark 的研究，這就與之前順雨在博客中展示的思路一致（評估大于訓(xùn)練，Evaluation > Training）。

在《大模型的下半場》中姚順雨曾指出，現(xiàn)有的大模型「配方」（預(yù)訓(xùn)練 + 強(qiáng)化學(xué)習(xí) + 算力擴(kuò)展）已經(jīng)高度成熟，具備了泛化和解決難題的能力，下半場的邏輯在于提出問題：「我們應(yīng)該訓(xùn)練人工智能做什么？」

在下半場，由于現(xiàn)有通用模型配方極其強(qiáng)大，花費(fèi)巨大精力做出微調(diào)可能只帶來 5% 的提升，因此，評估變得比訓(xùn)練更重要。行業(yè)需要重構(gòu)評估體系，設(shè)計出貼近現(xiàn)實世界的新任務(wù)和新范式，而不是簡單地設(shè)計更難的考卷。

要在 AI 下半場生存和發(fā)展，從業(yè)者必須轉(zhuǎn)變思維模式，具備類似「產(chǎn)品經(jīng)理」的視角。這意味著必須去深入思考：AI 究竟該為誰解決什么實際問題？我們又該如何客觀地衡量它解決得好不好？

在這方面，騰訊擁有微信、游戲、廣告、云服務(wù)等國內(nèi)、甚至全球最復(fù)雜的業(yè)務(wù)場景，其自建的評測環(huán)境，必然高度貼合真實業(yè)務(wù)流的難點(diǎn)和痛點(diǎn)。Hy3 preview 的推出，或許已為騰訊在其生態(tài)內(nèi)構(gòu)建出了一個能夠解決實際問題的生產(chǎn)力工具。

Hy3 preview 于 2026 年 1 月底啟動訓(xùn)練，從訓(xùn)練到上線僅用了不到三個月，這是混元大語言模型從「讀萬卷書」到「行萬里路」，嘗試解決真實世界問題的一個開端。

Hy3 preview 只是一個起點(diǎn)，未來混元團(tuán)隊還希望通過開發(fā)者與用戶共同協(xié)作的方式進(jìn)一步提升模型能力，使其在真實場景和任務(wù)中持續(xù)發(fā)展。

文中視頻鏈接：https://mp.weixin.qq.com/s/49sPn3OqJBl0bLlc-Sr-Pg

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.