<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      實測混元Hy3 preview:混元再出發,中型模型的務實之戰

      0
      分享至

      編者按:本文為 Hy3 preview 評測,評測環境為WorkBuddy,評測內容基于真實任務執行結果。本次共測試三個場景:事實審計員、文檔可視化、深度研究。

      Hy3 preview終于來了。

      剛剛,騰訊混元宣布發布 Hy3 preview ,Hy3 preview 發布前的幾個小時,混元還悄悄換了一個新Logo。對于一個強調“重新出發”的團隊來說,這個細節也不算意外。


      “幫我查一下最近三個月AI領域的高管變動,對比5個不同背景的信源,列出已知事實和矛盾點,給出信度評分。”

      根據騰訊內部對Hy3 preview 的功能定位——多步驟、多信源、需自主規劃,筆者自設了這樣一句測試指令。模型在約7分鐘內完成了多輪搜索、信息交叉驗證和結構化輸出。

      這只是其中一個典型場景。筆者本次共測試了三個場景,分別是多信源核驗、文檔可視化、深度研究三個維度,從不同切面評估這款產品在知識工作場景中的實用性和邊界。

      背景與產品解析

      2025年以來,中國大模型廠商的敘事出現了一次集體轉向。頭部廠商相繼從“對標GPT-4”“刷新基準測試榜單”的軍備競賽,轉向“在真實業務場景中跑通”“降低單位任務成本”的務實路徑。

      騰訊混元團隊在這一背景下,選擇了一個明確的產品定位:不追參數第一,聚焦實用性和性價比

      混元團隊近期多次提及“下半場”概念,首席AI科學家姚順雨曾表示:“AI發展的上半場,核心是訓練大于評估;下半場,評估大于訓練。”姚順雨認為,上半場的競爭在于誰能把模型訓練得更大、更強,成為頂級的“做題家”;而下半場的競爭在于誰能讓模型在真實業務場景、真實系統中經得起檢驗,成為真正的“上下文學習者”——即使用戶給足了信息,模型依然需要具備從中學習并應用的能力。

      在Hy3 preview發布時,姚順雨進一步表示:“Hy3 preview是混元大模型重建的第一步。我們希望通過這次開源和發布,獲得來自開源社區和用戶的真實反饋,幫助我們提升Hy3正式版的實用性。”

      這一理念直接指向了當前大模型落地的核心痛點:不是模型不夠強,而是強在“記憶”、弱在“應用”。

      本次騰訊發布的 Hy3 preview,正是混元團隊在這一理念下推出的第一個版本——騰訊混元在團隊、架構、基礎設施重新整合后的產物

      根據官方披露,2026年2月,騰訊混元重建了預訓練和強化學習的基礎設施,并確立了模型追求實用性的三個原則:其一,能力體系化,不推崇"偏科",即使是代碼智能體的單一應用,也涉及推理、長文、指令、對話、代碼、工具等多種能力的深度協同;其二,評測真實性,主動跳出易被"刷榜"的公開榜單,通過自建題目、最新考試、人工評測、產品眾測等多種方式評估模型的"真實戰斗力";其三,性價比追求,深度協同模型架構和推理框架的設計,大幅降低任務成本,讓智能"用得起、用得好"。

      根據官方披露的信息,Hy3 preview 的核心參數如下:


      295B總參/21B激活參數的組合,意味著 Hy3 preview 處于“中型模型”區間。相比千億參數以上的超大模型,這一尺寸在部署成本和推理效率上具備明顯優勢。

      MoE(Mixture of Experts)的核心邏輯是“按需激活”——每次推理只調用部分專家網絡。這一設計可以實現“參數量大但推理成本可控”的效果,符合“實用性”和“性價比”的定位。

      Hy3 preview 聲稱實現了快慢思考的融合,即在簡單任務上快速響應,在復雜任務上啟動深度推理。256K(約25萬Token)的上下文窗口,在同尺寸模型中處于較高水平。官方將其定位為"混元迄今最智能的模型",Hy3 preview 于4月23日正式發布并同步開源,在復雜推理、指令遵循、上下文學習、代碼、智能體等能力及推理性能上實現了大幅提升。

      實測驗證

      本次評測選取三個典型場景,事實審計員、文檔可視化和深度研究。

      事實審計員

      任務類型:多信源交叉核驗

      測試指令

      調研關于“最近三個月AI領域高管變動”的傳聞,對比至少5個不同背景的權威信源,列出已知事實和邏輯沖突點,并給出信度評分。

      執行結果

      執行耗時:約7分鐘 信源覆蓋:CNBC(權威財經)、WIRED(科技深度)、The Verge(科技媒體)、鈦媒體等(中文科技財經)、Mint(國際科技)

      評測維度評分


      實測發現的主要事件

      1. OpenAI高管離職潮(高信度):Kevin Weil、Bill Peebles、Srinivas Narayanan三人于4月中旬同日離職,Sora關停,Prism項目終止并入Codex

      2. xAI創始人集體離職(中等信度):2026年2-3月,11位聯合創始人全部離職

      3. 理想汽車高管變動(中等信度):郎咸朋于2026年2月14日離職

      4. 蘋果CEO更替(待驗證):約翰·特納斯接替庫克,英文主流媒體未廣泛報道,信源可靠性存疑

      結論:模型在多信源檢索和結構化輸出方面表現穩定,但在信息交叉驗證時存在“收得多、核得少”的傾向——對可疑信息(如"蘋果CEO更替"缺乏英文信源佐證)未能主動標注風險。但同時也未能識別蘋果CEO更替這一信息實際上可信度較高,該信息蘋果官網已經進行了官宣。這一能力短板在嚴肅的事實核查場景中需要關注。

      文檔可視化

      任務類型:財報PDF轉動態儀表盤

      測試指令

      將附件的騰訊2025年年度財務報告PDF轉化為一個深色主題HTML動態儀表盤,具體要求如下:

      核心約束: 嚴格基于年報原文數據,禁止引入任何外部信息 如年報中未提及某項數據,明確標注"年報未披露"而非虛構 所有數字以年報為準,不進行二次計算 數據分析要求: 提取近三年核心財務數據(營收/凈利潤/毛利率),做三年對比 分析主要業務板塊的收入結構(按業務線拆分) 標注關鍵財務指標的變化趨勢(增長/下降/持平) 視覺要求: 深色主題,專業金融風格(參考彭博終端配色) 數字入場動畫:關鍵數據從0滾動增長至實際值(數字脈動效果) 交互效果:鼠標懸停關鍵指標時顯示詳細數據(決策艙掃描效果) 包含數據來源標注:每項數據標注對應年報頁碼 輸出要求: 單HTML文件,內嵌CSS和JavaScript 響應式設計,適配PC端展示 代碼結構清晰,便于后續修改

      執行結果

      執行耗時:約20分鐘 輸出成果:騰訊2025年年報HTML動態儀表盤 成果截圖(部分):

      評測維度評分


      結論:AI輔助財經內容生產正從“文本生成”向“數據可視化自動化”進階。該工具在數據處理、視覺呈現、交互設計三個層面的完成度已達到可發布至財經媒體報道的合格線。推薦指數4.5/5.0。

      可優化方向

      三年對比數據可視化不足,缺乏長期趨勢折線圖; 業務分部占比缺乏餅圖或堆疊柱狀圖; 移動端適配有待完善。
      深度研究

      任務類型:產業研究報告生成

      測試指令

      以“AI訓練成本下降趨勢及其對產業格局的影響”為主題,進行深度研究分析,輸出結構化報告,要求覆蓋成本驅動因素、數據支撐、產業格局影響,投資機會與風險、未來趨勢判斷,區分事實陳述和觀點分析,對關鍵數據注明來源。

      執行結果

      執行耗時:約5分鐘 信源覆蓋:共引用6個一手信源,包括Stanford HAI 2025報告、Epoch AI研究論文(arXiv:2405.21015)、央視新聞報道、中國信通院報告等 報告規模:約4500字,包含3張數據表格、6個主要章節、20+個細分論點 報告地址:Tencent Cloud CodeBuddy

      評測維度評分


      結論:模型在深度研究的框架搭建、信源檢索與標注、結構化輸出上表現優秀,能夠生成符合專業標準的研究報告。但在產業洞察的深度(如對中國AI芯片廠商的具體分析)、風險提示的全面性上仍有提升空間。

      適用場景建議

      ? 快速搭建研究報告框架 ? 檢索和整理公開信源 ? 生成結構化分析報告 ?? 需謹慎:具體投資標的推薦、未公開數據的推測、前瞻性判斷(需人工復核)
      產品組合拳:模型+Agent框架

      根據騰訊內部測試的公開反饋,Hy3 preview 在以下四個緯度獲得了相對積極的評價:


      在國內大模型競爭格局中,混元本次的定位可以概括為:“不做第一,但求好用”。從參數規模看,295B總參/21B激活參數定位于中等尺寸區間,與“大杯”產品存在差異,但規模控制帶來了更好的推理效率。

      從場景定位看,Coding和Agent場景是明確的主打方向。這一選擇與Agent經濟的崛起趨勢相吻合——當模型的價值越來越多地體現在“作為Agent的大腦”而非“直接回答用戶問題”時,響應速度、任務完成率、多步驟穩定性,比單純的基準測試分數更重要。

      從生態角度看,混元與WorkBuddy的結合構成了“模型+Agent框架”的組合,模型能力可以在真實業務場景中持續錘煉,場景反饋可以持續反哺模型優化。

      官方數據顯示,在CodeBuddy與WorkBuddy產品上,Hy3 preview首token延遲降低54%、端到端時長降低47%、成功率提升至99.99%+。實際用戶環境中,已穩定驅動最長495步的復雜Agent工作流,覆蓋文檔處理、數據分析、知識檢索、MCP工具鏈編排等多樣化辦公場景。整體推理效率提升40%,成本相比上一代模型大幅下降。

      在商業化定價上,騰訊云TokenHub平臺顯示,Hy3 preview輸入價格最低1.2元/百萬tokens,輸出價格最低4元/百萬tokens,并推出個人版最低28元/月的Token Plan套餐——這為評測稿此前提及的"性價比優勢"提供了可量化的基準參照。

      目前,Hy3 preview已在騰訊云、元寶、ima、CodeBuddy、WorkBuddy、QQ、QQ瀏覽器、騰訊文檔、騰訊樂享等產品首發上線,微信公眾號、和平精英、騰訊新聞等多個主線產品也在陸續接入。

      Hy3 preview 的發布,更像是一個信號,而非一個結論。它標志著騰訊混元在經歷團隊重組、架構重構后,選擇了一條更務實的路徑——不再追逐榜單上的“第一”,而是追求實際場景中的“好用”。

      在本文測試未涉及到的性價比中,官方公布的內部測試可作為參考:騰訊內部測試顯示,騰訊文檔AI PPT生成成功率提升20%、耗時縮短20%;和平精英AI NPC角色扮演穩定性獲得業務團隊高度評價;QQ AI助手數學推理表現提升尤為明顯;元寶深度Co-Design后用戶意圖理解與內容質量全面提升。

      上述數據為混元“性價比優勢”提供了一定的內部佐證,但跨廠商的橫向對比仍需在后續評測中進一步驗證。

      結語

      從更宏觀的視角看,Hy3 preview 的出現,是整個大模型行業轉向的一個縮影。

      過去兩年,國內外的大模型競爭本質上是一場基礎設施競賽——誰能訓得更大、算得更快、數據更多,誰就站在了排行榜的前列。但這場競賽正在迎來邊際效益遞減的節點:當GPT-4級別的能力已經"白菜化",當推理成本以每年數倍的速度下降,純粹的參數軍備競賽開始失去意義

      下一個競爭維度,正在轉向任務完成率、工具調用穩定性、長程推理的可靠性——換句話說,是“能不能真正干活”,而不是“能不能在考卷上拿高分”。這恰好是 Hy3 preview 所押注的方向。

      對于騰訊混元來說,這次重新出發面臨的挑戰不只是技術層面的。在競爭對手已積累大量真實用戶反饋的背景下,如何快速積累高質量的任務數據、如何在騰訊龐大的業務生態中找到“模型錘煉”的最佳路徑,將直接決定混元能否在下半場建立真正的差異化。

      WorkBuddy 作為面向知識工作者的 Agent 框架,理論上是一個理想的“練兵場”——用戶的真實任務場景足夠復雜、反饋足夠直接。但換個角度來看,“模型在框架中不斷進化”這一愿景的實現,還取決于數據閉環的質量、人工反饋的密度,以及騰訊是否愿意在這條路上保持足夠的耐心。

      Hy3 preview 是第一步,能否兌現“務實主義”的承諾,要看后續正式版本的真實表現——以及它在更大規模用戶場景中經受檢驗之后的樣子。(本文首發鈦媒體APP,作者 | AGI Signal,編輯 | 秦聰慧)

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      竄訪宣布取消后,國民黨表態,民眾黨向大陸攤牌,賴清德親自回應

      竄訪宣布取消后,國民黨表態,民眾黨向大陸攤牌,賴清德親自回應

      錦年衍生煩愁
      2026-04-22 19:46:45
      日本諾貝爾獎得主大江健三郎表示:很遺憾,日本很可能將重復歷史

      日本諾貝爾獎得主大江健三郎表示:很遺憾,日本很可能將重復歷史

      議紀史
      2025-11-27 14:35:03
      訪陸剛結束,鄭麗文赴美行程曝光,執意要去美國,好展現她的誠意

      訪陸剛結束,鄭麗文赴美行程曝光,執意要去美國,好展現她的誠意

      報君知史
      2026-04-22 18:58:08
      深圳:水官高速確認停止收費,將拆除收費站,需封閉部分匝道!通行指引公布

      深圳:水官高速確認停止收費,將拆除收費站,需封閉部分匝道!通行指引公布

      南方都市報
      2026-04-23 21:43:09
      真來了!首部全AI生成電影《靈魂擺渡》將定檔,網友直言...

      真來了!首部全AI生成電影《靈魂擺渡》將定檔,網友直言...

      中國青年報
      2026-04-22 13:59:08
      第二個惡魔醫生被抓,鄭大一附院王福建為94名患者植入不需要器械

      第二個惡魔醫生被抓,鄭大一附院王福建為94名患者植入不需要器械

      大魚簡科
      2026-02-18 22:03:00
      恩比德術后首次合練,76人季后賽懸了?

      恩比德術后首次合練,76人季后賽懸了?

      籃壇第一線
      2026-04-24 02:03:07
      事實證明,已經“消失”7年的周立波,早已走上一條不歸路

      事實證明,已經“消失”7年的周立波,早已走上一條不歸路

      素衣讀史
      2026-04-16 19:41:20
      窗戶紙捅破,生死局開啟?日本商界急得團團轉,對華提出一個請求

      窗戶紙捅破,生死局開啟?日本商界急得團團轉,對華提出一個請求

      歸史
      2026-04-22 20:37:52
      全場意外!島內民調結果出爐二人數據驚人,民眾黨高層亮出立場

      全場意外!島內民調結果出爐二人數據驚人,民眾黨高層亮出立場

      林子說事
      2026-04-23 21:09:53
      郭德綱發文,德云社再變動,釋放3個強烈信號,岳云鵬地位又變了

      郭德綱發文,德云社再變動,釋放3個強烈信號,岳云鵬地位又變了

      削桐作琴
      2026-04-21 15:24:39
      如果不出意外,2026年5月開始,中國房價、樓市或迎來“4大轉變”

      如果不出意外,2026年5月開始,中國房價、樓市或迎來“4大轉變”

      混沌錄
      2026-04-23 16:50:14
      費翔:父母都已離世,他無兒女與貓為伴,是親戚眼里的“唐僧肉”

      費翔:父母都已離世,他無兒女與貓為伴,是親戚眼里的“唐僧肉”

      細品名人
      2026-04-23 07:20:51
      故事:湖南93歲禽獸周其生,因愛喝牛奶而傷害女孩,犯罪細節曝光

      故事:湖南93歲禽獸周其生,因愛喝牛奶而傷害女孩,犯罪細節曝光

      卡西莫多的故事
      2025-02-21 17:17:06
      態度十分強硬!內塔尼亞胡問特朗普:你敢對我直接發飆?

      態度十分強硬!內塔尼亞胡問特朗普:你敢對我直接發飆?

      傾世璃歌
      2026-04-23 23:16:01
      等不到特朗普訪華了,美國提前對華攤牌:要求秘魯把中國趕出港口

      等不到特朗普訪華了,美國提前對華攤牌:要求秘魯把中國趕出港口

      南宗歷史
      2026-04-23 23:08:05
      胡錫進譴責打女司機的保安:善良的男人是不會這樣打女人的!

      胡錫進譴責打女司機的保安:善良的男人是不會這樣打女人的!

      映射生活的身影
      2026-04-23 13:09:09
      “暴力抗法”半月后,拼多多發生重大高管調整

      “暴力抗法”半月后,拼多多發生重大高管調整

      一見財經
      2026-04-23 08:04:06
      iPhone Fold 國內售價1.4萬元?散熱方案曝光,這次信息量有點大

      iPhone Fold 國內售價1.4萬元?散熱方案曝光,這次信息量有點大

      數碼Antenna
      2026-04-22 11:47:48
      沈陽雨雨雨來了!

      沈陽雨雨雨來了!

      沈陽公交網小林
      2026-04-24 00:10:39
      2026-04-24 03:12:49
      鈦媒體APP incentive-icons
      鈦媒體APP
      獨立財經科技媒體
      132683文章數 862115關注度
      往期回顧 全部

      科技要聞

      馬斯克喊出"史上最大產品",但量產難預測

      頭條要聞

      以色列:只要美國同意 將刺殺伊朗最高領袖

      頭條要聞

      以色列:只要美國同意 將刺殺伊朗最高領袖

      體育要聞

      給文班剃頭的馬刺DJ,成為NBA最佳第六人

      娛樂要聞

      王大陸因涉黑討債被判 女友也一同獲刑

      財經要聞

      普華永道賠償10億 恒大股東見到"回頭錢"

      汽車要聞

      預售30.29萬起 嵐圖泰山X8配896線激光雷達

      態度原創

      時尚
      教育
      藝術
      手機
      健康

      李昀銳:林深見木

      教育要聞

      推薦一款高考志愿卡,五大功能助你解決志愿疑難

      藝術要聞

      吉達塔蓋到第100層,“它是沙特唯一能按期完成的大項目”

      手機要聞

      vivo X500 Pro Max被曝光:2nm工藝+5GHz,2K直屏九月發!

      干細胞如何讓燒燙傷皮膚"再生"?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 国产熟妇久久777777| 国产亚洲精品超碰| jizz亚洲| 精品久久中文字幕五十路人妻| 美女黄18以下禁止观看| 国产高清在线精品一区二区三区| 国产精品看高国产精品不卡| 九九成人精品| 色欲综合网站| 久久精品波多野结衣| 亚洲中文字幕av一区| 精品无码国产自产拍在线观看| 亚洲视频在线观看| 久久精品国产2020| 成人网站免费观看永久视频下载| 国产99re热这里只有精品| 性色欲情网站iwww| 久久国内精品自在自线观看| 中国猛少妇色xxxxx| 亚洲不卡视频| 日韩人妻内射| 91视频网址| av免费在线观看成人| 国内国外精品影片无人区| 四虎亚洲国产成人久久精品| 樱花影院电视剧免费| 武鸣县| 97久久精品亚洲中文字幕无码| 一本久道久久综合狠狠爱四虎影视| 91狠狠狠| 亚洲综合另类| CaoPorn国产一区二区| 97精品视频| 欧美日韩视频无码一区二区三| A级毛片100部免费看| 色噜噜狠狠色综合欧洲| 欧洲熟妇牲交| 国产 校园 另类 小说区| 国产女人高潮毛片| 久久SE精品一区精品二区| 欧美性猛交xxxx乱大交极品|