<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      今天,姚順雨在DeepSeek V4前交卷了

      0
      分享至


      智東西
      作者 江宇
      編輯 心緣

      姚順雨第一場“大考”交卷!

      智東西4月23日報道,今日,騰訊發布并開源新一代大模型混元Hy3 preview,這是混元體系重建后的首個旗艦版本,也是姚順雨掌舵混元后首次對外亮相的模型成果


      新一代Hy3 preview是混元迄今最智能的模型,該模型采用快慢思考融合的混合專家架構總參數295B激活參數21B,支持最長256K上下文

      從測評結果來看,Hy3 preview在復雜推理、指令遵循、代碼與智能體能力等關鍵維度實現整體提升。在復雜推理任務中,其在FrontierScience-Olympiad拿下70.0分、IMO Answer Bench達到84.3分,整體表現已超過GLM-5、Kimi-K2.5,接近Gemini 3.1 Pro與GPT-5.4,并在清華求真書院數學博士資格考試中取得88.4分的國內最高成績

      在代碼與搜索能力上,其在SWE-Bench Verified達到74.4%,已逼近GLM-5與Kimi-K2.5,在Terminal-Bench 2.0、BrowseComp、WideSearch等基準中也進入第一梯隊但與Claude Opus-4.6等頂級閉源模型仍有差距

      在ClawEval、WildClawBench等Agent評測中,Hy3 preview的綜合執行能力明顯提升。在涵蓋16項基準的綜合評測中,其平均得分約56分,顯著高于上一代Hy2(約35分),并進入當前主流Agent模型的競爭區。

      目前,Hy3 preview已率先接入騰訊云、元寶、ima、CodeBuddy、WorkBuddy、QQ等多條核心產品線。另外,Hy3 preview還支持接入流行的開源智能體產品,如OpenClaw、OpenCode、KiloCode等,并已上架騰訊云大模型服務平臺TokenHub。


      在推理效率與成本層面,其首token延遲降低54%、端到端時長下降47%,整體推理效率提升40%;API價格進一步下探至輸入最低1.2元/百萬tokens、輸出最低4元/百萬tokens,并提供最低28元/月的Token套餐,主打一個“高性價比”。

      而近期,國內外大模型賽道可謂是“動作頻頻”。

      上周五,Anthropic發布了新一代旗艦模型Claude Opus 4.7;4月20日,阿里發布了其下一代旗艦模型的早期預覽版Qwen3.6-Max-Preview;4月21日,Kimi正式發布并開源旗艦模型K2.6;4月23日,小米MiMo大模型家族一口氣官宣4款新模型,其中旗艦推理模型MiMo-V2.5也開啟公測。

      而行業最期待的“開源猛獸” DeepSeek V4也有望在本周內降臨。這一波國內外旗艦模型的集體“上桌”,或意味著大模型格局的洗牌時刻即將到來。

      面對如此激烈的神仙打架局面,定位“全面實用性”的Hy3 preview究竟具備怎樣的真實戰斗力?我們第一時間對其進行了實測。

      開源地址:https://github.com/Tencent-Hunyuan/Hy3-preview

      一、挑戰復雜SVG與互動HTML,代碼與邏輯能力一手實測

      為了全面驗證其能力,我們從邏輯推理、前端代碼生成以及多模態表現等維度,對Hy3 preview進行了實測。

      首先,我們拋出了兩個經典的“陷阱題”

      提示詞:我要去洗車,洗車的地方離家就100米,我是開車去呢,還是走著去呢?


      提示詞:父親和母親可以結婚嗎?


      實測結果來看,Hy3 preview不負眾望,成功完成了測試并準確繞過了文字陷阱。對于洗車問題,模型還幽默地補充了“代駕取車”的特殊情況。

      在代碼生成維度,我們首先選擇了一個高難度的SVG繪制任務

      提示詞:生成一個Xbox 360控制器的SVG代碼。


      Xbox 360控制器不僅具有復雜的人體工學非對稱曲線,還包含了豐富的搖桿與按鍵布局。這能極具針對性地考驗大模型在沒有視覺反饋的情況下,對二維空間坐標、圖層疊加關系及幾何數學計算的精準控制能力。

      從實測結果來看,Hy3 preview在首次生成時遭遇了失敗,雖然系統很快進行了重新生成,但最終的視覺效果并不理想。搖桿、按鍵等核心組件出現了明顯的坐標錯位

      接下來,我們進一步測試了其生成帶有交互邏輯的復雜HTML代碼的能力。

      提示詞:用一個HTML代碼塊編寫一個3D精靈球,它應該是可交互的,并且在打開時會有隨機的寶可夢從里面出來。


      實測發現,Hy3 preview輸出的精靈球并沒有達到預期的3D視覺效果,整體呈現依然比較粗糙。在交互體驗層面,當觸發召喚寶可夢的動作時,前端圖層渲染邏輯出現了瑕疵,導致精靈球的UI元素直接遮擋了內部彈出的精靈形象。

      最后一個體驗案例是創建一個像素風格的前端頁面

      提示詞:創建一個騎自行車的鵜鶘的3D像素藝術作品。盡可能將場景刻畫得非常細致,注意主體模型上的每一個小細節,同時也要考慮周圍環境的細節。在一個HTML代碼塊中完成制作,將代碼寫得足夠優秀,以展示你的水平超越其他作品。我賦予你完全的創作自由,盡情發揮。


      在這一案例中,Hy3 preview在靜態結構的理解上表現尚可,鵜鶘的身體結構與自行車形態也相對完整。但遺憾的是,代碼生成的畫面中鵜鶘并沒有如預期般呈現出動態騎行效果,且在細節刻畫上缺失了自行車鏈條這一部件。

      總體而言,Hy3 preview在代碼框架構建和基本意圖理解上展現出了不錯的潛力。但在涉及復雜空間坐標系、前端深度交互渲染時,仍需持續進化與打磨。

      除了圖形與交互測試,我們還驗證了Hy3 preview在財務分析上的表現。我將騰訊2023、2024、2025年的財報輸入模型,讓它生成財報分析報告

      模型能夠準確提取核心財務數據,并呈現三年的同比變化趨勢。同時,按年報披露的業務分部,生成收入結構對比圖和業務板塊占比變化圖,整體分析報告清晰可讀,數據整合能力令人印象深刻


      總體而言,Hy3 preview在代碼框架構建、基本意圖理解及數據分析上展現出了不錯的潛力。但在涉及復雜空間坐標系、前端深度交互渲染時,仍需持續進化與打磨。

      二、多項核心基準躋身第一梯隊,Agent能力逼近主流旗艦模型

      從測評表現來看,Hy3 preview在多個關鍵能力維度上進入第一梯隊。

      長上下文與指令遵循為例,在自建的CL-bench與CL-bench Life評測中,其得分分別達到22.8和15.7,明顯高于GLM-5、Kimi-K2.5等同類模型,但與GPT-5.4級別模型相比仍存在差距,整體處于開源陣營前列位置。


      復雜推理能力上,Hy3 preview在FrontierScience-Olympiad中取得70.0分,高于GLM-5和Kimi-K2.5,接近Gemini 3.1 Pro與GPT-5.4。

      在IMO Answer Bench上達到84.3分,超過Kimi-K2.5和GLM-5,但仍低于Gemini 3.1 Pro與GPT-5.4。

      在清華求真書院數學博士資格考試中,其得分為88.4,顯著高于Kimi-K2.5和GLM-5,但與頂級閉源模型仍有差距;在CHSBO 2025生物競賽中,其87.8的表現同樣領先多數開源模型,接近GPT-5.4的水平。


      代碼與Agent能力是其提升最明顯的方向

      后端工程任務集Hy-Backend上,Hy3 preview得分達到54.7,超過GLM-5和Kimi-K2.5;在更貼近用戶交互的Hy-Vibe評測中,其表現同樣領先Kimi-K2.5;在高難度軟件工程任務Hy-SWE Max上,Hy3 preview達到30,明顯高于Kimi-K2.5、接近GLM-5,但與Claude Opus-4.6仍存在差距。


      這類內部評測更強調“真實開發環境中的完成能力”,相比標準化榜單,更能反映模型在復雜工程任務中的實際可用性。

      在SWE-Bench Verified上,Hy3 preview達到74.4%,已經逼近GLM-5和Kimi-K2.5,但與Claude Opus-4.6仍有差距;在Terminal-Bench 2.0上,其54.4%的成績超過GLM-4.7等模型,進入第一梯隊。

      搜索與信息整合能力上,Hy3 preview在BrowseComp上達到67.1%,接近GLM-5與Kimi-K2.5;在WideSearch上取得70.2%,超過GLM-5,但仍低于Claude Opus-4.6。


      這類能力直接決定模型在開放環境中的“找信息+做判斷”能力,是Agent落地的關鍵基礎。

      進一步看整體Agent能力,在涵蓋16項基準的綜合評測中,Hy3 preview以約56分的綜合得分,顯著高于Hy2(約35分),并與GLM-4.7、DeepSeek-V3.2等模型拉開差距,接近GLM-5與Kimi-K2.5所在區間。


      更細分的Agent專項評測中,Hy3 preview也呈現出類似趨勢。在WildClawBench(text-only)中,其得分為45.3,高于Kimi-K2.5、接近GLM-5;在ClawEval評測中達到55.0,超過Kimi-K2.5、接近GLM-5,但與Claude Opus-4.6同樣存在差距。


      這類評測更關注模型在多步調用、工具協同與任務拆解中的穩定性,直接對應Agent在真實環境中的執行能力。

      在參數規模僅295B的前提下,這一表現也能看出其追求“性價比最優”,成為當前少數在成本與能力之間取得平衡的模型之一。

      三、推理效率提升40%,輸入1.2元/百萬tokens起,256K長上下文成本壓低

      在能力之外,Hy3 preview此次更直接的變化體現在推理效率與成本結構上。

      得益于模型架構與推理框架的深度協同,以及算子優化與量化策略的整體調整,其整體推理效率提升約40%,將單位調用成本進一步壓縮。

      從實際定價來看,在0-16K上下文范圍內,Hy3 preview輸入價格最低為1.2元/百萬tokens,命中緩存后可降至0.4元,輸出價格為4元。

      在更長上下文(最高256K)場景下,Hy3 preview輸入價格逐步提升至2元/百萬tokens,輸出價格為8元。


      這意味著,在長文本、復雜Agent任務中,其成本仍處于可控范圍。

      除了按量計費,騰訊云還推出了面向開發者的Token套餐方案,將成本進一步前置與打包。以個人版為例,Lite套餐月費28元,對應約3500萬tokens額度,折合單價約0.8元/百萬tokens;Standard、Pro、Max套餐則分別提供100M、320M、650M tokens,對應單價逐步下降至0.72元/百萬tokens


      這一梯度設計,對更高頻、更長鏈路的調用場景更加友好,適用于需要持續運行的Agent應用。

      結語:混元重建后的第一步,把重心放回真實場景

      從某種意義上看,Hy3 preview是騰訊混元在團隊、架構與基礎設施全面重建之后的一個起點版本。它沒有繼續沿著“更大參數”的路徑走下去,而是選擇以295B的規模,注重打磨推理、代碼、Agent等能力。

      這一方向也對應姚順雨提出的“AI下半場”判斷——模型的價值,不在榜單,而在復雜場景中的可用性。從目前的落地情況來看,無論是元寶、WorkBuddy,還是QQ助手與AI客服,這一版本已經開始在騰訊內部多條業務線上持續“跑起來”,并通過實際反饋反向推動模型迭代。

      放在更大的時間線上看,Hy3 preview或許是騰訊在這一輪大模型競爭中重新找到節奏的信號。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      省指揮官站隊分化,革命衛隊內訌加劇,穆杰塔巴能否穩住局勢?

      省指揮官站隊分化,革命衛隊內訌加劇,穆杰塔巴能否穩住局勢?

      大眼睛看看
      2026-04-22 21:46:30
      保利集團嚴正聲明

      保利集團嚴正聲明

      深圳晚報
      2026-04-23 23:08:59
      歐盟批準對烏克蘭900億歐元貸款!同時歐盟通過了對俄羅斯第20輪制裁方案

      歐盟批準對烏克蘭900億歐元貸款!同時歐盟通過了對俄羅斯第20輪制裁方案

      大象新聞
      2026-04-23 21:49:30
      54歲孫悅殺回來了!零下20度穿禮服唱歌,消失十年把爛牌打成王炸

      54歲孫悅殺回來了!零下20度穿禮服唱歌,消失十年把爛牌打成王炸

      娛小余
      2026-04-22 23:12:15
      茶顏悅色要跨界賣鹵味,長沙首家試點店4月28日開業

      茶顏悅色要跨界賣鹵味,長沙首家試點店4月28日開業

      三湘都市報
      2026-04-23 21:07:59
      封神后,女媧并沒有出爾反爾,而是給了妲己等軒轅墳三妖一條活路

      封神后,女媧并沒有出爾反爾,而是給了妲己等軒轅墳三妖一條活路

      人間無味啊
      2026-04-22 07:45:41
      稅后年薪2100萬歐!西媒曝皇馬巴薩競爭奧斯梅恩,轉會費超1億歐

      稅后年薪2100萬歐!西媒曝皇馬巴薩競爭奧斯梅恩,轉會費超1億歐

      夏侯看英超
      2026-04-24 00:12:44
      4月23日A股猛料:國務院重要會議點名!3行業將進入高速成長期!

      4月23日A股猛料:國務院重要會議點名!3行業將進入高速成長期!

      米果說識
      2026-04-23 14:36:56
      降級夜主帥拒談去留:英超100分神話為何一年崩塌

      降級夜主帥拒談去留:英超100分神話為何一年崩塌

      競技風云錄
      2026-04-23 07:01:06
      臉色多變,一夜之間,鄭麗文在國民黨內的地位翻篇

      臉色多變,一夜之間,鄭麗文在國民黨內的地位翻篇

      神祗與歌
      2026-04-04 15:45:17
      美伊海峽對峙升級,夜晚又出利好!金價V型反彈

      美伊海峽對峙升級,夜晚又出利好!金價V型反彈

      新浪財經
      2026-04-23 20:58:47
      官宣!切爾西換帥,劍指冠軍,傳奇中場剛剛奪冠,有望三度回歸

      官宣!切爾西換帥,劍指冠軍,傳奇中場剛剛奪冠,有望三度回歸

      嗨皮看球
      2026-04-23 11:12:37
      眼紅啊!從年薪20萬到125萬,一上海交大碩士特斯拉6年收入345萬

      眼紅啊!從年薪20萬到125萬,一上海交大碩士特斯拉6年收入345萬

      火山詩話
      2026-04-23 07:11:53
      島內變天信號出現!臺當局喊話:若時機成熟,愿主動與大陸協商

      島內變天信號出現!臺當局喊話:若時機成熟,愿主動與大陸協商

      至今
      2026-04-22 18:20:22
      采訪了100個娶了小三的男人,他們幾乎都說了同一句話,讓人恍然

      采訪了100個娶了小三的男人,他們幾乎都說了同一句話,讓人恍然

      千秋文化
      2026-04-15 20:18:32
      李四川戰新北市長如何勝選?吳子嘉:要靠這大咖

      李四川戰新北市長如何勝選?吳子嘉:要靠這大咖

      新時光點滴
      2026-04-24 02:10:08
      單身越久,死亡風險越高?中國科學家:每周2次性生活是安全線

      單身越久,死亡風險越高?中國科學家:每周2次性生活是安全線

      思思夜話
      2026-04-23 11:30:19
      伊朗議長:取消海上封鎖,全面停火才有意義

      伊朗議長:取消海上封鎖,全面停火才有意義

      澎湃新聞
      2026-04-23 02:08:03
      是巧合嗎?蘇林是興安春橋人,春橋的董事長叫蘇勇,被傳是親兄弟

      是巧合嗎?蘇林是興安春橋人,春橋的董事長叫蘇勇,被傳是親兄弟

      縱擁千千晚星
      2026-04-16 12:47:27
      5000元預算避坑!iPhone17和華為Mate80怎么選?看完不花冤枉錢

      5000元預算避坑!iPhone17和華為Mate80怎么選?看完不花冤枉錢

      數碼一號站
      2026-04-23 23:20:03
      2026-04-24 03:00:49
      智東西 incentive-icons
      智東西
      智東西,AI產業新媒體,專注報道人工智能的前沿技術發展,和技術應用帶來的千行百業產業變革。
      11676文章數 117037關注度
      往期回顧 全部

      科技要聞

      馬斯克喊出"史上最大產品",但量產難預測

      頭條要聞

      以色列:只要美國同意 將刺殺伊朗最高領袖

      頭條要聞

      以色列:只要美國同意 將刺殺伊朗最高領袖

      體育要聞

      給文班剃頭的馬刺DJ,成為NBA最佳第六人

      娛樂要聞

      王大陸因涉黑討債被判 女友也一同獲刑

      財經要聞

      普華永道賠償10億 恒大股東見到"回頭錢"

      汽車要聞

      預售30.29萬起 嵐圖泰山X8配896線激光雷達

      態度原創

      游戲
      藝術
      旅游
      手機
      數碼

      任天堂NS2銷量4倍碾壓PS5!差距懸殊 索尼難挽頹勢

      藝術要聞

      吉達塔蓋到第100層,“它是沙特唯一能按期完成的大項目”

      旅游要聞

      來廣州,分享10億元“中國旅游日”專屬優惠福利

      手機要聞

      vivo X500 Pro Max被曝光:2nm工藝+5GHz,2K直屏九月發!

      數碼要聞

      799元!小米推出米家無線吸塵器4C:170AW大吸力、75分鐘長續航

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: japanese五十路熟妇| 69精品人人人| 天天躁狠狠躁狠狠躁性色av| 中文字幕久久亚洲一区| 亚洲伊人色| 色翁荡媳又硬又粗又长视频| 亚洲国产人成自久久国产| 国产熟妇乱子伦视频在线观看| 3p?在线| 亚洲国产成人久久精品软件| 亚洲一道一本快点视频| 日产久久久久| 4hu亚洲人成人无码网www电影首页 | 老鸭窝在线视频| 日韩?欧美?国产| 中文字幕另类综合| av高清无码在线观看| 国产成人精品综合| 成全影视大全在线观看| 精品国产片一区二区三区| 免费观看性欧美大片无片 | 亚洲国产成人精品女人久久久| 成人精品区| 自拍视频亚洲精品在线| 久久99久国产麻精品66| 一区二区三区极品销魂| 在线成人AV| 精品少妇人妻av一区二区三区| 永久天堂网 av手机版| 99中文精品7| 四虎精品一区二区三区| 91在线观看视频| 国产情侣激情在线对白| 青青草无码免费一二三区| 噼里啪啦免费观看高清全集| 免费乱理伦片在线观看| 国产内射一区二区三区| 亚洲va| 成人av亚洲男人色丁香| 亚洲精品9999久久久久无码 | 少妇被黑人到高潮喷出白浆|