<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      剛剛,姚順雨騰訊首秀來了!三個月重建混元新模型,實測到底什么水平

      0
      分享至


      這周,中國大模型的更新讓人窒息。前腳阿里最強旗艦 Qwen 3.6 Max剛發布,月之暗面的 Kimi 2.6 就馬上登場,DeepSeek V4 也箭在弦上。

      剛剛,混元的 Hy3 Preview 也正式亮相,這是騰訊首席 AI 科學家姚順雨主導的一個模型。

      姚順雨表示,Hy3 preview是混元大模型重建的第一步。他希望通過這次開源和發布,不斷提升 Hy3 正式版的實用性,以及模型在真實場景中的綜合表現,并開始探索特色模型能力。

      從去年年底姚順雨加入騰訊,入職首席 AI 科學家,并負責 AI Infra 及大語言模型,1 月底開始啟動模型訓練,三個月的時間完成了從訓練到上線。

      這個大版本升級的混元模型,在短時間內,不僅對底層基礎設施進行了系統性重建,還包括預訓練和強化學習在內的底層框架,全部推倒重來。

      最后的答卷是一個快慢思考融合的 MoE(混合專家)語言模型,總參數 295B,激活參數 21B,最大支持 256K 上下文長度。

      在這個行業動輒吹噓萬億(1T+)參數的時代,Hy3 preview 的數據顯得有些克制。但這個參數很明顯是兼顧了性能和成本之間的平衡,讓模型能更好落地在不同場景。


      而 300B 這個量級,復雜的數理推理、長上下文理解和指令遵循能力都已經被充分激活;如果繼續強行擴大規模到萬億參數,一邊是訓練時間加倍,在實際的表現上,也容易出現通信延遲、吞吐瓶頸和推理成本翻倍等問題。

      不過,姚順雨也提到,他們在繼續擴大預訓練和強化學習的規模,提升模型的智能上限。


      在多個真實生產和生活場景 benchmark,以及騰訊混元的 CL-bench 上表現對比前代,提升幅度明顯。

      因此,Hy3 preview 這次的定位非常明確,要到真實世界去解決復雜工程問題。

      為了驗證 Hy3 preview 是否能在真實世界去解決各種問題,具體的模型表現如何,APPSO 也提前拿到了內測資格,在元寶 App 和 WorkBuddy 桌面端應用了實測了一段時間。

      編程和 Agent,混元開始接住真實的工程需要

      編程能力目前還是各家大模型發力的重點,前幾天還有外媒報道,谷歌正在成立一個新的團隊,專攻 AI Coding。

      這次的騰訊混元新一代大模型 Hy3 preview 同樣在通用能力的提升基礎上,能夠適用于編程和現在熱門的智能體場景。

      例如我們用之前 GPT 5.4 模型發布時使用的編程測試案例,來看看 Hy3 preview 的具體表現。


      ▲提示詞:創建一個超寫實的舊金山金門大橋交互式 3D 體驗,允許我自由飛翔環繞。環境需包含真實的照明、水體、霧氣、大氣效果、懸索、車流、周邊海岸線及城市背景,并具備電影級的尺度感和細節。讓我能通過直覺式的飛行控制和多視角(包括近距離結構穿梭和大場景俯瞰)平滑地進行場景導航。核心要求是真實感、沉浸感和視覺忠實度。在測試運行時,務必從多個距離和角度環繞大橋飛行,驗證導航的平穩性與穩定性,并確保場景無論遠近都極具說服力。你可以利用 imagegen 技能生成建模所需的初始資產。視覺效果絕不能有任何“方塊感”或“廉價感”,必須達到高保真、極度平滑、近乎照片的質感。橋面上應有真實的車輛通行。不必急于求成,如果需要,即使耗時一小時也可以。請不斷迭代,直至完美。

      雖然最后的結果并不是非常寫實,主要差距還是在于所使用的工具限制。但整個體驗還是非常流暢和絲滑,我們能使用 WASD 鍵來控制自己第一人稱視角的飛行,同時 Hy3 preview 也自動寫了一些默認視角。

      而在讓它寫一些簡單的小游戲時,像是同樣來自 GPT-5.4 的提示詞,做一個游樂場的經營類小游戲。


      ▲提示詞:創建一個可以在瀏覽器中構建并導航的交互式等軸測 (isometric ) 主題公園模擬游戲。利用 imagegen 確立整體視覺風格,并生成全套游戲資產,包括游樂設施、路徑、地形、樹木、水體、食品攤位、裝飾物、建筑、圖標以及 UI 插畫。游戲世界必須具備高度的統一感、精致度以及豐富的視覺表現,藝術風格需高端且適配等軸測視角。允許平滑地鋪設或拆除路徑、添加景點、布置景觀并環繞公園移動,同時能夠監控游客活動、設施狀態以及公園的發展情況。系統需包含可信的游客移動算法,以及簡單的公園管理系統(如資金、清潔度、排隊和滿意度)。確保整體體驗充滿趣味、邏輯清晰且完整,而非粗糙的原型。在優先級上,趣味性、易讀性以及出色的游戲手感高于寫實度。在進行玩法測試時,務必通過多輪操作來構建并擴張公園。驗證設施放置與導航是否順暢,確認游客對公園布局及景點的反應,并確保視覺效果、UI 以及交互體驗穩定且統一。

      還是不可免俗的使用了「漸變紫」的套裝,只能說界面審美這一塊,除了編程能力的提升,還是需要額外的一些微調。

      好在整個游戲是能玩的,我們可以真實的經營這個游樂場,通過鋪路、放置新的游樂設施以及服務設施等場地,來賺取收入,控制人流。

      而經典的「騎自行車的鵜鶘」測試,我們把它換成了更難一點的,開著汽車的長頸鹿。生成的 SVG 畫面是動態的,太陽、云朵和車子都在移動,基礎的 SVG 元素都能做到。


      這些關于編程能力的測試,我們都是在騰訊前段時間推出的智能體應用 WorkBuddy 內完成。


      而除了代碼開發的任務,我們還可以使用 WorkBuddy 進行文檔處理、數據分析可視化、深度研究等方面的日常辦公。

      由于 WorkBuddy 也是一個本地 Agent 產品,和 Claude Code、Codex 之類的應用一樣,我們可以讓它直接訪問本地文件夾的文件。

      要求它訪問電腦上 Hy3 文件夾里面的全部文件,并根據文件的內容,創建一個類似于 Wiki 的網頁,能夠直接索引到不同的文件。


      WorkBuddy 讀到了我們創建的不同項目,例如要求它完成的落地頁、3D 金門大橋、個人博客、運營游戲等項目,并分類總結好。

      再要求它把其中一個香港國際電影節的 PDF 文件轉成 HTML,要求它 1:1 復刻精美的雜志效果,顯然太為難它,但是 Hy3 preview還是能在非常規排版的 PDF 文件里,準確定位到信息,并整理成網頁。


      而在深度研究的調研任務上,我們要求他寫一份關于內存市場洞察報告,給出的文檔內容詳細,使用的數據來源也全是權威機構。


      繼續用 WorkBuddy 內的數據分析及可視化任務來測試時,要求 Hy3 preview 基于聯合國人口司的數據,做一次全球人口結構變遷的可視化分析,Hy3 preview 花了非常長的時間進行調研,最后給出的研究報告,可以說能直接拿過來用。


      ▲部分可視化圖表截圖

      這些編程和智能體的能力,配合 WorkBuddy 能發揮到最大。在元寶 App 內,現在我們也可以讓它生成一些小型的網頁游戲,在對話框里就能預覽打開。

      閑聊,要做到「活人感」不容易

      前段時間,一個短視頻在網上傳播,視頻內容是一位乘客看到前排的司機,在手機上和 AI 助手聊天,他告訴 AI 自己一天收入,AI 會給他一些反饋。

      有網友在下面留言,說以前這些聊天都是 200 塊一小時的心理咨詢,現在手機發條消息就能做到。


      無論模型在代碼開發、解數學題、科學研究上取得了多少成功,大多數人用 AI 的場景,占比較多的還是各種類型的角色扮演。

      我們也測試了騰訊混元新一代大模型 Hy3 preview 在日常聊天以及創意寫作上的表現。

      沒有「不躲不逃不藏的只用最直接」的方式跟我說,有的是真實地能解決問題的文字。打開元寶 App,點擊深度/快速思考,選擇模型 Hy3 Preview,問它「為什么我在廣州找不到愛情」。

      它的回復是客觀和主觀兩方面并行的,會分析除我之外的原因,也會告訴我應該要怎么做。


      在聊到一些可能找到明顯原因的困惑時,Hy3 preview 還會自動生成對應的表格,來解釋 AI 并不是只會順從。

      創意寫作的任務上,Hy3 preview 模型的表現,也要比前代更有文采和個性化風格,即便是簡單的生活文案,人情味也更明顯了。

      我們找了一些基礎的風格模仿任務、敘事節奏的續寫、語言的創作力和情緒張力等題目,來測試它。


      生成的寫作結果,在獨特性、執行精確度,以及風格穩定性上的表現,確實要更符合我們人類寫作的特點,沒有 AI 那種明顯的套話。

      那道經典的走路去還是開車去洗車問題,Hy3 preview 也答上來了。


      當所有人在做一套卷子,混元開始出卷

      過去兩年多,中國 AI 行業有一種集體焦慮:所有人都在做同一件事。同樣的架構,同樣的訓練范式,同樣的榜單,同樣的新聞稿模板。模型發布會的 PPT 換個 logo 就能通用,「全球領先」「性能登頂」這些詞被用到通貨膨脹。

      騰訊曾經也在這個隊列里。別人打榜它也打榜,別人堆參數它也堆參數,別人做什么功能它追什么功能。結果是混元的技術投入不少,但市場感知始終模糊。你問用戶「混元跟別家有什么區別」,大概率答不上來。

      Hy3 preview 的意義,可能恰恰在于騰訊終于不追求打榜了。這也是姚順雨帶給混元最大的變化。


      此前晚點一篇報道就轉述了姚順雨在騰訊內部會上的判斷:模型過度追逐榜單成績,將打榜語料放入訓練集,數據被污染了。模型很會答題,到了真實場景卻不穩定。

      榜單衡量的是能力上限,用戶感知的是能力下限。MMLU 上領先兩個百分點,用戶在實際使用中幾乎感知不到;反過來,指令遵循稍差、格式不穩定、幻覺率偏高,用戶體驗會斷崖式下降。

      所以在 Hy3 preview 上, 就能看到混元開始把這個邏輯翻了過來:不追榜單,追場景。


      ▲去年一份報告就曾指出, AI 在各類基準測試上的分數一路飆升,benchmark 過于飽和,這些成績往往并不能真實反映它對現實世界的實際影響。

      295B 的參數量說明它不打算在模型尺寸上硬碰硬。不上公開榜單說明它不打算在刷分上繼續內卷。Co-design 的研發模式說明它開始把注意力從「別人做了什么」轉向「我的用戶需要什么」。

      這里就不得不來看看騰訊這家公司的核心業務場景,社交、游戲、廣告、企業服務,每一個都有極強的領域特殊性。微信的對話流是碎片化的、高密度的;游戲需要模型根據實時局勢做即時反應;企業微信和騰訊會議需要基于私有文檔的精準分析。


      ▲ Hy3 preview 已在騰訊云、元寶、ima、CodeBuddy、WorkBuddy、QQ、QQ瀏覽器、騰訊文檔、騰訊樂享等首發上線,微信公眾號、和平精英、騰訊新聞、騰訊自選股、騰訊客服、微信讀書等多個主線產品也在陸續上線。

      這些場景對模型的要求,跟通用智能榜單上考核的那些指標并不完全匹配。一個在 MMLU 上排名前三但在微信群聊里讀不懂語境的模型,對騰訊來說毫無意義。

      換句話說,騰訊可能是中國大廠里最不應該去追通用榜單的那一個。它手里攥著的場景足夠獨特、足夠復雜、足夠有商業價值,完全可以走出一條自己的路。

      Co-design 就是這條路的起點。模型在真實業務里跑,業務用真實數據反哺模型,騰訊對 AI 的巨額投入能得到場景的快速驗證,同時獲得商業上的閉環。這個飛輪一旦轉起來,產生的壁壘比榜單上的排名堅固得多。

      當所有人都在比誰的模型更「全能」的時候,誰的模型在自己的場景里最「好用」,可能才是真正的勝負手。


      當然,「找到節奏」和「贏下比賽」之間還隔著相當的距離。

      Hy3 preview 是混元重整后的第一個模型,三個月的研發周期說明執行力在線,但也意味著大量的優化空間。55% 到 56% 的盲評勝率說明它夠用,距離拉開差距還早。更大尺寸的模型在路上,正式版還在根據 Preview 階段的用戶反饋持續打磨。

      但至少有一件事變了:混元不再追著別人的地圖跑了。它開始畫自己的地圖,標自己的路。

      大模型競爭走到今天,同質化才是最大的風險。當所有人都在用同一把尺子量身高的時候,有人開始造自己的尺子,量自己真正需要的維度。

      這件事本身,比任何一榜單參數都值得關注。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      切爾西瘋了?醞釀請回冠軍主帥!藍軍功勛或空降斯坦福橋

      切爾西瘋了?醞釀請回冠軍主帥!藍軍功勛或空降斯坦福橋

      瀾歸序
      2026-04-25 05:55:02
      讀大專的都混成啥樣了?廣西一女子畢業1年,宿舍5人只有一人失業

      讀大專的都混成啥樣了?廣西一女子畢業1年,宿舍5人只有一人失業

      唐小糖說情感
      2026-04-25 12:36:37
      中國第四艘核動力航母官宣,舷號19或為江蘇號

      中國第四艘核動力航母官宣,舷號19或為江蘇號

      明天見灌裝冰塊
      2026-04-25 07:50:30
      圣馬克西曼:對手已無欲無求卻比我們更有斗志,這不正常

      圣馬克西曼:對手已無欲無求卻比我們更有斗志,這不正常

      懂球帝
      2026-04-25 07:10:48
      蔚來全新ES8玄金特別版正式上市,售價45.68萬元 | 2026北京車展

      蔚來全新ES8玄金特別版正式上市,售價45.68萬元 | 2026北京車展

      北京商報
      2026-04-24 13:43:06
      全是反轉!《八千里路云和月》40集大結局,是今年看過最遺憾結局

      全是反轉!《八千里路云和月》40集大結局,是今年看過最遺憾結局

      娛君墜星河
      2026-04-25 12:14:57
      機關事業單位人員大清理,這 5 類人員將被清退

      機關事業單位人員大清理,這 5 類人員將被清退

      細說職場
      2026-04-25 13:38:47
      國乒男團陣容落定!關鍵二單敲定,王皓布局精妙球迷直呼穩了

      國乒男團陣容落定!關鍵二單敲定,王皓布局精妙球迷直呼穩了

      寶哥精彩賽事
      2026-04-25 12:25:49
      杜鋒說出輸球原因:能量專注度不夠+幫拉科磨合,用2愛將是關鍵

      杜鋒說出輸球原因:能量專注度不夠+幫拉科磨合,用2愛將是關鍵

      呀古銅
      2026-04-25 14:13:32
      舊將:皇馬戰貝蒂斯無球不算被動,巴爾韋德和貝林厄姆太能跑

      舊將:皇馬戰貝蒂斯無球不算被動,巴爾韋德和貝林厄姆太能跑

      懂球帝
      2026-04-25 14:27:01
      以為是“垃圾”,實際上“很健康”,這6種食物被冤枉了很多年!

      以為是“垃圾”,實際上“很健康”,這6種食物被冤枉了很多年!

      Home范
      2026-04-25 11:41:27
      老兵更新動態,保安被辭退處境堪憂,老兵一番話讓保安無地自容

      老兵更新動態,保安被辭退處境堪憂,老兵一番話讓保安無地自容

      離離言幾許
      2026-04-23 07:41:27
      哪些化妝品雖然貴,但是讓你用了不后悔的?網友:一分價錢一分貨

      哪些化妝品雖然貴,但是讓你用了不后悔的?網友:一分價錢一分貨

      夜深愛雜談
      2026-04-24 21:54:22
      很多地方單位拖欠工資,不是不想發是真的周轉不過來

      很多地方單位拖欠工資,不是不想發是真的周轉不過來

      爆角追蹤
      2026-04-24 18:34:02
      DeepSeek V4登頂了!梁文鋒把四大技術秘方公開

      DeepSeek V4登頂了!梁文鋒把四大技術秘方公開

      智東西
      2026-04-24 19:01:13
      2026年,如果你的家庭存款突破100萬,會發現一個驚人的真相!

      2026年,如果你的家庭存款突破100萬,會發現一個驚人的真相!

      藍色海邊
      2026-04-24 17:11:02
      湖人3:0火箭奪賽點!聽聽媒體專家怎么說,蘇群:年輕打不過73歲

      湖人3:0火箭奪賽點!聽聽媒體專家怎么說,蘇群:年輕打不過73歲

      蘭亭墨未干
      2026-04-25 12:35:30
      約中年女人出來玩,學會4個“不要臉”神操作,沒有搞不定的女人

      約中年女人出來玩,學會4個“不要臉”神操作,沒有搞不定的女人

      小影的娛樂
      2026-04-11 16:46:06
      曝克洛普同意接掌皇馬!提出九大轉會要求,這三人必須買

      曝克洛普同意接掌皇馬!提出九大轉會要求,這三人必須買

      瀾歸序
      2026-04-25 05:46:16
      火箭丟G3!史密斯直指防守提升,謝潑德自責攻守,申京寄語創奇跡

      火箭丟G3!史密斯直指防守提升,謝潑德自責攻守,申京寄語創奇跡

      籃球資訊達人
      2026-04-25 12:46:11
      2026-04-25 15:15:00
      愛范兒 incentive-icons
      愛范兒
      消費科技第一媒體
      38766文章數 2601556關注度
      往期回顧 全部

      科技要聞

      DeepSeek V4發布!黃仁勛預言的"災難"降臨

      頭條要聞

      "蚊子大軍"來襲北極圈也被攻破 各地疾控發出重要預警

      頭條要聞

      "蚊子大軍"來襲北極圈也被攻破 各地疾控發出重要預警

      體育要聞

      火箭0-3觸發百分百出局定律:本季加時賽9戰8敗

      娛樂要聞

      鄧超最大的幸運,就是遇見孫儷

      財經要聞

      90%訂單消失,中東旺季沒了

      汽車要聞

      2026款樂道L90亮相北京車展 樂道L80正式官宣

      態度原創

      手機
      游戲
      健康
      教育
      軍事航空

      手機要聞

      打破沉悶色調:谷歌有望推出松綠色Pixel 11 Pro Fold折疊手機

      PS5實體版僅需180元!這款索尼3A級大作真心不能錯過

      干細胞如何讓燒燙傷皮膚"再生"?

      教育要聞

      第11課-Discomfort and difficulties 海外遇到困難怎么辦?

      軍事要聞

      美防長:戰事不會“沒完沒了”

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 国产成人A码男人的天堂国产乱| 久久精品国产亚洲精品| 成人AV专区精品无码国产| 福利在线不卡| 国产欧美精品aaaaaa片| 天堂在线V| 天天色欧美综合| 99xav| 久久国产精品二国产人妻| 亚洲日韩一区二区| 亚洲乱码日产精品bd在线下载| 人人妻人人澡人人爽人人精品97| 人妻少妇综合一区二区| 国产精欧美一区二区三区| 另类一区| 国产成人欧美综合在线影院 | 亚洲日本乱码一区二区在线二产线| 蜜桃av色偷偷av老熟女| 91亚洲视频| 国产精品久久久久久无毒不卡| 免费vA片| 亚洲欧美中文字幕| 精品一二三| 男女猛烈无遮挡免费视频APP| 最新精品国偷自产在线| 亚洲国产麻豆一区二区三区| 日韩精品亚洲人成在线观看 | 欧美猛少妇色xxxxx| 绯色AV毛片一级| 天天做天天爱天天做| 久久99九九精品久久久久蜜桃 | 国产无码中文| 亚州综合成人网| 中文国产不卡一区二区| 蜜桃av麻豆av果冻传媒| aⅴ精品无码无卡在线观看| 无码人妻精品一区二区三区66| 国模杨依粉嫩蝴蝶150p| 国模偷拍视频一区二区| 亚洲国产日韩在线视频| 亚洲第一区欧美国产综合|