<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

      難以置信!DeepSeek 新變體速度提升200%,企業(yè)部署成本銳減60%

      0
      分享至

      距離DeepSeek發(fā)布其熱門開源模型 DeepSeek 的最新版本 R1-0528,才剛過去一個(gè)多月,本周,一家 24 年歷史的德國公司 TNG 技術(shù)咨詢有限公司發(fā)布了一個(gè)此類改編版本:DeepSeek-TNG R1T2 Chimera,這是其 Chimera 大型語言模型系列的最新型號(hào)。

      R1T2 在效率和速度上實(shí)現(xiàn)了顯著提升,其智能基準(zhǔn)分?jǐn)?shù)達(dá)到 R1-0528 的 90% 以上,同時(shí)生成答案所需的輸出 token 數(shù)量不到 R1-0528 的 40%。

      這意味著它能產(chǎn)生更簡短的回復(fù),直接轉(zhuǎn)化為更快的推理速度和更低的計(jì)算成本。在 TNG的AI 代碼共享社區(qū)上,該公司稱其 “比常規(guī) R1快約 20%,比 R1-0528快兩倍以上”。

      對(duì)此,AI 開發(fā)者社區(qū)的反響極為熱烈。社區(qū)高級(jí)負(fù)責(zé)人寫道:“天?。eepSeek R1T2,比 R1-0528 快 200%,比 R1 快 20%。在 GPQA 和 AIME 24 上顯著優(yōu)于 R1,通過專家組裝法結(jié)合 DS V3、R1 和 R1-0528 構(gòu)建,且采用 MIT 許可證,可在社區(qū) 上獲取?!?/p>


      這一提升得益于 TNG 的專家組裝(AoE)方法,這是一種通過選擇性合并多個(gè)預(yù)訓(xùn)練模型的內(nèi)部參數(shù)來構(gòu)建 LLM 的技術(shù)。作為原始 R1T Chimera 的后繼者,R1T2 引入了新的 “三思維”(Tri-Mind)配置,集成了三個(gè)父模型:DeepSeek-R1-0528、DeepSeek-R1 和 DeepSeek-V3-0324。其結(jié)果是一個(gè)經(jīng)過精心設(shè)計(jì)的模型,既能保持高推理能力,又能顯著降低推理成本。

      而且,R1T2 的構(gòu)建無需進(jìn)一步微調(diào)或再訓(xùn)練。它繼承了 R1-0528 的推理優(yōu)勢(shì)、R1 的結(jié)構(gòu)化思維模式,以及 V3-0324 簡潔的指令導(dǎo)向特性,為企業(yè)和研究應(yīng)用提供了一個(gè)更高效且有能力的模型。

      01

      專家組裝(AoE)與

      專家混合(MoE)的區(qū)別

      專家混合(MoE)是一種架構(gòu)設(shè)計(jì),其中不同組件根據(jù)輸入有條件地激活。在 DeepSeek-V3 或 Mixtral 等 MoE LLM 中,任何給定 token 的前向傳播過程中,僅激活模型專家層的一部分。這使得超大型模型能夠?qū)崿F(xiàn)更高的參數(shù)數(shù)量和專業(yè)化,同時(shí)保持推理成本可控,因?yàn)槊總€(gè) token 僅評(píng)估網(wǎng)絡(luò)的一小部分。

      專家組裝(AoE)是一種模型合并技術(shù),而非架構(gòu)。它用于通過選擇性插值多個(gè)預(yù)訓(xùn)練 MoE 模型的權(quán)重張量來創(chuàng)建新模型。AoE 中的 “專家” 指的是被合并的模型組件,通常是 MoE 層內(nèi)的路由專家張量,而非運(yùn)行時(shí)動(dòng)態(tài)激活的專家。

      TNG 對(duì) AoE 的實(shí)現(xiàn)主要側(cè)重于合并路由專家張量,同時(shí)通常保留來自更快模型的更高效共享層和注意力層。這種方法使生成的 Chimera 模型能夠繼承推理能力,而無需復(fù)制最強(qiáng)父模型的冗長或延遲。

      02

      性能與速度:基準(zhǔn)測(cè)試的實(shí)際結(jié)果

      E-25 和 GPQA-Diamond 測(cè)試集衡量,R1T2 實(shí)現(xiàn)了其最智能父模型 DeepSeek-R1-0528 90% 至 92% 的推理性能。然而,與 DeepSeek-R1-0528 不同,R1T2 被設(shè)計(jì)為更加簡潔。它能以少得多的詞匯量提供同樣智能的響應(yīng)。TNG 并非關(guān)注原始處理時(shí)間或每秒 token 數(shù),而是以每個(gè)答案的輸出 token 數(shù)來衡量 “速度”,這是成本和延遲的實(shí)用代理指標(biāo)。

      根據(jù) TNG 共享的基準(zhǔn)測(cè)試,R1T2 生成響應(yīng)所需的 token 數(shù)約為 R1-0528 的 40%。這意味著輸出長度減少 60%,直接縮短推理時(shí)間和計(jì)算負(fù)載,將響應(yīng)速度提升 2 倍,即 200%。與原始 DeepSeek-R1 相比,R1T2 平均也約縮短 20%,為高吞吐量或成本敏感的部署提供了顯著的效率提升。這種效率并未以智能為代價(jià)。


      03

      部署注意事項(xiàng)與可用性

      R1T2 根據(jù)寬松的 MIT 許可證發(fā)布,現(xiàn)已在社區(qū)上提供,這意味著它是開源的,可用于構(gòu)建商業(yè)應(yīng)用。TNG 指出,盡管該模型非常適合一般推理任務(wù),但由于繼承自 DeepSeek-R1 的局限性,目前不建議用于需要函數(shù)調(diào)用或工具使用的用例。這些問題可能在未來的更新中解決。

      對(duì)企業(yè)技術(shù)決策者的意義

      對(duì)于CTO、AI 平臺(tái)所有者、工程負(fù)責(zé)人和 IT 采購團(tuán)隊(duì)而言,R1T2 帶來了切實(shí)的好處和戰(zhàn)略選擇:

      更低的推理成本:每個(gè)任務(wù)的輸出 token 更少,R1T2 減少了 GPU 時(shí)間和能源消耗,直接轉(zhuǎn)化為基礎(chǔ)設(shè)施節(jié)省 —— 這在高吞吐量或?qū)崟r(shí)環(huán)境中尤為重要。

      無開銷的高推理質(zhì)量:它保留了 R1-0528 等頂級(jí)模型的大部分推理能力,但沒有其冗長性。這非常適合數(shù)學(xué)、編程、邏輯等結(jié)構(gòu)化任務(wù),這些任務(wù)更偏好簡潔的答案。

      開放且可修改:MIT 許可證允許完全的部署控制和自定義,支持在受監(jiān)管或空氣隔離環(huán)境中進(jìn)行私有托管、模型對(duì)齊或進(jìn)一步訓(xùn)練。

      新興的模塊化:AoE 方法預(yù)示著未來模型將以模塊化方式構(gòu)建,使企業(yè)能夠通過重組現(xiàn)有模型的優(yōu)勢(shì)來組裝專用變體,而無需從頭開始再訓(xùn)練。

      注意事項(xiàng):依賴函數(shù)調(diào)用、工具使用或高級(jí)代理編排的企業(yè)應(yīng)注意當(dāng)前的局限性,盡管未來的 Chimera 更新可能會(huì)解決這些差距。

      關(guān)于首席信息官

      公眾號(hào)“首席信息官 ”由資深媒體人創(chuàng)辦,致力于用專業(yè)的文字,精準(zhǔn)的洞察,特色的服務(wù),深入的踐行服務(wù)企業(yè)數(shù)智化領(lǐng)域,為產(chǎn)業(yè)的發(fā)展點(diǎn)燃“微光”!

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      反轉(zhuǎn)來了!木子美大罵全紅嬋,扒出她在網(wǎng)暴群里點(diǎn)過贊,動(dòng)機(jī)變了

      反轉(zhuǎn)來了!木子美大罵全紅嬋,扒出她在網(wǎng)暴群里點(diǎn)過贊,動(dòng)機(jī)變了

      千言娛樂記
      2026-04-17 11:37:05
      黃圣依17年終錯(cuò)付,楊子帶23歲新女友見91歲母親,銅錢盆搶鏡

      黃圣依17年終錯(cuò)付,楊子帶23歲新女友見91歲母親,銅錢盆搶鏡

      卷史
      2026-04-18 13:54:59
      無人機(jī)"掃碼飛"要來了,審批困局能破嗎?

      無人機(jī)"掃碼飛"要來了,審批困局能破嗎?

      閃存獵手
      2026-04-17 12:04:20
      麥當(dāng)娜:睡過100+猛男,2段婚姻全敗,如今又戀上兒子29歲教練

      麥當(dāng)娜:睡過100+猛男,2段婚姻全敗,如今又戀上兒子29歲教練

      七阿姨愛八卦
      2026-04-15 17:12:30
      看了宋寧峰的某魚賬號(hào),發(fā)現(xiàn)他審美品味挺高,網(wǎng)友:沒覺得他缺錢

      看了宋寧峰的某魚賬號(hào),發(fā)現(xiàn)他審美品味挺高,網(wǎng)友:沒覺得他缺錢

      情感大頭說說
      2026-04-18 20:50:37
      德媒:曼聯(lián)有意免簽阿拉巴!帕爾默:我無意在今夏離開切爾西!

      德媒:曼聯(lián)有意免簽阿拉巴!帕爾默:我無意在今夏離開切爾西!

      足球偵探
      2026-04-19 08:35:07
      奉勸所有中國人,大家一定要做好心理準(zhǔn)備

      奉勸所有中國人,大家一定要做好心理準(zhǔn)備

      安安說
      2026-04-14 11:01:43
      皮特森:廣東有前NBA球員國家隊(duì)球員 但我們下半場(chǎng)控制對(duì)手得30分

      皮特森:廣東有前NBA球員國家隊(duì)球員 但我們下半場(chǎng)控制對(duì)手得30分

      狼叔評(píng)論
      2026-04-18 23:16:10
      “富人才不會(huì)把女兒養(yǎng)這么胖”,家長曬女兒喝60元礦泉水,被群嘲

      “富人才不會(huì)把女兒養(yǎng)這么胖”,家長曬女兒喝60元礦泉水,被群嘲

      妍妍教育日記
      2026-04-16 10:25:09
      你最接近生理極限的一次經(jīng)歷是什么?網(wǎng)友分享讓人目瞪口呆!

      你最接近生理極限的一次經(jīng)歷是什么?網(wǎng)友分享讓人目瞪口呆!

      夜深愛雜談
      2026-04-09 19:39:13
      記錄報(bào):穆里尼奧成為皇馬新帥候選,弗洛倫蒂諾有意和他會(huì)面

      記錄報(bào):穆里尼奧成為皇馬新帥候選,弗洛倫蒂諾有意和他會(huì)面

      懂球帝
      2026-04-19 05:29:08
      廣州水餃店火了:一句“你工資低”,讓精致窮全體沉默

      廣州水餃店火了:一句“你工資低”,讓精致窮全體沉默

      萌醬追熱點(diǎn)
      2026-03-19 13:14:29
      10億違建豪宅一夜推平,背后“大人物”被扒,官媒:一點(diǎn)都不冤!

      10億違建豪宅一夜推平,背后“大人物”被扒,官媒:一點(diǎn)都不冤!

      網(wǎng)絡(luò)易不易
      2026-04-19 06:05:07
      小米 YU9 要來了,外觀真的猛!

      小米 YU9 要來了,外觀真的猛!

      花果科技
      2026-04-17 13:44:41
      張雪回應(yīng)WSBK荷蘭站違規(guī)被罰:車手和車沒遇到任何問題

      張雪回應(yīng)WSBK荷蘭站違規(guī)被罰:車手和車沒遇到任何問題

      快科技
      2026-04-19 08:40:06
      眼神“官宣”:姐的完美身體,毫無缺點(diǎn)

      眼神“官宣”:姐的完美身體,毫無缺點(diǎn)

      飛娛日記
      2026-04-17 07:50:09
      笑麻!女子吐槽花1年裝修的新中式都說像法庭,我卻笑死在評(píng)論區(qū)

      笑麻!女子吐槽花1年裝修的新中式都說像法庭,我卻笑死在評(píng)論區(qū)

      另子維愛讀史
      2026-04-17 17:36:52
      胡錫進(jìn)給沃爾沃汽車做廣告,評(píng)論區(qū)全翻車了……

      胡錫進(jìn)給沃爾沃汽車做廣告,評(píng)論區(qū)全翻車了……

      麥杰遜
      2026-04-17 11:51:26
      十天票房為零,多次定檔撤檔,全是五星好評(píng),年度最慘電影誕生了

      十天票房為零,多次定檔撤檔,全是五星好評(píng),年度最慘電影誕生了

      影視高原說
      2026-04-19 08:11:49
      又打起來了,以色列不宣而戰(zhàn),美軍擊沉船只,伊朗:做好戰(zhàn)斗準(zhǔn)備

      又打起來了,以色列不宣而戰(zhàn),美軍擊沉船只,伊朗:做好戰(zhàn)斗準(zhǔn)備

      孤單是寂寞的毒
      2026-04-19 04:11:57
      2026-04-19 09:11:00
      首席信息官 incentive-icons
      首席信息官
      以數(shù)字化和商業(yè)創(chuàng)新為視角
      513文章數(shù) 130關(guān)注度
      往期回顧 全部

      科技要聞

      傳Meta下月擬裁8000 大舉清退人力為AI騰位

      頭條要聞

      女子與情人在車上發(fā)生關(guān)系后被殺 還被灌農(nóng)藥偽造殉情

      頭條要聞

      女子與情人在車上發(fā)生關(guān)系后被殺 還被灌農(nóng)藥偽造殉情

      體育要聞

      時(shí)隔25年重返英超!沒有人再嘲笑他了

      娛樂要聞

      劉德華回應(yīng)潘宏彬去世,拒談喪禮細(xì)節(jié)

      財(cái)經(jīng)要聞

      華誼兄弟,8年虧光85億

      汽車要聞

      奇瑞威麟R08 PRO正式上市 售價(jià)14.48萬元起

      態(tài)度原創(chuàng)

      家居
      藝術(shù)
      手機(jī)
      公開課
      軍事航空

      家居要聞

      法式線條 時(shí)光靜淌

      藝術(shù)要聞

      鄭麗文大陸之行引發(fā)熱議,孫中山贈(zèng)對(duì)聯(lián)成焦點(diǎn)!

      手機(jī)要聞

      華為Pura X Max:被曝24日開賣!華為Pura 90:發(fā)售日成謎!

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      解放軍護(hù)衛(wèi)艦與外艦纏斗20小時(shí) 細(xì)節(jié)披露

      無障礙瀏覽 進(jìn)入關(guān)懷版