<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      上交大和輝羲把LLM刻進ROM!推理性能沖2萬token/s,GPU時代終結?

      0
      分享至


      新智元報道

      編輯:犀牛

      【新智元導讀】當硅谷Taalas將大模型「物理焊死」進芯片引爆全球半導體圈,來自上海交大、輝羲智能與微軟亞洲研究院的研究團隊早已走得更遠——他們用ROM+SRAM異構架構,將端側LLM推理速度推至20,000 tokens/s,端側算力直接起飛。

      近期,硅谷初創公司 Taalas 提出的「模型即芯片(Model-on-Chip)」方案引發了全球半導體業界對「硬核 AI」的深度反思。

      他們繞開了所有熱門概念,直接把AI大模型,物理焊死在硅片里!

      芯片運行Llama 3.1 8B的速度達到了17,000tokens/秒

      足足比業界最頂端的英偉達GPU提升了將近10倍!


      英偉達這邊也沒閑著,GTC 2026前夕,英偉達釋放明確信號:即將發布的Feynman架構將與Groq LPU技術實現深度融合。

      LPU架構通過預編排的固定指令流驅動模型,摒棄傳統HBM主存,轉而采用片上SRAM存儲權重,大幅突破了原有的訪問速度與帶寬瓶頸。

      這些都預示著,在Scaling Law驅動的大模型時代,傳統的通用指令集正成為鎖死算力的枷鎖。

      如何從物理層面徹底擊碎困擾大語言模型(LLM)部署的「內存墻」,已成為定義生成式 AI 下半場的關鍵。


      現有端側存儲方案不能同時滿足LLM推理的存儲容量和訪存帶寬需求

      事實上,針對 LLM 的訪存特性,來自上海交大、輝羲智能及微軟亞洲研究院的研究團隊早已展開了一場存儲層次結構的創新研究。

      通過ROMA與TOM系列研究,團隊展現了與 Taalas 不謀而合的架構洞察:通過對只讀存儲(ROM)的顛覆性應用與「算法-架構」深度協同,成功將LLM 的端側推理速度推向 20,000 tokens/s的水平,這一突破性成果在具身智能等前沿領域展現了巨大的應用潛力。


      ROMA:打破傳統存儲層次

      重塑端側能效

      在大模型端側部署的實戰中,傳統的內存層次結構正面臨前所未有的挑戰。

      研究團隊提出的 ROMA(Read-Only-Memory-based Accelerator) 架構,針對端側場景的特殊需求,給出了一套系統的解法。


      ROMA的計算架構,采用ROM+SRAM的方案

      1.引入只讀存儲(ROM):從源頭解決訪存能效

      研究團隊發現,大模型推理的能效瓶頸主要源于權重數據在外部內存(如 LPDDR)與計算單元之間的頻繁搬運。

      ROMA 另辟蹊徑,利用高集成密度、低功耗的只讀存儲(ROM)作為權重的存儲載體,將模型參數從源頭上固化在芯片內部,大幅度降低了訪存功耗。

      2.QLoRA 賦能靈活性:在「固化」中尋找演進空間

      完全硬連線的芯片往往難以應對算法的快速迭代。ROMA 巧妙地引入了 QLoRA 機制,通過ROM(基座模型)+ SRAM(LoRA 適配器)的混合設計,確保了芯片在擁有「硬核」性能的同時,依然保留了強大的應用靈活性。

      開發者只需下發極小規模的 LoRA 插件,即可讓固化的基座模型在不同垂直任務間快速切換。

      3.架構與物理設計協同:極致的物理實現

      為了實現真正的片上全模型存儲,團隊進行了深度的 架構與物理設計協同優化。

      通過獨創的 B-ROM 設計,將計算單元與存儲陣列進行緊耦合的物理布局,極大地縮短了信號傳輸路徑。

      這種協同設計讓 ROMA 在有限的芯片面積內,實現了對數億參數模型的高效容納與實時調度。

      最終,ROMA的規格和指標與Taalas非常接近:ROMA采用7nm工藝庫,芯片面積約 500 mm2,可以完整容納4bit LLaMA3.2-3B 或者 2bit LLaMA3-8B,推理性能達到20,000 tokens/s,而同樣采用ROM+SRAM的方案的Taalas是6nm工藝,面積約800mm2,可容下3-6bit llama3.1-8B,性能接近20,000 tokens/s。

      TOM:深度挖掘三值化大模型

      帶來的存儲紅利

      在 ROMA 的基礎上,最新的TOM(Ternary-Oriented Memory)架構進一步將優化的觸角延伸到了算法底層的存儲特征中,把ROMA擴展到BitNet/Ternary量化這個場景,利用低比特權重的0值稀疏性,繼續提升了ROM的存儲密度。


      低比特模型0值分布特征,帶來ROM存儲密度提升潛力

      1.捕捉 BitNet 的硬件友好性:開啟「以邏輯代存儲」范式

      研究團隊發現,以 BitNet-b1.58 為代表的三值化({-1, 0, 1})模型展現出了極佳的硬件友好性 。

      基于這一發現,TOM 摒棄了傳統的存儲陣列,通過邏輯合成技術直接利用標準邏輯門實現模型權重的固化存儲 。

      在這種新范式下,硬件能夠直接識別并物理消除權重中「0」元素的存儲電路 。這一極致收益的實現,得益于三值模型中零值參數本就占據絕大多數的天然稀疏特性,加上定制的編碼方法(使用「10」而非「11」來表示 -1),從而大幅拉高了 0-bit 的整體占比,從根本上降低了物理開銷 。

      2.存儲邏輯的深度合并與復用:極限壓縮芯片面積

      為了進一步推高面積效率,TOM 引入了精細的邏輯優化策略:通過識別并提取不同權重存儲邏輯中的公共子序列,對重復的邏輯門進行深度合并與復用。

      這種從物理層對存儲邏輯進行的「極限去重」,使得 TOM 相比 ROMA 實現了片上存儲密度的數倍提升與芯片面積的大幅削減。

      這也再次印證了算法-硬件聯合設計在突破 AI 算力邊界時的核心重要性。

      具身智能與極端場景

      ROM 架構的「降維打擊」

      「模型即芯片」方案的興起,精準捕捉到了當前端側應用的兩大痛點:

      1.具身智能的「實時確定性」

      在機器人、無人設備等具身智能場景中,毫秒級的響應延遲往往決定了系統的物理安全性。

      ROMA 提供的 20,000+ tokens/s 吞吐量,是為了提供一種高確定性的實時反饋。

      這讓機器人能夠像擁有脊髓反射一樣,在感知到復雜的物理環境變化時,瞬時做出語義理解與避障決策。

      2.極端環境下的生存優勢:深海與火星

      在深海探測器、火星漫游車等極端場景下,DRAM 等易失性存儲器不僅能耗高,且容易受到高能射線干擾產生軟錯誤。

      ROM 架構具有天然的穩定性和抗輻射性。

      在能源匱乏、通信隔絕的極端環境下,搭載 ROMA/TOM 架構的設備依然能獨立、穩定地完成復雜的智能任務,且待機功耗極低。

      這使得大模型能夠真正走出實驗室,進入人類探索的「無人區」。

      3.智能終端的隱私「防火墻」

      對于手機端本地文本處理等場景,用戶對模型基座的頻繁更新需求并不高,但對隱私極其敏感。

      將成熟、穩定的模型能力固化在本地隔離電路中,不僅免去了頻繁聯網的能耗,更在物理層面上杜絕了數據外泄的風險。

      結語

      開啟端側內存層次結構的新紀元

      從 Taalas 的破圈到研究團隊ROMA與TOM系列工作的深度探索,我們正見證 AI 硬件架構的一個重要轉向。

      這種引入ROM+SRAM異構存儲層次結構的創新,結合對三值邏輯存儲特性的極致挖掘,為端側大模型部署提供了一條全新的進路。

      ROMA與TOM系列研究的誕生,植根于“模型即芯片”的設計思維。

      團隊的這種強調算法與硬件深度耦合的思維來源,最早可追溯至微軟亞洲研究院(MSRA)時期。

      核心作者中,王文強與曹士杰曾先后作為MSRA實習生在徐寧儀老師指導下開展研究,積淀了深厚的工業界系統經驗;張毅佳在上海交大攻讀博士期間師從徐老師,并先后在 MSRA 系統組與輝羲智能實習。

      研究團隊長期從事算法-芯片聯合設計的研究,在AI芯片架構設計、大模型輕量化等方面有豐富經驗。

      這種由資深架構師、企業研究員與學術新生代構成的多重紐帶,讓團隊得以將前沿的實戰思維與學術界的理論創新高效結合,在大模型范式下實現了從通用計算向 LLM 原生架構的協同突破。

      團隊介紹

      關于上交大團隊:團隊來自上海交通大學計算機學院定制計算中心(Customized Computing Center - CCC,ccc.sjtu.edu.cn),CCC聚焦于解決數據中心、邊緣設備和傳感器的所面臨的各種計算挑戰。

      關于輝羲智能:輝羲智能致力于成為全球領先的具身智能AI計算平臺供應商,以卓越算力促進人工智能發展。成立三年,公司已實現大算力端側旗艦芯片R1的成功流片與量產交付,率先在具身智能領域走通“芯片-平臺-產品”的全棧自主國產化路徑。

      參考資料:

      ROMA:https://arxiv.org/pdf/2503.12988

      TOM:https://arxiv.org/abs/2602.20662

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      抗美援朝被彭總火線撤職的5位師級將領,后來都授了什么軍銜

      抗美援朝被彭總火線撤職的5位師級將領,后來都授了什么軍銜

      鶴羽說個事
      2026-03-01 18:26:08
      《逐玉》CP感真玄學!同演張凌赫愛人,田曦薇和白鹿對比差距明顯

      《逐玉》CP感真玄學!同演張凌赫愛人,田曦薇和白鹿對比差距明顯

      亦暖追劇隨筆
      2026-03-07 12:40:57
      法國和浙江同為6000萬人口,2025年法國創3萬億美元GDP,浙江呢?

      法國和浙江同為6000萬人口,2025年法國創3萬億美元GDP,浙江呢?

      八斗小先生
      2026-02-28 18:56:17
      A股:三個信號來了,明天,周一股市提前分析!

      A股:三個信號來了,明天,周一股市提前分析!

      明心
      2026-03-08 10:01:44
      2026年變壓器十大品牌推薦:安全與長壽是核心,精準選型指南

      2026年變壓器十大品牌推薦:安全與長壽是核心,精準選型指南

      中關村在線
      2026-03-06 10:22:41
      “女吃播三巨頭”現狀:臉像骷髏、摘除味覺神經,有人已立好遺囑

      “女吃播三巨頭”現狀:臉像骷髏、摘除味覺神經,有人已立好遺囑

      談史論天地
      2026-02-06 19:00:03
      水下攝像探頭拍到了!虎跳峽墜江新郎遺體死死吸在水底,打撈困難

      水下攝像探頭拍到了!虎跳峽墜江新郎遺體死死吸在水底,打撈困難

      娛樂的硬糖吖
      2026-03-08 01:38:35
      原來我們熟悉的許多明星用的都是藝名,誰的本名最令你感到意外?

      原來我們熟悉的許多明星用的都是藝名,誰的本名最令你感到意外?

      上官晚安
      2026-02-08 01:36:41
      78年特務案:因5歲女孩無意間的1句話,揪出了潛伏浙江29年的特務

      78年特務案:因5歲女孩無意間的1句話,揪出了潛伏浙江29年的特務

      翠羽
      2026-03-07 21:42:08
      沒想到竟然這么多工作需要保密的!網友:不讓看非看被一槍斃了

      沒想到竟然這么多工作需要保密的!網友:不讓看非看被一槍斃了

      另子維愛讀史
      2025-12-08 20:58:22
      活了30年才知道,這些“反人類”生活物品的正確用法!以前可真傻

      活了30年才知道,這些“反人類”生活物品的正確用法!以前可真傻

      摳搜俠
      2026-01-28 15:18:39
      央視怒批,目不識丁、洋相百出,難怪兩會上馮遠征建議演員多學習

      央視怒批,目不識丁、洋相百出,難怪兩會上馮遠征建議演員多學習

      淚滿過眼
      2026-03-06 02:07:23
      隨著C羅缺席+利雅得勝利1-0,達曼協作1-1,沙特聯最新積分榜出爐

      隨著C羅缺席+利雅得勝利1-0,達曼協作1-1,沙特聯最新積分榜出爐

      側身凌空斬
      2026-03-08 07:57:20
      全網催開門!上海一小吃店明天開門營業,老板:5毛錢的水煎包、3元的胡辣湯,新年不漲價

      全網催開門!上海一小吃店明天開門營業,老板:5毛錢的水煎包、3元的胡辣湯,新年不漲價

      極目新聞
      2026-03-07 18:58:33
      全國政協委員楊建德 : 建議將春節連續9天假期固定下來,順應民生期盼、保障休假權益、激發內需活力、疏解春運壓力

      全國政協委員楊建德 : 建議將春節連續9天假期固定下來,順應民生期盼、保障休假權益、激發內需活力、疏解春運壓力

      每日經濟新聞
      2026-03-07 16:12:40
      19球14助攻!18歲天才已成為巴薩第一人,貢獻制勝球繼續領跑西甲

      19球14助攻!18歲天才已成為巴薩第一人,貢獻制勝球繼續領跑西甲

      體壇老球迷
      2026-03-08 10:04:25
      央視怒批,目不識丁、洋相百出,難怪兩會上馮遠征建議演員多學習

      央視怒批,目不識丁、洋相百出,難怪兩會上馮遠征建議演員多學習

      傲傲講歷史
      2026-03-05 16:08:43
      謝賢前女友再曝猛料!相識第一天拒絕了兩次謝賢,當時行情非常好

      謝賢前女友再曝猛料!相識第一天拒絕了兩次謝賢,當時行情非常好

      念得小柔
      2026-02-13 02:19:33
      “京圈惡少”王爍:睡遍娛樂圈女星,毆打繼母王艷,槍指劉濤老公

      “京圈惡少”王爍:睡遍娛樂圈女星,毆打繼母王艷,槍指劉濤老公

      翰飛觀事
      2026-02-19 21:59:48
      魯山孫藝菲案迎來轉機!當事人接到一個電話,真相慢慢浮出水面?

      魯山孫藝菲案迎來轉機!當事人接到一個電話,真相慢慢浮出水面?

      千言娛樂記
      2026-03-07 22:27:26
      2026-03-08 12:00:49
      新智元 incentive-icons
      新智元
      AI產業主平臺領航智能+時代
      14664文章數 66667關注度
      往期回顧 全部

      科技要聞

      OpenClaw最大的推手是閑魚和小紅書

      頭條要聞

      伊朗公布行動細節 有導彈配備集束彈頭均命中目標

      頭條要聞

      伊朗公布行動細節 有導彈配備集束彈頭均命中目標

      體育要聞

      大傷后被交易,他說:22歲的我已經死了

      娛樂要聞

      周迅新戀情曝光,李亞鵬等人已成過去

      財經要聞

      油價要失控?

      汽車要聞

      9分鐘充飽 全新騰勢Z9GT首搭閃充技術26.98萬起

      態度原創

      教育
      旅游
      時尚
      房產
      軍事航空

      教育要聞

      給孩子減負重磅消息

      旅游要聞

      有一億人?無錫這些地方擠爆了

      2026春夏一定要擁有的6只包,好看又百搭

      房產要聞

      傳統學區房熄火?2月海口二手房爆火的板塊竟然是…

      軍事要聞

      美第三個航母打擊群據稱準備部署至中東

      無障礙瀏覽 進入關懷版