<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      推理芯片時代,正式開啟

      0
      分享至

      公眾號記得加星標??,第一時間看推送不會錯過。


      本周,超過3萬人涌入加州圣何塞,參加英偉達全球技術大會(Nvidia GTC),這場被譽為“人工智能超級碗”的盛會——這個綽號或許是英偉達自己起的,也或許不是。在大會主會場,英偉達首席執行官黃仁勛登臺宣布(除其他事項外)一系列新一代Vera Rubin芯片,這對于這家GPU巨頭來說尚屬首次:一款專為處理人工智能推理而設計的芯片。這款名為Nvidia Groq 3的語言處理單元(LPU)融合了英偉達去年圣誕節前夕以200億美元從初創公司Groq獲得授權的知識產權。

      “人工智能終于能夠從事生產性工作了,因此推理能力的轉折點已經到來,”黃仁勛對在場聽眾說道。“人工智能現在必須思考。為了思考,它必須進行推理。人工智能現在必須行動;為了行動,它必須進行推理。”

      訓練和推理任務對計算資源的需求截然不同。訓練可以同時處理海量數據,耗時數周,而推理則必須在用戶提出查詢后立即運行。與訓練不同,推理不需要運行成本高昂的反向傳播算法。對于推理而言,低延遲至關重要——用戶期望聊天機器人能夠快速響應,而對于需要思考或推理的模型來說,在用戶看到輸出結果之前,推理過程往往已經運行多次。

      過去幾年,專注于推理的芯片初創公司經歷了類似寒武紀大爆發的局面,不同的公司探索著不同的方法來加速推理任務。這些初創公司包括:采用數字內存計算的D-matrix ;采用用于Transformer 推理的ASIC 芯片的Etched ;采用神經形態芯片的RainAI;采用模擬內存計算的EnCharge ;采用對數運算以提高 AI 計算效率的Tensordyne ;以及采用針對張量運算而非向量矩陣乘法優化的硬件的FuriosaAI等等。

      去年底,英偉達宣布與Groq達成合作協議,似乎已經從眾多推理芯片中選出了佼佼者。僅僅兩個半月后,英偉達Groq 3 LPU便正式發布,凸顯了推理市場蓬勃發展的緊迫性。

      內存帶寬和數據流

      Groq 的加速推理方法依賴于芯片上處理單元和存儲單元的交錯排列。它沒有采用位于GPU旁邊的高帶寬內存 (HBM) ,而是利用集成在處理器內部的SRAM內存。這種設計極大地簡化了芯片內的數據流,使其能夠以精簡的線性方式進行。

      “數據實際上是直接流經SRAM的,”馬克·希普斯在2024年的超級計算大會上說道。當時希普斯是Groq的首席技術推廣官,現在是英偉達的開發者營銷總監。“當你觀察多核GPU時,你會發現很多指令需要先發送到芯片之外,進入內存,然后再返回芯片。而我們不需要這樣做。所有數據都是以線性順序流經的。”

      使用 SRAM 可以實現極快的線性數據流,從而滿足推理應用所需的低延遲。“LPU 專門針對這種極低延遲的令牌生成進行了優化,”英偉達超大規模和高性能計算副總裁兼總經理Ian Buck表示。

      將 Rubin GPU 和 Groq 3 LPU 并排比較,可以明顯看出它們之間的差異。Rubin GPU 擁有高達 288 GB 的 HBM 顯存,能夠以每秒 50 千萬億次浮點運算 (petaFLOPS) 的速度進行 4 位運算。而 Groq 3 LPU 僅配備 500 MB 的 SRAM 內存,能夠以每秒 1.2 千萬億次浮點運算 (petaFLOPS) 的速度進行 8 位運算。另一方面,Rubin GPU 的內存帶寬為每秒 22 TB,而 Groq 3 LPU 的內存帶寬高達每秒 150 TB,速度是其七倍。這種精簡且以速度為導向的設計,正是 Groq 3 LPU 在推理方面表現卓越的原因。

      這款新型推理芯片凸顯了人工智能應用的持續趨勢,即計算負載從構建規模越來越大的模型轉移到大規模使用這些模型。“英偉達的發布驗證了基于SRAM架構的大規模推理的重要性,而d-Matrix在SRAM密度方面無人能及,”d-Matrix首席執行官Sid Sheth表示。他認為,數據中心客戶需要多種處理器來進行推理。“最終勝出的系統將結合不同類型的芯片,并能與GPU輕松集成到現有數據中心中。”

      僅用于推理的芯片可能并非唯一解決方案。上周晚些時候,亞馬遜網絡服務 (AWS)宣布將在其數據中心部署一種新型推理系統。該系統結合了 AWS 的 Tranium AI 加速器和Cerebras Systems 的第三代計算機 CS-3 ,后者基于迄今為止最大的單芯片構建。這套兩部分組成的系統旨在利用一種名為推理分解的技術。它將推理過程分為兩部分:處理提示信息(稱為預填充)和生成輸出(稱為解碼)。預填充本質上是并行的、計算密集型的,并且不需要太多的內存帶寬。而解碼則是一個串行過程,需要大量的內存帶寬。Cerebras通過在其芯片上構建了 44 GB 的 SRAM ,并通過 21 PB/s 的網絡進行連接,最大限度地解決了內存帶寬問題。

      英偉達也計劃在其名為Nvidia Groq 3 LPX的新型組合計算托盤中利用推理分解技術。每個托盤將容納8個Groq 3 LPU和一個Vera Rubin,后者將Rubin GPU與Vera CPU相結合。解碼過程中的預填充和計算密集型部分由Vera Rubin完成,而最后一部分則由Groq 3 LPU完成,從而充分利用每個芯片的優勢。“我們現在已經開始量產了,”黃仁勛說道。

      推理成為下一個人工智能芯片戰場

      Cambrian AI Research 的創始人兼首席分析師 Karl Freund 表示,推理與訓練在經濟效益和性能要求方面存在根本差異。訓練 AI 模型是一項成本支出,而推理則是一項“利潤中心”,能夠直接產生收入。

      Freund 和 Kimball 指出,雖然 GPU 性能卓越,但它們通常采用針對訓練優化的架構特性,這些特性在純推理應用場景中并不總能轉化為更低的延遲或更高的效率。專用的推理芯片——ASIC 和其他加速器——可以提供更快的響應速度、更高的能效和更低的總體擁有成本。

      弗羅因德說:“作為利潤中心,如果你的延遲低,你就能創造更多收入,因為人們希望盡快得到響應,而你也希望以盡可能低的成本獲得響應。”

      分析師表示,GPU(以英偉達為絕對主導,AMD緊隨其后)在大型訓練和推理領域占據主導地位,并將繼續在最大規模的工作負載中保持領先地位。然而,推理需求的激增正在創造GPU以外的機遇,尤其是在主流企業今年將規模從試點擴展到生產階段之際。

      “你會看到一些規模較小的公司,它們的員工人數可能只有一萬人左右,而不是十萬人,開始在生產制造、后臺辦公、前臺運營以及邊緣計算等領域應用人工智能,”金博爾說道。這些公司面臨著電力限制、散熱難題以及持續的GPU供應挑戰,使得在許多環境下構建GPU密集型集群變得不切實際。

      “部署GB200或H100這類設備時,功率都在千瓦級,”金博爾指出。“零售環境的電力預算有限,散熱條件也不好,所以不可能運行一整機架的GPU。你得尋找其他替代方案。”

      對于規模較小的公司,例如擁有100家分行的銀行,總體擁有成本和功耗預算是首要考慮因素,這為專注于推理技術的初創公司提供了滿足其需求的機會。“芯片初創公司在這方面擁有巨大的發展機遇,”金博爾說道,“它們能夠滿足現有廠商無法滿足的客戶需求,這些需求可能是由于產品供應不足,也可能是由于特定的性能和功耗要求。”

      Freund表示,雖然GPU目前仍然是推理的最佳通用解決方案,但市場正在轉向ASIC以及AWS、谷歌和初創公司等提供的替代架構。

      根據 Futurum Group 2025 年 11 月的一項調查,到 2025 年,GPU 占數據中心計算支出的 58%;到 2026 年,XPU(既不是 GPU 也不是 CPU 的處理器,例如 ASIC 和定制加速器)預計將以 22% 的增長引領增長,超過 GPU (19%) 和 CPU (14% )。

      “隨著推理工作負載在令牌輸出方面超過訓練工作負載的總量,對多樣性的需求將會更大,因為替代的 XPU 架構可以在某些特定的推理任務上實現更高的效率,”Futurum Group 半導體、供應鏈和新興技術研究總監 Brendan Burke 表示。

      AWS 的案例表明了這種日益增長的需求。AWS 技術總監 Shaown Nandi 表示,這家超大規模數據中心支持 Nvidia、AMD 和 Intel 的芯片用于 AI 工作負載,同時還提供定制芯片,為客戶提供更多選擇。Nandi 補充道,許多客戶傾向于使用 Nvidia 芯片來優化基于 CUDA 的模型,而其他客戶則越來越多地選擇AWS 的 Trainium 芯片 ,因為它具有更高的性價比和效率。

      他解釋說:“它們的需求量都非常大。Bedrock(AWS 的推理服務)上超過 50% 的代幣都運行在我們的 Trainium 芯片上。”

      英偉達已經意識到對專用推理處理器的需求。2024年,高管們表示,其數據中心約40%的收入將來自推理業務。2025年9月,英偉達發布了Rubin CPX,這是一款專為超大規模和大型企業部署中的大規模上下文推理而設計的GPU,尤其適用于解碼前的預填充階段。據報道,英偉達與Groq達成的授權協議旨在將快速、低延遲、低成本的推理技術集成到其AI工廠架構中;CNBC報道稱,英偉達計劃采用Groq的低延遲處理器來支持更廣泛的實時推理。

      除了計劃收購 SambaNova 之外,英特爾還在探索多種推理方案。該公司已在其至強 CPU 中集成 AMX 加速器,并提供專用于推理工作負載的 Gaudi AI 加速器。“如今,許多推理任務都在 CPU 上完成。未來,許多推理任務仍將在 CPU 上完成。”金博爾說道。

      AMD 在收購 Untether AI 的工程團隊后,于 2025 年 11 月收購了推理初創公司 MK1。MK1 開發軟件,可優化 AMD GPU,以便在大規模企業部署中進行高速推理和推理。

      Freund 在 2025 年 12 月的一篇博客文章中表示,谷歌最新的 TPU 芯片將成為推理領域的有力競爭者,而高通即將推出的 AI200 和 AI250 芯片有望提供巨大的內存容量和更低的成本,可能成為極具吸引力的數據中心選擇。

      推理機會涵蓋數據中心和邊緣計算,而具體要求則因工作負載和部署方式而異。“你在自動駕駛汽車中進行的推理與你作為在線客服機器人進行的推理截然不同,”金博爾說道。

      Tirias Research首席分析師Jim McGregor指出,推理機會存在于所有進行計算的地方,包括智能手機、個人電腦和汽車。“沒有兩個工作負載是完全相同的,但我們將會看到針對不同工作負載的多種不同類型的AI加速器,”他說道。“市場仍處于早期階段,仍然有很大的發展空間,足以容納眾多供應商。”

      Freund 預測,到 2026 年,大多數推理仍將在數據中心運行,而不是在邊緣運行。

      數據中心推理領域的競爭者包括Cerebras和 Tenstorrent。Cerebras 成立于 2015 年,大約一年前開始在其晶圓級芯片上提供推理功能。Cerebras 產品與戰略高級副總裁 Andy Hock 表示,其系統可以通過軟件在訓練模式和推理模式之間切換,目前約 70% 的工作負載集中在推理方面。訓練仍然是該公司收入的主要來源。

      Tenstorrent 成立于 2016 年,由曾參與設計 AMD Zen 架構的 Jim Keller 領導,該公司正在構建基于 RISC-V 的 AI 推理處理器。

      韓國的NPU(網絡處理單元)體現了從邊緣到數據中心的多元化發展。金博爾表示, FuriosaAI以其高效節能的NPU架構和LG等重要客戶而聞名。據報道,該公司在2025年拒絕了Meta的收購要約。另一家韓國初創公司Rebellions則以其基于ARM的技術以及來自ARM和三星風投的大量投資而著稱。

      初創公司也在著手解決影響推理性能的關鍵內存和網絡瓶頸問題。開發 RISC-V 芯片設計的 SiFive 公司于 2025 年 9 月推出了第二代 Intelligence 系列協處理器,旨在最大限度地降低其 AI CPU 的內存延遲。NeuReality 公司于 2025 年 9 月推出了 NR2 AI-SuperNIC,這是一款支持超以太網聯盟 (Ultra Ethernet Consortium) 規范的網絡接口卡,可用于橫向擴展計算。d-Matrix 公司開發的內存解決方案,據 Freund 稱,其運行速度比高帶寬內存快四倍,成本更低。

      市場展望

      分析師預計英偉達將在訓練和推理領域保持主導地位,但多樣化的需求為專業解決方案提供了搶占市場份額的空間。麥格雷戈對快速技術變革背景下初創企業的前景持謹慎態度,并預計會出現更多整合。雖然Groq取得了成功,但其他早期初創企業卻舉步維艱。麥格雷戈指出,除了AMD收購Untether AI和軟銀收購Graphcore之外,SambaNova此前獲得11億美元融資,如今以16億美元的價格出售,與其說是“賤賣”,不如說是“甩賣”。

      GPU之所以仍然占據主導地位,是因為它用途廣泛且功能多樣。“這就是GPU依然稱霸的原因。它是可編程的,”麥格雷戈說。“你可以修改它,將其拆分,并同時運行多個模型。”

      Kimball提出了不同的觀點,他預測主流企業將在2026年采用這項技術,從而釋放對以推理為中心的初創公司的需求。“當推理市場真正成熟時,這些初創公司將會發展得更好,”他說道。他預計通用推理芯片和專業垂直解決方案都將迎來發展機遇。

      金博爾表示,總體而言,專用推理芯片的優勢——成本更低、功耗更低、性能更強——創造了巨大的機遇。目前這批初創企業能否抓住這些機遇還有待觀察。“這是一個充滿活力、蓬勃發展的創業環境,”他說道,“這里蘊藏著巨大的機遇,創新層出不窮,而現在還處于起步階段。”

      (來源:編譯自IEEE)

      *免責聲明:本文由作者原創。文章內容系作者個人觀點,半導體行業觀察轉載僅為了傳達一種不同的觀點,不代表半導體行業觀察對該觀點贊同或支持,如果有任何異議,歡迎聯系半導體行業觀察。

      今天是《半導體行業觀察》為您分享的第4348內容,歡迎關注。

      加星標??第一時間看推送

      求推薦

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      真主黨精銳指揮官被斬首

      真主黨精銳指揮官被斬首

      桂系007
      2026-03-22 23:47:51
      登頂收視No.1,這部韓劇又贏麻了

      登頂收視No.1,這部韓劇又贏麻了

      來看美劇
      2026-03-20 20:29:26
      現貨黃金失守4110美元/盎司,日內跌8.65%

      現貨黃金失守4110美元/盎司,日內跌8.65%

      每日經濟新聞
      2026-03-23 15:31:19
      過去中國化解美國四次阻擊,成就國運,現美伊之戰是第五次國運嗎

      過去中國化解美國四次阻擊,成就國運,現美伊之戰是第五次國運嗎

      阿胡
      2026-03-19 12:03:16
      周杰倫新專銷量不容樂觀!和第一名蔡徐坤差100多萬張,反超太難

      周杰倫新專銷量不容樂觀!和第一名蔡徐坤差100多萬張,反超太難

      萌神木木
      2026-03-23 14:41:48
      梅姨案細節公布!每交易一名兒童收1000元介紹費;網傳照片都非本人,現階段警方不會公布

      梅姨案細節公布!每交易一名兒童收1000元介紹費;網傳照片都非本人,現階段警方不會公布

      新民晚報
      2026-03-23 16:25:53
      馬龍也沒想到,同樣是倆兒子,王皓家一個高爾夫冠軍一個乒乓冠軍

      馬龍也沒想到,同樣是倆兒子,王皓家一個高爾夫冠軍一個乒乓冠軍

      以茶帶書
      2026-03-23 13:12:12
      項羽為何被評為千古無二?他創造的3個世界第一,至今無人能超越

      項羽為何被評為千古無二?他創造的3個世界第一,至今無人能超越

      文史達觀
      2026-03-22 16:48:03
      實探杭州“假裝上班公司”:包月有“全勤獎”,老板稱不愿客戶變成真上班,拒絕做違法違規的事

      實探杭州“假裝上班公司”:包月有“全勤獎”,老板稱不愿客戶變成真上班,拒絕做違法違規的事

      極目新聞
      2026-03-22 22:55:43
      P圖騙流量!伊朗喊著橫掃中東,昨日發射量曝光,凄慘到不敢看

      P圖騙流量!伊朗喊著橫掃中東,昨日發射量曝光,凄慘到不敢看

      老馬拉車莫少裝
      2026-03-23 15:57:52
      愛國者斷供8個月,烏軍早該啞火!俄軍空襲卻遭攔截:導彈哪來的

      愛國者斷供8個月,烏軍早該啞火!俄軍空襲卻遭攔截:導彈哪來的

      李健政觀察
      2026-03-23 16:34:26
      徹底失控!伊朗警告2小時后,全球最大天然氣基地遭導彈猛轟!

      徹底失控!伊朗警告2小時后,全球最大天然氣基地遭導彈猛轟!

      芊芊子吟
      2026-03-23 12:40:09
      細節流出!拉里賈尼遇襲事件疑點叢生,恐有詐!

      細節流出!拉里賈尼遇襲事件疑點叢生,恐有詐!

      劉哥談體育
      2026-03-23 07:21:45
      比亞迪大唐EV獲購置稅減免資格,純電續航曝光引關注

      比亞迪大唐EV獲購置稅減免資格,純電續航曝光引關注

      第壹新車
      2026-03-23 11:51:17
      越南向世界隱瞞四十余年,對越反擊戰中,越南竟然還藏了驚人力量

      越南向世界隱瞞四十余年,對越反擊戰中,越南竟然還藏了驚人力量

      你是我心中最美星空
      2026-03-22 19:56:58
      三個省級黨委領導班子調整

      三個省級黨委領導班子調整

      吉刻新聞
      2026-03-22 13:08:34
      德轉:遼寧鐵人外援瓦吉奇的轉會費為100萬歐元

      德轉:遼寧鐵人外援瓦吉奇的轉會費為100萬歐元

      懂球帝
      2026-03-23 16:35:06
      2026年,狠人新詞“30倍杠桿做空閨蜜”橫空出世

      2026年,狠人新詞“30倍杠桿做空閨蜜”橫空出世

      流蘇晚晴
      2026-03-22 20:02:36
      奧沙利文丟冠原因曝光,最新斯諾克排名出爐,丁俊暉情況不妙

      奧沙利文丟冠原因曝光,最新斯諾克排名出爐,丁俊暉情況不妙

      曹說體育
      2026-03-23 15:21:30
      網紅富二代王政源被判入獄兩年半,罰1500萬,央視財經9分大制作

      網紅富二代王政源被判入獄兩年半,罰1500萬,央視財經9分大制作

      陳意小可愛
      2026-03-23 16:00:10
      2026-03-23 18:52:49
      半導體行業觀察 incentive-icons
      半導體行業觀察
      專注觀察全球半導體行業資訊
      13216文章數 34854關注度
      往期回顧 全部

      科技要聞

      裁掉2萬多名員工后,扎克伯格對自己下手了

      頭條要聞

      伊朗豁出去了:若美以敢炸發電廠 整個中東就同歸于盡

      頭條要聞

      伊朗豁出去了:若美以敢炸發電廠 整個中東就同歸于盡

      體育要聞

      不敢放手一搏,你拿什么去爭冠?

      娛樂要聞

      劉燁47歲生日,安娜曬全家福為其慶生

      財經要聞

      滬指險守3800點!真正的恐慌盤出現了?

      汽車要聞

      "拒絕"豪車稅 新款Panamera盡享版99.8萬元起精準入局

      態度原創

      健康
      親子
      房產
      本地
      公開課

      轉頭就暈的耳石癥,能開車上班嗎?

      親子要聞

      寶藍和叔叔爭搶卡丁車,爸爸送給寶藍一輛凱蒂貓卡丁車~

      房產要聞

      440億!海南又一城城更計劃曝光!TOP10房企巨頭突然殺入!

      本地新聞

      這里是寶雞 嫽滴很!

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版