![]()
新智元報道
編輯:定慧
【新智元導讀】如何把龐大的大模型塞進受限的車載芯片?面對端側算力瓶頸,最新的「軟硬協同設計定律」給出破局解法:只需輸入芯片參數,即可免訓練算出最優模型架構。同等算力下,模型智商躍升近20%,研發周期從數月縮至一周。
如何把「大象」塞進冰箱?
這正是現代智能輔助駕駛正在努力完成的一個命題。
我們希望車子能擁有一個像愛因斯坦一樣聰明的超級大腦,但現實的尷尬是:
你不可能在后備箱里塞進一個需要液冷的服務器機柜!
![]()
當云端大模型正在加速沖刺AGI的同時,具身智能、智能駕駛等真實物理場景卻正面臨著一個隱性的巨大焦慮:「小」。
![]()
如何把「大模型」塞進極其有限的「小空間」車載芯片或機器人控制核心里?
![]()
這就是目前智能駕駛、具身智能、VR等領域碰到的一個現實問題:
被一塊小小的芯片「卡住了脖子」。
智能駕駛正在邁向全場景智能,但車載算力平臺撞上了一個核心悖論:
比如,一個在云端GPU上10毫秒就能完成的推理任務,到了車載芯片上可能要300毫秒。對自動駕駛來說,300毫秒意味著車輛在高速上「盲開」了好幾米。
所有巨頭,英偉達、蘋果、微軟、谷歌都在想辦法。
但是第一個給出理論級答案的,是一家中國車企。
2026年2月,理想汽車基座模型MindVLA團隊與國創決策智能技術研究所聯合發布了一篇論文:《Hardware Co-Design Scaling Laws via Roofline Modelling for On-Device LLMs》。
提出了面向端側大語言模型的「硬件協同設計擴展定律」。
![]()
論文地址:https://arxiv.org/abs/2602.10377
這篇論文直面了當前最核心的挑戰之一:
如何將越來越強大的大語言模型高效地部署在資源受限的「端側設備」(如汽車、手機、機器人)上。
提到理想汽車,多數人的第一反應還是「增程式電動車的代表」。但審視其近兩年的技術布局:自研5nm車規芯片馬赫100、開源操作系統星環OS、自研基座大模型MindVLA、端到端智駕全棧自研。
理想正在從一家以增程技術見長的汽車公司,蛻變為一家以智能駕駛和具身智能為核心的AI公司。
而這篇剛剛發布的論文,是理解這場轉型最好的注腳。
大模型「上車」,卡住了!
如何將目前「最先進的AI」裝入汽車?
這里會遇到了一個巨大的矛盾:
一方面,希望車載AI模型盡可能地聰明、反應迅速,以確保駕駛安全和流暢的交互體驗。這要求模型規模大、結構復雜。
另一方面,汽車內部的計算單元(芯片)受到嚴格的物理限制,包括功耗、散熱、內存大小和成本。這要求模型必須小巧、高效。
傳統的做法通常是「模型歸模型,硬件歸硬件」。
AI研究者設計出性能強大的模型,然后由工程師想辦法在硬件上進行優化和「塞入」。
這種方式效率低下,且往往無法達到真正的最優。
這就好比為一個F1賽車引擎設計了一個巨型卡車的底盤,二者無法完美匹配,引擎性能大打折扣。
而理想這篇論文正是為了解決這個「失配」問題,他們提出了一套系統性的方法:
在設計模型之初就將硬件的能力考慮進來,實現「軟硬協同設計」(Hardware Co-Design)。
![]()
架構選擇(右側)與硬件平臺(左側)共同塑造損失-延遲帕累托前沿
軟硬協同:連接模型與硬件的橋梁
如何衡量模型的「智慧」?
先來簡單介紹下什么是損失-延遲帕累托前沿。
在AI領域,「損失」是衡量模型預測與真實答案之間偏差的指標。
損失越低,模型預測越準確,代表它越「聰明」、精度越高。你可以把它理解為「工作質量」。
延遲指的是AI給出反應需要多長時間。延遲越低,速度越快,代表它能做到「秒回」。你可以把它理解為「工作速度」。
帕累托前沿是一個經濟學概念。
通俗地說,當你追求既要「質量高」(低損失),又要「速度快」(低延遲)時,你會遇到一個物理極限。
![]()
到了這個極限狀態后,你不可能在不犧牲速度的前提下,讓AI變得更聰明;也不可能在不犧牲聰明度的前提下,讓AI跑得更快。
所有這些「最優的折中點」連起來的一條線,就叫「帕累托前沿」。
![]()
理想團隊發現,模型的最終損失與其架構超參數(如網絡深度、寬度、專家數量等)之間存在著可預測的數學關系。
通過對這個關系進行精確建模,就可以在不實際訓練的情況下預測模型性能。
團隊做了一件極其扎實的事——真的訓了170個不同架構的Transformer模型,每個用100億token訓練,覆蓋Dense(密集)和MoE(混合專家)兩大類,層數4到48,寬度256到4096,MoE專家數1到64。
目的就是擬合一條精度預測公式:
給定任意一組架構超參數,直接預測驗證損失——不用真的訓練。
![]()
關鍵數據:擬合精度達到R2=0.975(訓練集)和R2=0.952(32個全新架構的驗證集)
在同時包含密集和稀疏模型的異質架構空間中,這個預測精度極其驚人。
模型有多聰明,算一下就知道。
通俗地說,理想團隊找到了一個「計算器」,輸入一個模型的設計方案,就能算出這個模型理論上能有多聰明。
如何衡量硬件的「性能」?
對于一塊芯片而言,決定其運行速度的關鍵因素有兩個:
峰值計算能力 (FLOPS):芯片每秒能執行多少次浮點運算,如同工廠的生產線速度。
內存帶寬 (Bandwidth):芯片每秒能從內存中讀取多少數據,如同工廠的物料供應速度。
一個程序的運行速度,取決于它究竟是被「計算」卡住了瓶頸,還是被「內存讀取」卡住了瓶頸。
Roofline模型正是這樣一個經典的性能分析工具。
它可以根據一個任務的計算量和內存訪問量,以及硬件的上述兩個參數,精確地預測出該任務的理論運行時長,即「延遲(Latency)」。
![]()
理想團隊利用Roofline模型也造了一個「計算器」,輸入一個模型和一個硬件平臺,就能算出模型在這塊芯片上跑一次需要多長時間。
團隊基于經典的Roofline模型,從第一性原理推導了Transformer端到端推理延遲的完整數學表達。
研究團隊特別針對車載場景做了關鍵擴展:
首次系統建模了KV緩存、MoE路由、注意力機制等大模型特有負載對車載SoC內存子系統的影響,在Jetson Orin/Thor平臺上驗證了普適性。
這個延遲模型有多高效?
20分鐘內就可以評估5萬+種架構配置。
![]()
模型跑多快,也算一下就知道。
合二為一:帕累托最優搜索
接下來就是聯合優化。
團隊開發了PLAS框架(Pareto-optimal LLM Architecture Search):
給定芯片的算力、帶寬和內存約束,自動找到使損失最小、同時延遲不超標的最優架構。
![]()
解集構成一條帕累托最優前沿——前沿上每個點,都是該延遲預算下能達到的最低損失。
你不可能在不增加延遲的情況下降低損失,也不可能在不增加損失的情況下減少延遲。
這就是「軟硬協同設計定律」的本質:將模型精度和推理效率統一在同一數學框架下的聯合優化理論。
這也是論文最硬核的部分:在不同硬件約束下,最優模型架構參數存在閉合解。
無需訓練,給定芯片參數,直接算出模型架構最優解。
![]()
以下是團隊推導出來的三個關鍵定理。
定理一:延遲約束下的「免費午餐」。
芯片速度是瓶頸,內存充裕(如車載高端平臺)的場景下。
MoE專家越多、每次激活越少越好。
![]()
為什么叫「免費」?MoE中不管總共多少專家,每個token只激活K個來計算。
增加總專家數完全不影響推理延遲,但模型容量實打實增加了。
對自動駕駛的啟示:在sub-50ms極限延遲下,應采用top-1路由,內存允許范圍內最大化專家池。
定理二:內存約束下的「寬度-稀疏度定律」。
存儲有限、速度夠用(如4-8GB邊緣設備)的場景下。
結論是模型越寬,MoE越應該稀疏。 寬度每翻一倍,最優激活率下降約2.3倍。
![]()
比如,2B參數模型推薦每次激活2個、總共16個專家;500M參數模型推薦更密集的MoE配置。
以上都是有數學證明的最優解,不是拍腦袋的數據。
定理三:雙重約束下的精確處方。
延遲和內存同時緊張(實際部署最常見的情況)的場景下,論文給出了預填充和解碼兩種階段各自的精確閉合解。
![]()
不管芯片什么約束組合,定律都有對應公式。
顛覆認知的關鍵發現
除三大定理外,論文還揭示了幾個違反直覺的設計原則:
- 稀疏架構全面碾壓密集架構。
端側batch=1場景下,帕累托最優設計100%是MoE,沒有Dense模型。大多數最優配置的專家激活比例為在8~16個中激活1~2個。
- 內存子系統比算力峰值更重要。
「寬而淺」的最優架構形態表明,內存帶寬和緩存效率往往比理論TOPS更決定實際性能。
- Prefill和Decode對硬件需求截然不同。
芯片需要支持動態資源分配,而非固定流水線。
- FFN可以激進壓縮。
最優FFN擴展比遠低于傳統4×,甚至可以低于1×,芯片的矩陣乘單元和激活函數單元需要更靈活的配比。
- 量化加速需要硬件原生支持。
INT8量化僅實現1.3-1.6倍而非理論2倍加速,根源在于非線性算子和精度轉換開銷。下一代芯片需要在指令集層面提供混合精度計算的原生支持。
![]()
也就是說,沒有通用芯片,只有場景最優芯片。
最優架構強烈依賴于具體硬件參數,從根本上證明了「算法定義芯片」的必要性。
用數據說話:19.42%的碾壓
理論再漂亮,沒有實驗驗證都是空中樓閣。
團隊在NVIDIA Jetson Orin(一款代表性的端側AI計算平臺)上做了大規模驗證:
通過延遲模型評估了1942種候選架構配置,精選170個進行完整訓練(每個100億token)。
這可能是端側LLM領域規模最大的系統性架構搜索實驗——沒有之一。
團隊選取了Qwen2.5-0.5B(通義千問5億參數版本,端側廣泛使用的開源模型)作為基準。
先在Orin上實測其推理延遲,再從PLAS框架中選取相同延遲下的協同設計架構。
兩者使用完全相同的訓練數據和優化策略,公平對比。
![]()
結果:
Qwen2.5-0.5B困惑度:63.14
協同設計架構困惑度:50.88
困惑度降低19.42%!
![]()
而且這不是訓練終點的「碰巧」——從訓練曲線看,協同設計架構全程領先,優勢來自架構本身,而非隨機波動。
同時給出了不同硬件平臺(Jetson Orin/Thor)上的帕累托最優前沿,驗證了「硬件協同設計擴展定律」的跨硬件平臺泛化性。
![]()
同樣的芯片,跑同樣快,但智商高了近20%——這就是「軟硬協同設計」的力量。
另一個同樣重要的數據:架構選型時間從數月壓縮到一周。
![]()
傳統流程中,給一塊新芯片選擇最優LLM架構,需要反復訓練、測試、調優,耗時數月。
有了協同設計定律后,流程變成:
輸入芯片參數 → 定律計算最優架構 → 小規模驗證校準 → 完成。
研發效率提升一個數量級!
這意味著當理想下一代自研芯片出來的時候,最優模型架構不需要再等數月適配期,使用「軟硬協同設計定律」可以提前算出來。
端側AI的Scaling Law
如果說,OpenAI的Scaling Law回答了「模型為何越大越聰明」。
理想這個定律回答:「在固定芯片上,模型怎么變到最聰明」。
![]()
OpenAI的Scaling Law是云端大模型繁榮的基石。
在它出現之前,訓練多大的模型、用多少數據往往依賴工程師的直覺(經驗主導)。
![]()
論文地址:https://arxiv.org/pdf/2001.08361
它通過嚴謹的數學公式證明了模型的性能與計算量、參數量、數據量之間存在可預測的冪律關系。
Scaling Law成功指導了大語言模型的迭代,使得巨頭們敢于投入數億美金去訓練更大級別的模型。
而理想的Hardware Co-Design Scaling Law是向端側邁出的關鍵一步。
它從約束優化理論出發推導出解析解,在給定的硬件物理極限和實際應用約束條件下,科學指導如何最優地分配端側推理資源。
這是首個面向端側LLM的、可操作的硬件協同設計擴展定律。
兩者雖然約束條件和發力點不同,但在本質上殊途同歸:
都是用數學和科學的確定性,消除了AI發展過程中的經驗盲區與隨機性。
從「堆算力」到「榨算力」
過去智駕競爭的敘事是「我的芯片比你大」。
但這篇論文證明:
芯片有多少TOPS和實際能發揮多少智能之間,存在巨大鴻溝。
100 TOPS的芯片,模型架構不匹配,可能只發揮30%效能。
軟硬協同設計定律要做的,就是把效能利用率拉到接近理論上限。
不是比誰芯片更大,是比誰更懂怎么用芯片。這才是降維打擊。
「芯片-模型」聯合開發新范式
這對理想即將量產的馬赫100自研芯片意義重大。
馬赫100是5納米車規級芯片,2026年將在全新理想L9搭載。
單顆馬赫100的有效算力是英偉達Thor-U的3倍,全新L9的雙馬赫100芯片,有效算力就是Thor U的5-6倍了。
![]()
之前傳統的做法是,等芯片流片回來,花數月重新適配模型。
有了協同設計定律:輸入芯片參數,定律直接算出最優VLA架構——芯片還沒量產,最優模型已經算出來了。
配合理想的完整技術棧來看,從芯片到定律到系統到模型——這是一個完整的技術閉環。
馬赫100:提供硬件算力
協同設計定律:確保每一分算力被精準利用
星環OS:統一軟件架構和開發者生態
MindVLA:落地智能輔助駕駛大模型
基于這個定律,理想的自研芯片將不再是通用AI加速器,而是專為車載VLA系統優化的「算法原生芯片」——在架構層面原生支持稀疏計算、動態資源分配和混合精度推理。
這不僅是理想汽車從算法到芯片全棧自研能力建設的關鍵里程碑,也為行業提供了端側大模型部署的科學方法論。
同時也為理想汽車的下一代智能駕駛系統提供數量級的能效提升。
摩爾定律在放緩——晶體管數量翻倍的時代正在終結。
「協同設計定律」標志著一條新曲線的開始:不靠芯片變快提升智能,靠更聰明地使用芯片提升智能。
理想團隊計劃開源相關代碼和評測協議。
整個行業——汽車、機器人、IoT、移動端——都可以站在這個理論框架上,為自己的芯片找到最優的大模型架構。
真正的領先,從來不是簡單的硬件堆砌,而是源于底層基礎科學的突破。當理想率先用嚴謹的數學規律重構端側 AI 的邊界時,這種在底層理論上的深耕與引領,正是理想智能駕駛系統能夠跨越算力瓶頸、持續領跑行業的最大底氣。
在智能駕駛的下半場,能夠定義底層規則的企業,才能真正主導全場景智能的未來體驗。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.