茨威格說過,一個真正具有世界歷史意義的時刻 —— 一個人類群星閃耀的時刻出現以前,必然會有漫長的歲月無謂地流逝而去。
類似的話,中國古人也說過:“天不生仲尼,萬古如長夜”。你知道的,仲尼來的時候,不是一個人,而是一票人,他們一起爭奇斗艷,改寫了其后的2500年。
![]()
不知道歷史進度條是否被突然加速了,還是這一代人原本就是這么幸運,還是別的什么——在2024-2025年的某些時刻,我們忽然有了這樣的感覺:群星正在遙遙升起,即將劃過頭頂的夜空。
具體的說,是2024年11月和2025年9月,中國智駕行業突然出現的兩次拐點,在【智駕大賽】上表現為參賽成績突然大幅提升,被參賽車友和裁判驚訝地捕捉到,快速溢出到更大范圍的車友群里。
把這兩次拐點串起來看,你會看到一條清晰的脈絡,這就是國內智駕行業頭部陣營過去兩年里攀登天梯的脈絡:
1、E2E 車端模型(參數量 2B - 4B),從 2024年Q4 的 “兩段式(感知 + 規控分階段)” 迭代為 2025年Q4 的 “一段式(單模型全流程)”,在結構化城市場景的能力與體驗上已逼近特斯拉 FSD V13;
2、云端基座模型(參數量多為30B-70B),從2024年Q4 的 “BEV+OCC+Transformer(感知底座)”,迭代升級為 2025年Q4 的“VLA(認知決策)+WA(世界建模)+RL(行為優化)+Transformer(核心骨干)”復合架構 —— 在保留原感知優勢的基礎上,融入多模態理解與因果推理能力,打開了跨域應用的大門。
2025年度,誰在推動智駕進步?今天起,我們將推出《2025中國智駕開發者50人》系列,分5期刊發。
入圍的80多位候選人,絕大多數在國內,少數在國外,個別是海外華人。他們的研發成果,體現在過去兩年里發生的兩次智駕拐點上。但其中的大部分,都很低調。
入圍的標準有兩條(個別極其優秀者例外):
1、2025年內,在全球頂會頂刊發表高引論文的第一作者(含合著團隊);
2、2025《智駕天梯榜》年度榜單上榜方案商和主機廠的核心研發人員。
經過核實與比對,最終挑選出50位有代表性的人物。他們的身份,大體分四類:
1、學術研究者,在頂會頂刊上發表高引論文的第一作者(含合著團隊);
2、研發組織者,定投資、定方向、定目標、定范式、定團隊的人,類似奧本海默;
3、研發骨干,負責某一個具體方向的研發統籌,并和兄弟們一起拼搏出成果的人;
4、產品和工程負責人,負責產品定義、用戶交互、工程實施的人,做出了非常棒的產品體驗,或者保障了連續的工程交付表現。
今天第一期,推薦11篇卓越論文及其作者。每篇論文都可能是團隊協作完成,亦或由不同單位之間的團隊協作完成。本文主要記錄第一作者,兼帶介紹合著團隊(排名不分先后)。
01、楊磊:在“海拔高度”中尋找純視覺感知的精確性
學術成果:《BEVHeight++: Toward Robust Visual Centric 3D Object Detection》(3D目標檢測通用框架)
第一作者:楊磊,清華大學2020級博士研究生;合著團隊:清華大學李駿院士團隊
發表時間:2025年3月11日(發表于IEEE TPAMI)
![]()
(圖片來源:清華大學研究生教育)
2023年前后,視覺3D檢測正陷入一場“深度糾結”——行業標配的做法是先預測“深度”,再投影。但他敏銳察覺到了視覺的天然軟肋:攝像頭預測的深度就像盲人摸象,尤其在遇到坡道或車輛顛簸時,預測出的深度會產生劇烈抖動,導致感知結果“滿屏亂飄”。
那什么是可靠的?他和團隊想到了“高度”。即便地面有坡度,車與路面的相對高度是相對穩定的物理量。這就好比在原本松動的地基(深度)旁,打下了一根名為“海拔高度”的鋼筋。通過對像素高度信息的挖掘,在不增加額外硬件傳感器(不加LiDAR)的情況下,提升了視覺感知在三維空間中的定位精度。
![]()
這意味著,可以用成本可控的攝像頭方案,達到接近昂貴傳感器的感知效果,這對降低量產車成本至關重要,所以BEVHeight++的角色,是“全場景感知的穩定器”,它讓自動駕駛汽車在面對復雜的上下坡、顛簸路面,以及在與智能路側設備“對話”時,擁有一雙更準確、更不容易被欺騙的“三維眼睛”,它讓純視覺3D感知不再是一個“脆而易碎”的估算模型,而變成了一個具備幾何約束的穩定工程方案。
這份學術成果的意義,是讓自動駕駛系統在高速場景下的判斷更穩,在復雜起伏的城市立交橋上,實現了打通“車路協同”最后一步的可能。
02、曹家俊:在算力紅線面前,讓模型“少看一點”
學術成果:《FastDriveVLA:Efficient End-to-End Driving via Plug-and-Play Reconstruction-based Token Pruning》(基于重建的新型視覺token剪枝框架)
第一作者:曹家俊,北京大學計算機學院多媒體信息處理全國重點實驗室;合著機構:小鵬汽車
發表時間:2025年11月14日;AAAI 2026收錄公布于2025年12月28日
![]()
(圖片來源:Google Scholar)
VLA(視覺-語言-動作大模型),它有著驚人的駕駛智慧,但體積大得驚人。成千上萬個視覺token隨時都在像潮水一樣涌入狹小的計算單元,巨大的計算開銷增加了推理延遲,算力總有跟不上的時候,這就出現了兩個問題:計算跑不動、關鍵信息丟失。在瞬息萬變的時刻智駕出現致命“卡頓”,該怎么解決?
去年,在北京大學的實驗室里,曹家俊(團隊)和小鵬汽車開始審視那些被模型奉為圭臬的視覺信息——天空中的流云、路邊早已路過的廣告牌,這些token占據了大量算力資源,但對VLA輸出的行為貢獻不大。他們沒有粗魯地“砍掉”這些畫面,而是像一位精細的外科醫生,開發出了一套不改動原模型權重,但能將計算負載降低75%以上的token剪枝框架。
![]()
在研發FastDriveVLA的那段日子里,他們反復測試“刪除”的邊界,讓模型去學習,哪些像素即使消失了,也不會影響對駕駛意圖的判斷,用MAE風格的像素重建技術,通過評估Token對前景區域重建的貢獻度來判斷其重要性,當最終實現7.5倍的計算量縮減、且在nuScenes測試中幾乎不損失精度時,這份學術成果顯示出了它最大的意義,填補了智駕領域缺乏精細前景標注的空白,賦予了VLA“排除雜念”的本能,讓智能模型在邁向L4時變得更輕盈、更敏捷。
03、魯洪良:為冰冷死板的機器注入“社會直覺”
學術成果:《Empowering safer socially sensitive autonomous vehicles using human-plausible cognitive encoding》(利用類人認知編碼賦能更安全、具有社會敏感性的自動駕駛汽車)
第一作者:魯洪良,香港科技大學(廣州)博士;合著團隊:東南大學、香港科技大學等團隊
發表時間:2025年5月19日(PNAS《美國國家科學院院刊》)
![]()
(圖片來源于網絡)
好用的智能駕駛,應該是同時具備高效和安全的。眼下,各類智駕系統都太“有禮貌”了,而這種禮貌是源于對規則的死板遵守,而非對社會的真正理解。這種機器人的生硬,往往是引發路怒和交通事故的隱性誘因。
于是,魯洪良與他的團隊,決定做一個大膽的跨界:把人類的“認知編碼”引入到代碼。這聽起來甚至有些哲學:如何量化“禮讓”的權重?如何讓車感知行人多變的運動軌跡?
他在論文中提出的“擬人化認知編碼”,讓車輛開始具備某種“社會直覺”。比如借鑒神經科學概念,通過編碼給系統看得到的交通參與者做一次風險分級,同時賦予他們差異化權重,再將加權后的風險整合成“行為信念”,最終動態反映與潛在風險的時空關聯性。這將使得智駕系統,會預判自身動作對周邊交通流的影響(比如突然變道是否會引發后車急剎),從而實現更平順的社會化交互。
![]()
當算法跑通的那一刻,不再是冷冰冰的概率分布,而是車輛在路口優雅地與其他交通參與者達成的默契。所以這份學術成果的意義,讓我們看到了智駕落地的終點,不是冰冷的機器接管世界,而是機器能與人類共建交通規則。
04、明南:看清腳下路面的“褶皺”
學術成果:《TA-TOS: Terrain-Aware Tiny Obstacle Segmentation Based on MRF Road Modeling Using 3-D LiDAR Scans》(基于馬爾可夫隨機場的地形自適應小型障礙物分割算法)
第一作者:明南,上海交通大學自動化與感知學院2023級碩士;合著團隊:上海交通大學智能網聯電動汽車創新中心團隊
發表時間:2025年6月10日(發表于IEEE Xplor)
![]()
(圖片來源于:上海交大智能網聯創新中心)
在上海交大智能網聯汽車中心的實驗室里,明南和團隊不斷在嘗試破解一個難題:除了肉眼可見的人、車和被標注進白名單的常見異型障礙物之外,有沒有一種不依賴GPU性能,專門解決坑洼碎石等小型障礙物的高精度檢測方法呢?
在研發TA-TOS期間,明南正處于碩士求學的高強度階段,這也是智駕技術火的發燙的技術大年,行業里都在追求“大模型”,但很少有人愿意俯下身子去研究路面的“褶皺”。
![]()
在這份學術成果里,他們像是一個手持放大鏡的偵探,引入了馬爾可夫隨機場(MRF)來對路面建模,經過漫長的打磨和一次次修正,最終通過負指數能量函數實現了障礙物的魯棒分割。這為智駕系統補上了一塊“非平整路工況”的關鍵拼圖。這份學術成果,也讓外界注意到,真正的安全好用的智駕系統,不僅應具備強博弈能力,更應首先能看清腳下的路。
05、鄭宇鵬:在無標注的荒原上,讓機器學會自我進化
學術成果:《World4Drive: End-to-End Autonomous Driving via Intention-aware Physical Latent World Model》(融合多模態駕駛意圖的物理潛世界模型端到端自動駕駛框架)
第一作者:鄭宇鵬(圖片資料暫時空缺),中國科學院自動化研究所2024級博士;合著機構:理想汽車
發表時間:2025年7月1日
能不能跳過人工標注,讓汽車直接從原始傳感器數據里,自己“悟”出來一則駕駛之道?
2025年7月前,正在攻讀博士的鄭宇鵬和正全力推進下一代智能駕駛技術的理想汽車,就一同在探索這個問題,到底能不能實現?
![]()
學術團隊和理想團隊一邊打磨物理潛空間表征理論,一邊拿著不斷投喂的新模型做實戰,最終他們發現,其實系統并不需要知道路上的物體叫什么,只需要知道在某種“駕駛意圖”下,未來的物理空間會怎么去演化,這就是World4Drive的核心:一個“意圖感知”的物理潛世界模型。它不再像傳統的視覺模型那樣,耗費巨大算力生成華麗的像素畫面,而是在干澀但高效的“潛空間”里腦補出多條候選軌跡,然后再拿著預測結果和實際觀測做一輪自監督比對,哪條路徑最穩、哪條路徑最不容易碰撞,最終完成“閉環自校準”。
![]()
實戰下來的效果驚人,在完全沒有人工標注的情況下,碰撞率降低了46.7%,軌跡偏差縮小了18.1%,訓練收斂速度提升了整整3.75倍。這意味著系統可以擺脫對昂貴標注數據的依賴,在缺失外部標注的極端環境下也能做出安全決策。這不僅為城區NOA的決策博弈提供了關鍵路徑,也標志著智駕會從“看見世界”邁向“理解物理規律”完成進化。
06、陳小雪:0.4秒,讓仿真訓練進入“大批量自動化生成時代”
學術成果:《DGGT: Feedforward 4D Reconstruction of Dynamic Driving Scenes using Unposed Images》(自動駕駛仿真場景的無姿態圖像4D前饋重建方案)
第一作者:陳小雪,清華大學智能產業研究院(AIR)趙昊課題組;合著機構:小米汽車
發表時間:2025年12月2日
![]()
(圖片來源于:清華大學智能產業研究院)
智駕行業一直有個“昂貴的門檻”:想要把一段平凡的路測視頻,復刻成可以在電腦里反復練習的4D仿真場景,傳統方法(如3DGS或NeRF)通常需要針對每個視頻進行長達數小時、甚至數天的計算優化。更糟糕的是,如果傳感器的外參標定有一點點偏差,生成的畫面就會像被打碎的鏡子一樣重影。對于追求“發布即量產、量產即好用”的智能駕駛系統來說,這種數據處理方式談不上高效,更談不上緊跟模型迭代的腳步。有沒有破局之道?
已經在清華AIR實驗室攻讀博士的陳小雪,她想找到這個答案,也包括小米汽車。2025年,學術團隊和小米汽車,日復一日的在挑戰這個讓行業頭疼已久的效率瓶頸:能不能跳過漫長的訓練,實現“瞬間復刻”?
![]()
學術團隊在扎實的幾何視覺理論基礎上,大膽提出了“前饋重建”的新范式,企方則拿出了端到端路測原始數據,雙方在實戰中反復磨合,最終誕生的DGGT框架展現了令人震撼的性能:它將原本數小時的重建過程縮短到了驚人的0.4秒。
這意味著,智駕每天產生的數百萬小時路測視頻,幾乎可以實時地轉化為可交互的4D仿真教材!更具意義的是,參與論文研發的團隊還攻克了“Unposed(無位姿)”難題,讓系統能直接處理存在標定誤差的原始數據。這份成果不僅為“閉環仿真”插上了翅膀,更標志著智駕仿真從“手工作坊式”的精雕細琢,正式跨入了“工業級流水線”的瞬間生成時代。
07、馬楠:讓智能駕駛“活過來”
學術成果:《Embodied Interactive Intelligence Towards Autonomous Driving》(邁向自動駕駛的核心技術框架)
第一作者:馬楠,北京工業大學信息科學技術學院教授;合著團隊:李德毅團隊(中國工程院院士)
發表時間:2025年12月3日(發表于Engineering)
![]()
(圖為馬楠;圖片來源于:北京工業大學新聞網)
當全行業都在通過卷參數、卷算力來提升感知精度時,馬楠教授與李德毅院士注意到了一個被忽略的深層危機:自動駕駛車開得越來越像“準時卻生硬的機器人”。在擁堵的路口,它們要么因為過于保守而永遠動彈不了,要么因為無法預判行人的運動軌跡而頻繁點頭急剎。這種“缺乏人味”的表現,揭示了傳統“感知→規劃→控制”鏈條的局限。
![]()
(圖為李德毅;圖片來源于:網絡)
2025年底,兩位學者和他們的團隊,在“駕駛腦”理論的基礎上,正式提出了“具身交互智能”架構。這不再是針對某一個算法的縫縫補補,而是一場由學術界發起的范式革命:將自動駕駛從“看圖做題”的計算機視覺任務,徹底轉變為“具身智能體”與物理環境的博弈與協作。
論文中尖銳地指出了當下的三大難題:意圖對齊難、泛化能力弱、被動響應多。為了解決這些痛點,團隊提出了一個稱為UniCVE的閉環智能架構,同時圍繞“感知-認知-行為”三層模型展開,構建了一套讓汽車具備“物理直覺”和“社會常識”的認知模型,讓系統根據實時反饋的信息,不斷優化內部預測與行為決策。這讓最終的智駕行為,不再是單純的避障,而是真正的像老司機一樣,通過輕微的位移試探或意圖表達,與周圍的行人、車輛進行主動溝通。
![]()
雖然距離這種完全擬人化的駕駛全面落地尚需時日,但這份科研成果仍具有劃時代的意義,這份構想已成為通往L5級無人駕駛的關鍵理論支柱,它為“后端到端”時代的進化指明了終極方向——讓車輛從一臺“按線行駛的機器”,變成有交互能力的“智能生命體”。
08、中科院自動化所:用世界模型解決“監督赤字”
學術成果:《DriveVLA-W0:World Models Amplify Data Scaling Law in Autonomous Driving》(基于世界模型增強自動駕駛數據規模化效應的研究)
署名作者:Liyingyan(英譯李艷英,資料暫時空缺)等多位中國科學院自動化研究所成員;合著機構:引望智能
發表時間:2025年12月18日
自動駕駛領域一直信奉著一條“暴力美學”定律——數據規模定律(Scaling Law):只要投喂的數據足夠多,模型就會越聰明。然而,2025年的開發者們普遍撞上了一堵墻:監督赤字(Supervision Deficit)。
![]()
啥是“監督赤字”?在VLA模型里,輸入的是高維且稠密的視覺信息流,但它的監督信號卻往往是低維且稀疏的駕駛動作,模型的大部分表征能力都被白白浪費了,這就導致了模型無法充分學習復雜的行為。正當學術界和開發者們熱議這一瓶頸時,一支來自國內頂尖學術機構和華為合作的研發團隊,在去年12月悄然給出了破解的錦囊。
研究團隊想到了一個辦法,與其依賴稀疏的“動作”,倒不如讓模型去學習稠密的“世界”,把預測未來圖像作為一項稠密的自監督訓練任務,也就是利用世界模型提供“稠密”的自監督信號,大量的實驗最終證實了:在稀疏的動作監督下,VLA模型的性能會隨著數據量的增加迅速飽和,所謂的Data Scaling Law效應在此大打折扣。
![]()
也可以理解成傳統的VLA僅依賴稀疏的動作監督,而DriveVLA-W0是額外引入了稠密的視覺預測任務,迫使模型去理解環境,當模型被要求預測下一幀的完整視覺畫面時,它就必須得學習和理解這個物理世界的真實運行規律,這為VLA模型提供了更豐富和稠密的學習信號,從根本上緩解了“監督赤字”,這套方案不僅提供了清晰的解題思路,也展示了世界模型在“生成”之外的另一條核心價值路徑。
09、蔣安慶:在概率的叢林里,為智駕找尋“最優解”
學術成果:《DiffVLA:Vision-Language Guided Diffusion Planning for Autonomous Driving》(視覺-語言引導擴散規劃賦能自動駕駛)
第一作者:蔣安慶(圖片資料暫時空缺),清華大學智能產業研究院(AIR) ;合著機構:博世中國研究院
發表時間:2025年6月3日;CVPR 2025正式收錄于同年6月17日
![]()
當你開車進入一個極其擁堵的路口,左側有加塞的公交車,右側有亂穿馬路的電動車,作為人類司機,你的大腦其實瞬間模擬了無數種可能:是稍微減速避讓?還是果斷切斜前方通過?這種“多路徑生成與優中選優”的能力,正是VLA最稀缺的。
2025年初,蔣安慶與研發團隊注意到了傳統端到端模型的一個通病:由于采用單一的動作預測,模型在復雜博弈中往往顯得“優柔寡斷”,或者只能給出一個平庸的平均方案。為了破解這一局限,蔣安慶(團隊)將大語言模型(LLM)的常識推理能力與擴散模型(Diffusion Model)的生成能力巧妙結合,提出了DiffVLA框架,并經過博世中國研究院進行了大量驗證,來確保這套復雜的數學推演能夠真正適配真實的行車邏輯。
![]()
DiffVLA的核心創新在于,它不再讓模型只猜一個“標準答案”。模型會首先通過視覺和語言指令理解當前的復雜語義(如路況擁堵,請尋找超車空隙),隨后利用擴散模型在空間中像“潑墨”一樣生成大量可能的候選軌跡。最關鍵的一步是,系統會根據語言指令的引導,從這些候選方案中篩選出最符合安全、效率與舒適度的路徑。它賦予了自動駕駛系統一種前所未有的“決策彈性”,也為自動駕駛的閉環性能樹立了新的標桿。
10、林宏彬:讓端到端學會“思考”
學術成果:《FutureX: Enhance End-to-End Autonomous Driving via Latent Chain-of-Thought World Model》(基于潛在思維鏈推理的自動駕駛軌跡優化框架)
第一作者:林宏彬,香港中文大學(深圳)博士 ;合著機構:小鵬汽車
發表時間:2025年12月12日
![]()
(圖片來源于網絡)
現在的端到端模型反應雖然很快,但在處理復雜路口博弈時,往往顯得有些“一根筋”。它們更像是一個只有肌肉記憶、不懂戰術的短跑運動員,看到障礙物會躲避,卻不理解“躲避”背后的連鎖反應。人類司機的強大就在于會預判,比如看到路邊有皮球,腦子里會立刻跳出“后面可能會跟著小孩”,這個就叫邏輯鏈。那么,能不能給自動駕駛也裝上這種“先思考、再動手”的大腦?
2025年末,林宏彬和他的團隊,與小鵬汽車一起試圖去破解智駕大模型“邏輯缺失”的頑疾。他們面臨的挑戰極其硬核:大語言模型的思維鏈(CoT)雖然聰明,但極度消耗算力,如果車在路口思考太久,就會產生致命的延遲。
他們想到了一個辦法,不在冗余的像素世界里思考,而是在極度壓縮的“潛空間(Latent Space)”里,點亮思維鏈。這套名為FutureX的框架,為系統設計了一個“自動思考開關”,在路況簡單的環路上,模型保持高效的瞬時反應;一旦進入人車混行的復雜工況,開關開啟,模型便會在潛空間里進行多步未來演化的“邏輯預演”。
實戰數據顯示了這套“三思而后行”方案的威力。在NavSim等閉環模擬中,FutureX顯著降低了碰撞率,展現了極強的博弈能力。這份成果最大的意義在于,它證明了端到端系統不應只是機械地模仿動作,而應具備邏輯推演的能力,這讓智駕大腦告別了盲目執行,揭開了屬于智駕系統的“認知”大幕。
11、特別推薦:這篇論文發表10年,含金量還在上升
盡管本文人選的入圍范圍,是2025年內在頂會/頂刊發表過高引論文的開發者,但有一個例外人選不得不提:任少卿,現任蔚來副總裁、自動駕駛研發首席專家,中國科技大學講座教授。
![]()
他在2015年作為第一作者發表的《Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks》(基于區域建議網絡的實時目標檢測),這篇讓深度學習真正具備“上車資格”的開山之作,經過10年時間,成為智能駕駛領域引用數最高的(11.5萬次)經典論文。直到今天,它依然是無數感知算法的根基,在NeurIPS 2025(人工智能頂會)獲得了時間檢驗獎。
![]()
回到2015年,那是一個感知算法極慢、完全無法用于動態駕駛的年代。人們面對的是一個幾乎無解的矛盾:想要識別得準,計算量就大得沒法跑;想要跑得快,準確率就慘不忍睹。任少卿用一種近乎優雅的物理直覺,提出了“候選區域網絡(RPN)”。
這個設計的精妙之處在于,它讓神經網絡學會了“先看一眼哪里像物體”,并實現了特征的完美共享,直接把物體檢測的速度提到了“準實時”的門檻。
10年后的今天,《Faster R-CNN》所開創的錨點框和區域建議思想,影響力還在增長。超過11.5萬次的引用記錄,證明了它作為感知論文“北斗星(參數丨圖片)”般的地位。
寫在最后:群星閃耀的時刻,再一次開始了
在跨越拐點的過程中,必然有分歧和爭論,有時聲音還蠻大,但都是插曲,因為爭論過后不久,方向和步調很快就變得一致起來。
目前,在中國智駕的前面,有且僅有一座高山,大家離他越來越近,近的幾乎已經可以聽到他的心跳了。這種新鮮感讓人興奮不已。
但越過這座山之后,前方就是茫茫黑夜,再無高舉火把的手。在歷史的刻度上,我們即將到達人類認知的新邊疆。巨大的孤獨即將襲來。怎么辦?
不知道。
但我們知道,孤獨和無助,并不是人類前進的障礙,傲慢和無知才是。正因為孤獨和無助,才讓人類得以更好的連接。而美好的連接,會激發出探索未知的勇氣。本文推薦的11篇重磅論文及其第一作者,和合著團隊(機構),正是勇敢探索未知的范例。
看到他們,那些年輕人的臉,相信你會有一種雞皮疙瘩炸起的感覺:群星閃耀的時刻,再一次開始了。
任少卿在十年前種下的那顆感知的種子,已升起為一顆大星。陳小雪用0.4秒的奇跡,讓機器學會了如何在瞬息間復刻出“平行世界”;楊磊為那些輕飄飄的視覺幻覺釘上了物理的骨骼。他們解決的是“真實感”的問題,讓智駕的進化擁有了無窮無盡、且絕對可信的數字戰場。
當數據量堆疊到令人窒息的千萬小時時,李英艷敏銳地捕捉到了“監督赤字”的陰影,她用世界模型作為杠桿,撬動了數據進化的第二曲線。這種對效率的極致追求,與曹家俊那把剪向冗余Token的“手術刀”交相輝映——他們一個在為大腦擴容,一個在為神經減負。
更令人欣慰的變化,發生在機器的“性格”里。鄭宇鵬試圖在潛空間里尋找機器的自我意識,讓“自監督”取代了昂貴的人工標注;而林宏彬和蔣安慶則分別用“思維鏈”和“擴散規劃”,教會了模型在復雜的人性博弈中學會三思而后行。從此,車不再是冰冷的鐵盒,它開始具備了某種程度上的“博弈直覺”與“決策彈性”。
最后,馬楠教授與李德毅院士的具身智能范式,則像一顆最新的星,照亮了更遠的方向:智駕不應只是看圖做題的算法,它應該是具備社會常識、能與人類共情的生命體。
這些勇敢的充滿創造力的探索,展現了當代中國智駕開發者們的格局和氣象。在1月31日舉行的【2025智駕天梯榜年度盛典】上,我們將邀請他們中的一部分,作為“2025智駕開發者50人”的代表進行現場分享,敬請關注。2025中國智駕開發者50人(第一集)
第一電動編輯部
茨威格說過,一個真正具有世界歷史意義的時刻 —— 一個人類群星閃耀的時刻出現以前,必然會有漫長的歲月無謂地流逝而去。
類似的話,中國古人也說過:“天不生仲尼,萬古如長夜”。你知道的,仲尼來的時候,不是一個人,而是一票人,他們一起爭奇斗艷,改寫了其后的2500年。
![]()
不知道歷史進度條是否被突然加速了,還是這一代人原本就是這么幸運,還是別的什么——在2024-2025年的某些時刻,我們忽然有了這樣的感覺:群星正在遙遙升起,即將劃過頭頂的夜空。
具體的說,是2024年11月和2025年9月,中國智駕行業突然出現的兩次拐點,在【智駕大賽】上表現為參賽成績突然大幅提升,被參賽車友和裁判驚訝地捕捉到,快速溢出到更大范圍的車友群里。
把這兩次拐點串起來看,你會看到一條清晰的脈絡,這就是國內智駕行業頭部陣營過去兩年里攀登天梯的脈絡:
1、E2E 車端模型(參數量 2B - 4B),從 2024年Q4 的 “兩段式(感知 + 規控分階段)” 迭代為 2025年Q4 的 “一段式(單模型全流程)”,在結構化城市場景的能力與體驗上已逼近特斯拉 FSD V13;
2、云端基座模型(參數量多為30B-70B),從2024年Q4 的 “BEV+OCC+Transformer(感知底座)”,迭代升級為 2025年Q4 的“VLA(認知決策)+WA(世界建模)+RL(行為優化)+Transformer(核心骨干)”復合架構 —— 在保留原感知優勢的基礎上,融入多模態理解與因果推理能力,打開了跨域應用的大門。
2025年度,誰在推動智駕進步?今天起,我們將推出《2025中國智駕開發者50人》系列,分5期刊發。
入圍的80多位候選人,絕大多數在國內,少數在國外,個別是海外華人。他們的研發成果,體現在過去兩年里發生的兩次智駕拐點上。但其中的大部分,都很低調。
入圍的標準有兩條(個別極其優秀者例外):
1、2025年內,在全球頂會頂刊發表高引論文的第一作者(含合著團隊);
2、2025《智駕天梯榜》年度榜單上榜方案商和主機廠的核心研發人員。
經過核實與比對,最終挑選出50位有代表性的人物。他們的身份,大體分四類:
1、學術研究者,在頂會頂刊上發表高引論文的第一作者(含合著團隊);
2、研發組織者,定投資、定方向、定目標、定范式、定團隊的人,類似奧本海默;
3、研發骨干,負責某一個具體方向的研發統籌,并和兄弟們一起拼搏出成果的人;
4、產品和工程負責人,負責產品定義、用戶交互、工程實施的人,做出了非常棒的產品體驗,或者保障了連續的工程交付表現。
今天第一期,推薦11篇卓越論文及其作者。每篇論文都可能是團隊協作完成,亦或由不同單位之間的團隊協作完成。本文主要記錄第一作者,兼帶介紹合著團隊(排名不分先后)。
01、楊磊:在“海拔高度”中尋找純視覺感知的精確性
學術成果:《BEVHeight++: Toward Robust Visual Centric 3D Object Detection》(3D目標檢測通用框架)
第一作者:楊磊,清華大學2020級博士研究生;合著團隊:清華大學李駿院士團隊
發表時間:2025年3月11日(發表于IEEE TPAMI)
![]()
(圖片來源:清華大學研究生教育)
2023年前后,視覺3D檢測正陷入一場“深度糾結”——行業標配的做法是先預測“深度”,再投影。但他敏銳察覺到了視覺的天然軟肋:攝像頭預測的深度就像盲人摸象,尤其在遇到坡道或車輛顛簸時,預測出的深度會產生劇烈抖動,導致感知結果“滿屏亂飄”。
那什么是可靠的?他和團隊想到了“高度”。即便地面有坡度,車與路面的相對高度是相對穩定的物理量。這就好比在原本松動的地基(深度)旁,打下了一根名為“海拔高度”的鋼筋。通過對像素高度信息的挖掘,在不增加額外硬件傳感器(不加LiDAR)的情況下,提升了視覺感知在三維空間中的定位精度。
![]()
這意味著,可以用成本可控的攝像頭方案,達到接近昂貴傳感器的感知效果,這對降低量產車成本至關重要,所以BEVHeight++的角色,是“全場景感知的穩定器”,它讓自動駕駛汽車在面對復雜的上下坡、顛簸路面,以及在與智能路側設備“對話”時,擁有一雙更準確、更不容易被欺騙的“三維眼睛”,它讓純視覺3D感知不再是一個“脆而易碎”的估算模型,而變成了一個具備幾何約束的穩定工程方案。
這份學術成果的意義,是讓自動駕駛系統在高速場景下的判斷更穩,在復雜起伏的城市立交橋上,實現了打通“車路協同”最后一步的可能。
02、曹家俊:在算力紅線面前,讓模型“少看一點”
學術成果:《FastDriveVLA:Efficient End-to-End Driving via Plug-and-Play Reconstruction-based Token Pruning》(基于重建的新型視覺token剪枝框架)
第一作者:曹家俊,北京大學計算機學院多媒體信息處理全國重點實驗室;合著機構:小鵬汽車
發表時間:2025年11月14日;AAAI 2026收錄公布于2025年12月28日
![]()
(圖片來源:Google Scholar)
VLA(視覺-語言-動作大模型),它有著驚人的駕駛智慧,但體積大得驚人。成千上萬個視覺token隨時都在像潮水一樣涌入狹小的計算單元,巨大的計算開銷增加了推理延遲,算力總有跟不上的時候,這就出現了兩個問題:計算跑不動、關鍵信息丟失。在瞬息萬變的時刻智駕出現致命“卡頓”,該怎么解決?
去年,在北京大學的實驗室里,曹家俊(團隊)和小鵬汽車開始審視那些被模型奉為圭臬的視覺信息——天空中的流云、路邊早已路過的廣告牌,這些token占據了大量算力資源,但對VLA輸出的行為貢獻不大。他們沒有粗魯地“砍掉”這些畫面,而是像一位精細的外科醫生,開發出了一套不改動原模型權重,但能將計算負載降低75%以上的token剪枝框架。
![]()
在研發FastDriveVLA的那段日子里,他們反復測試“刪除”的邊界,讓模型去學習,哪些像素即使消失了,也不會影響對駕駛意圖的判斷,用MAE風格的像素重建技術,通過評估Token對前景區域重建的貢獻度來判斷其重要性,當最終實現7.5倍的計算量縮減、且在nuScenes測試中幾乎不損失精度時,這份學術成果顯示出了它最大的意義,填補了智駕領域缺乏精細前景標注的空白,賦予了VLA“排除雜念”的本能,讓智能模型在邁向L4時變得更輕盈、更敏捷。
03、魯洪良:為冰冷死板的機器注入“社會直覺”
學術成果:《Empowering safer socially sensitive autonomous vehicles using human-plausible cognitive encoding》(利用類人認知編碼賦能更安全、具有社會敏感性的自動駕駛汽車)
第一作者:魯洪良,香港科技大學(廣州)博士;合著團隊:東南大學、香港科技大學等團隊
發表時間:2025年5月19日(PNAS《美國國家科學院院刊》)
![]()
(圖片來源于網絡)
好用的智能駕駛,應該是同時具備高效和安全的。眼下,各類智駕系統都太“有禮貌”了,而這種禮貌是源于對規則的死板遵守,而非對社會的真正理解。這種機器人的生硬,往往是引發路怒和交通事故的隱性誘因。
于是,魯洪良與他的團隊,決定做一個大膽的跨界:把人類的“認知編碼”引入到代碼。這聽起來甚至有些哲學:如何量化“禮讓”的權重?如何讓車感知行人多變的運動軌跡?
他在論文中提出的“擬人化認知編碼”,讓車輛開始具備某種“社會直覺”。比如借鑒神經科學概念,通過編碼給系統看得到的交通參與者做一次風險分級,同時賦予他們差異化權重,再將加權后的風險整合成“行為信念”,最終動態反映與潛在風險的時空關聯性。這將使得智駕系統,會預判自身動作對周邊交通流的影響(比如突然變道是否會引發后車急剎),從而實現更平順的社會化交互。
![]()
當算法跑通的那一刻,不再是冷冰冰的概率分布,而是車輛在路口優雅地與其他交通參與者達成的默契。所以這份學術成果的意義,讓我們看到了智駕落地的終點,不是冰冷的機器接管世界,而是機器能與人類共建交通規則。
04、明南:看清腳下路面的“褶皺”
學術成果:《TA-TOS: Terrain-Aware Tiny Obstacle Segmentation Based on MRF Road Modeling Using 3-D LiDAR Scans》(基于馬爾可夫隨機場的地形自適應小型障礙物分割算法)
第一作者:明南,上海交通大學自動化與感知學院2023級碩士;合著團隊:上海交通大學智能網聯電動汽車創新中心團隊
發表時間:2025年6月10日(發表于IEEE Xplor)
![]()
(圖片來源于:上海交大智能網聯創新中心)
在上海交大智能網聯汽車中心的實驗室里,明南和團隊不斷在嘗試破解一個難題:除了肉眼可見的人、車和被標注進白名單的常見異型障礙物之外,有沒有一種不依賴GPU性能,專門解決坑洼碎石等小型障礙物的高精度檢測方法呢?
在研發TA-TOS期間,明南正處于碩士求學的高強度階段,這也是智駕技術火的發燙的技術大年,行業里都在追求“大模型”,但很少有人愿意俯下身子去研究路面的“褶皺”。
![]()
在這份學術成果里,他們像是一個手持放大鏡的偵探,引入了馬爾可夫隨機場(MRF)來對路面建模,經過漫長的打磨和一次次修正,最終通過負指數能量函數實現了障礙物的魯棒分割。這為智駕系統補上了一塊“非平整路工況”的關鍵拼圖。這份學術成果,也讓外界注意到,真正的安全好用的智駕系統,不僅應具備強博弈能力,更應首先能看清腳下的路。
05、鄭宇鵬:在無標注的荒原上,讓機器學會自我進化
學術成果:《World4Drive: End-to-End Autonomous Driving via Intention-aware Physical Latent World Model》(融合多模態駕駛意圖的物理潛世界模型端到端自動駕駛框架)
第一作者:鄭宇鵬(圖片資料暫時空缺),中國科學院自動化研究所2024級博士;合著機構:理想汽車
發表時間:2025年7月1日
能不能跳過人工標注,讓汽車直接從原始傳感器數據里,自己“悟”出來一則駕駛之道?
2025年7月前,正在攻讀博士的鄭宇鵬和正全力推進下一代智能駕駛技術的理想汽車,就一同在探索這個問題,到底能不能實現?
![]()
學術團隊和理想團隊一邊打磨物理潛空間表征理論,一邊拿著不斷投喂的新模型做實戰,最終他們發現,其實系統并不需要知道路上的物體叫什么,只需要知道在某種“駕駛意圖”下,未來的物理空間會怎么去演化,這就是World4Drive的核心:一個“意圖感知”的物理潛世界模型。它不再像傳統的視覺模型那樣,耗費巨大算力生成華麗的像素畫面,而是在干澀但高效的“潛空間”里腦補出多條候選軌跡,然后再拿著預測結果和實際觀測做一輪自監督比對,哪條路徑最穩、哪條路徑最不容易碰撞,最終完成“閉環自校準”。
![]()
實戰下來的效果驚人,在完全沒有人工標注的情況下,碰撞率降低了46.7%,軌跡偏差縮小了18.1%,訓練收斂速度提升了整整3.75倍。這意味著系統可以擺脫對昂貴標注數據的依賴,在缺失外部標注的極端環境下也能做出安全決策。這不僅為城區NOA的決策博弈提供了關鍵路徑,也標志著智駕會從“看見世界”邁向“理解物理規律”完成進化。
06、陳小雪:0.4秒,讓仿真訓練進入“大批量自動化生成時代”
學術成果:《DGGT: Feedforward 4D Reconstruction of Dynamic Driving Scenes using Unposed Images》(自動駕駛仿真場景的無姿態圖像4D前饋重建方案)
第一作者:陳小雪,清華大學智能產業研究院(AIR)趙昊課題組;合著機構:小米汽車
發表時間:2025年12月2日
![]()
(圖片來源于:清華大學智能產業研究院)
智駕行業一直有個“昂貴的門檻”:想要把一段平凡的路測視頻,復刻成可以在電腦里反復練習的4D仿真場景,傳統方法(如3DGS或NeRF)通常需要針對每個視頻進行長達數小時、甚至數天的計算優化。更糟糕的是,如果傳感器的外參標定有一點點偏差,生成的畫面就會像被打碎的鏡子一樣重影。對于追求“發布即量產、量產即好用”的智能駕駛系統來說,這種數據處理方式談不上高效,更談不上緊跟模型迭代的腳步。有沒有破局之道?
已經在清華AIR實驗室攻讀博士的陳小雪,她想找到這個答案,也包括小米汽車。2025年,學術團隊和小米汽車,日復一日的在挑戰這個讓行業頭疼已久的效率瓶頸:能不能跳過漫長的訓練,實現“瞬間復刻”?
![]()
學術團隊在扎實的幾何視覺理論基礎上,大膽提出了“前饋重建”的新范式,企方則拿出了端到端路測原始數據,雙方在實戰中反復磨合,最終誕生的DGGT框架展現了令人震撼的性能:它將原本數小時的重建過程縮短到了驚人的0.4秒。
這意味著,智駕每天產生的數百萬小時路測視頻,幾乎可以實時地轉化為可交互的4D仿真教材!更具意義的是,參與論文研發的團隊還攻克了“Unposed(無位姿)”難題,讓系統能直接處理存在標定誤差的原始數據。這份成果不僅為“閉環仿真”插上了翅膀,更標志著智駕仿真從“手工作坊式”的精雕細琢,正式跨入了“工業級流水線”的瞬間生成時代。
07、馬楠:讓智能駕駛“活過來”
學術成果:《Embodied Interactive Intelligence Towards Autonomous Driving》(邁向自動駕駛的核心技術框架)
第一作者:馬楠,北京工業大學信息科學技術學院教授;合著團隊:李德毅團隊(中國工程院院士)
發表時間:2025年12月3日(發表于Engineering)
![]()
(圖為馬楠;圖片來源于:北京工業大學新聞網)
當全行業都在通過卷參數、卷算力來提升感知精度時,馬楠教授與李德毅院士注意到了一個被忽略的深層危機:自動駕駛車開得越來越像“準時卻生硬的機器人”。在擁堵的路口,它們要么因為過于保守而永遠動彈不了,要么因為無法預判行人的運動軌跡而頻繁點頭急剎。這種“缺乏人味”的表現,揭示了傳統“感知→規劃→控制”鏈條的局限。
![]()
(圖為李德毅;圖片來源于:網絡)
2025年底,兩位學者和他們的團隊,在“駕駛腦”理論的基礎上,正式提出了“具身交互智能”架構。這不再是針對某一個算法的縫縫補補,而是一場由學術界發起的范式革命:將自動駕駛從“看圖做題”的計算機視覺任務,徹底轉變為“具身智能體”與物理環境的博弈與協作。
論文中尖銳地指出了當下的三大難題:意圖對齊難、泛化能力弱、被動響應多。為了解決這些痛點,團隊提出了一個稱為UniCVE的閉環智能架構,同時圍繞“感知-認知-行為”三層模型展開,構建了一套讓汽車具備“物理直覺”和“社會常識”的認知模型,讓系統根據實時反饋的信息,不斷優化內部預測與行為決策。這讓最終的智駕行為,不再是單純的避障,而是真正的像老司機一樣,通過輕微的位移試探或意圖表達,與周圍的行人、車輛進行主動溝通。
![]()
雖然距離這種完全擬人化的駕駛全面落地尚需時日,但這份科研成果仍具有劃時代的意義,這份構想已成為通往L5級無人駕駛的關鍵理論支柱,它為“后端到端”時代的進化指明了終極方向——讓車輛從一臺“按線行駛的機器”,變成有交互能力的“智能生命體”。
08、中科院自動化所:用世界模型解決“監督赤字”
學術成果:《DriveVLA-W0:World Models Amplify Data Scaling Law in Autonomous Driving》(基于世界模型增強自動駕駛數據規模化效應的研究)
署名作者:Liyingyan(英譯李艷英,資料暫時空缺)等多位中國科學院自動化研究所成員;合著機構:引望智能
發表時間:2025年12月18日
自動駕駛領域一直信奉著一條“暴力美學”定律——數據規模定律(Scaling Law):只要投喂的數據足夠多,模型就會越聰明。然而,2025年的開發者們普遍撞上了一堵墻:監督赤字(Supervision Deficit)。
![]()
啥是“監督赤字”?在VLA模型里,輸入的是高維且稠密的視覺信息流,但它的監督信號卻往往是低維且稀疏的駕駛動作,模型的大部分表征能力都被白白浪費了,這就導致了模型無法充分學習復雜的行為。正當學術界和開發者們熱議這一瓶頸時,一支來自國內頂尖學術機構和華為合作的研發團隊,在去年12月悄然給出了破解的錦囊。
研究團隊想到了一個辦法,與其依賴稀疏的“動作”,倒不如讓模型去學習稠密的“世界”,把預測未來圖像作為一項稠密的自監督訓練任務,也就是利用世界模型提供“稠密”的自監督信號,大量的實驗最終證實了:在稀疏的動作監督下,VLA模型的性能會隨著數據量的增加迅速飽和,所謂的Data Scaling Law效應在此大打折扣。
![]()
也可以理解成傳統的VLA僅依賴稀疏的動作監督,而DriveVLA-W0是額外引入了稠密的視覺預測任務,迫使模型去理解環境,當模型被要求預測下一幀的完整視覺畫面時,它就必須得學習和理解這個物理世界的真實運行規律,這為VLA模型提供了更豐富和稠密的學習信號,從根本上緩解了“監督赤字”,這套方案不僅提供了清晰的解題思路,也展示了世界模型在“生成”之外的另一條核心價值路徑。
09、蔣安慶:在概率的叢林里,為智駕找尋“最優解”
學術成果:《DiffVLA:Vision-Language Guided Diffusion Planning for Autonomous Driving》(視覺-語言引導擴散規劃賦能自動駕駛)
第一作者:蔣安慶(圖片資料暫時空缺),清華大學智能產業研究院(AIR) ;合著機構:博世中國研究院
發表時間:2025年6月3日;CVPR 2025正式收錄于同年6月17日
![]()
當你開車進入一個極其擁堵的路口,左側有加塞的公交車,右側有亂穿馬路的電動車,作為人類司機,你的大腦其實瞬間模擬了無數種可能:是稍微減速避讓?還是果斷切斜前方通過?這種“多路徑生成與優中選優”的能力,正是VLA最稀缺的。
2025年初,蔣安慶與研發團隊注意到了傳統端到端模型的一個通病:由于采用單一的動作預測,模型在復雜博弈中往往顯得“優柔寡斷”,或者只能給出一個平庸的平均方案。為了破解這一局限,蔣安慶(團隊)將大語言模型(LLM)的常識推理能力與擴散模型(Diffusion Model)的生成能力巧妙結合,提出了DiffVLA框架,并經過博世中國研究院進行了大量驗證,來確保這套復雜的數學推演能夠真正適配真實的行車邏輯。
![]()
DiffVLA的核心創新在于,它不再讓模型只猜一個“標準答案”。模型會首先通過視覺和語言指令理解當前的復雜語義(如路況擁堵,請尋找超車空隙),隨后利用擴散模型在空間中像“潑墨”一樣生成大量可能的候選軌跡。最關鍵的一步是,系統會根據語言指令的引導,從這些候選方案中篩選出最符合安全、效率與舒適度的路徑。它賦予了自動駕駛系統一種前所未有的“決策彈性”,也為自動駕駛的閉環性能樹立了新的標桿。
10、林宏彬:讓端到端學會“思考”
學術成果:《FutureX: Enhance End-to-End Autonomous Driving via Latent Chain-of-Thought World Model》(基于潛在思維鏈推理的自動駕駛軌跡優化框架)
第一作者:林宏彬,香港中文大學(深圳)博士 ;合著機構:小鵬汽車
發表時間:2025年12月12日
![]()
(圖片來源于網絡)
現在的端到端模型反應雖然很快,但在處理復雜路口博弈時,往往顯得有些“一根筋”。它們更像是一個只有肌肉記憶、不懂戰術的短跑運動員,看到障礙物會躲避,卻不理解“躲避”背后的連鎖反應。人類司機的強大就在于會預判,比如看到路邊有皮球,腦子里會立刻跳出“后面可能會跟著小孩”,這個就叫邏輯鏈。那么,能不能給自動駕駛也裝上這種“先思考、再動手”的大腦?
2025年末,林宏彬和他的團隊,與小鵬汽車一起試圖去破解智駕大模型“邏輯缺失”的頑疾。他們面臨的挑戰極其硬核:大語言模型的思維鏈(CoT)雖然聰明,但極度消耗算力,如果車在路口思考太久,就會產生致命的延遲。
他們想到了一個辦法,不在冗余的像素世界里思考,而是在極度壓縮的“潛空間(Latent Space)”里,點亮思維鏈。這套名為FutureX的框架,為系統設計了一個“自動思考開關”,在路況簡單的環路上,模型保持高效的瞬時反應;一旦進入人車混行的復雜工況,開關開啟,模型便會在潛空間里進行多步未來演化的“邏輯預演”。
實戰數據顯示了這套“三思而后行”方案的威力。在NavSim等閉環模擬中,FutureX顯著降低了碰撞率,展現了極強的博弈能力。這份成果最大的意義在于,它證明了端到端系統不應只是機械地模仿動作,而應具備邏輯推演的能力,這讓智駕大腦告別了盲目執行,揭開了屬于智駕系統的“認知”大幕。
11、特別推薦:這篇論文發表10年,含金量還在上升
盡管本文人選的入圍范圍,是2025年內在頂會/頂刊發表過高引論文的開發者,但有一個例外人選不得不提:任少卿,現任蔚來副總裁、自動駕駛研發首席專家,中國科技大學講座教授。
![]()
他在2015年作為第一作者發表的《Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks》(基于區域建議網絡的實時目標檢測),這篇讓深度學習真正具備“上車資格”的開山之作,經過10年時間,成為智能駕駛領域引用數最高的(11.5萬次)經典論文。直到今天,它依然是無數感知算法的根基,在NeurIPS 2025(人工智能頂會)獲得了時間檢驗獎。
![]()
回到2015年,那是一個感知算法極慢、完全無法用于動態駕駛的年代。人們面對的是一個幾乎無解的矛盾:想要識別得準,計算量就大得沒法跑;想要跑得快,準確率就慘不忍睹。任少卿用一種近乎優雅的物理直覺,提出了“候選區域網絡(RPN)”。
這個設計的精妙之處在于,它讓神經網絡學會了“先看一眼哪里像物體”,并實現了特征的完美共享,直接把物體檢測的速度提到了“準實時”的門檻。
10年后的今天,《Faster R-CNN》所開創的錨點框和區域建議思想,影響力還在增長。超過11.5萬次的引用記錄,證明了它作為感知論文“北斗星”般的地位。
寫在最后:群星閃耀的時刻,再一次開始了
在跨越拐點的過程中,必然有分歧和爭論,有時聲音還蠻大,但都是插曲,因為爭論過后不久,方向和步調很快就變得一致起來。
目前,在中國智駕的前面,有且僅有一座高山,大家離他越來越近,近的幾乎已經可以聽到他的心跳了。這種新鮮感讓人興奮不已。
但越過這座山之后,前方就是茫茫黑夜,再無高舉火把的手。在歷史的刻度上,我們即將到達人類認知的新邊疆。巨大的孤獨即將襲來。怎么辦?
不知道。
但我們知道,孤獨和無助,并不是人類前進的障礙,傲慢和無知才是。正因為孤獨和無助,才讓人類得以更好的連接。而美好的連接,會激發出探索未知的勇氣。本文推薦的11篇重磅論文及其第一作者,和合著團隊(機構),正是勇敢探索未知的范例。
看到他們,那些年輕人的臉,相信你會有一種雞皮疙瘩炸起的感覺:群星閃耀的時刻,再一次開始了。
任少卿在十年前種下的那顆感知的種子,已升起為一顆大星。陳小雪用0.4秒的奇跡,讓機器學會了如何在瞬息間復刻出“平行世界”;楊磊為那些輕飄飄的視覺幻覺釘上了物理的骨骼。他們解決的是“真實感”的問題,讓智駕的進化擁有了無窮無盡、且絕對可信的數字戰場。
當數據量堆疊到令人窒息的千萬小時時,李英艷敏銳地捕捉到了“監督赤字”的陰影,她用世界模型作為杠桿,撬動了數據進化的第二曲線。這種對效率的極致追求,與曹家俊那把剪向冗余Token的“手術刀”交相輝映——他們一個在為大腦擴容,一個在為神經減負。
更令人欣慰的變化,發生在機器的“性格”里。鄭宇鵬試圖在潛空間里尋找機器的自我意識,讓“自監督”取代了昂貴的人工標注;而林宏彬和蔣安慶則分別用“思維鏈”和“擴散規劃”,教會了模型在復雜的人性博弈中學會三思而后行。從此,車不再是冰冷的鐵盒,它開始具備了某種程度上的“博弈直覺”與“決策彈性”。
最后,馬楠教授與李德毅院士的具身智能范式,則像一顆最新的星,照亮了更遠的方向:智駕不應只是看圖做題的算法,它應該是具備社會常識、能與人類共情的生命體。
這些勇敢的充滿創造力的探索,展現了當代中國智駕開發者們的格局和氣象。在1月31日舉行的【2025智駕天梯榜年度盛典】上,我們將邀請他們中的一部分,作為“2025智駕開發者50人”的代表進行現場分享,敬請關注。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.