大數據文摘受權轉載自智源社區
2023年,當UniAD在CVPR大會上斬獲最佳論文,許多人將這視為中國自動駕駛研究邁向世界舞臺的高光時刻。但對李弘揚而言,那只是一個開始。
UniAD 出來之后,業界紛紛圍繞“端到端”展開技術布局,而他已經在思考:如果將這些核心能力推廣到更廣義的智能系統中,會是什么樣的圖景?
是的,他并未選擇停留在已有的功勛簿上,而是果斷地將從UniAD 中凝練出的方法論,遷移至一片更廣闊、更富想象力的新大陸"具身智能"。這并非一次簡單的“轉型”,而是一場深思熟慮后的“升維”,是將一套業已成熟的“感知-決策-執行”閉環框架,向更通用、更復雜的物理世界進行的自然延展。
與他的這次深度對話中,李弘揚系統地復盤了他從自動駕駛到具身智能的心路歷程,分享了UniAD “以終為始”的研究哲學,并對當前具身智能領域的機遇與泡沫給出了冷靜的剖析,甚至直言:“其實現在看到的一些機器人演示視頻是不真實的。”他的思考,不僅揭示了一位頂尖科研人員如何在技術熱潮中保持獨立的判斷力,也為我們理解人工智能的未來走向,提供了一個極具價值的樣本。
要點速覽
關于研究判斷:自動駕駛已從技術驅動轉向資源驅動,成為高度依賴資金、數據和工程體系的賽道。
關于UniAD的核心理念:該工作最大的意義在于提出了一種以終為始、以任務規劃為導向的理念。
關于行業泡沫:其實現在看到的一些機器人演示視頻是不真實的。
關于“ImageNet 時刻”:一個領域真正的“ImageNet時刻”,并非指發布一個數據集讓大家被動使用,而是要創建一個能激發整個社區主動參與和貢獻的平臺或基準(Benchmark)。
關于科研建議:在行業最熱鬧的時候,要在場,保持關注和判斷,不被邊緣化;而當熱潮退卻、泡沫破滅、喧囂散去時,憑借你的扎實積累和持續努力,依然能坐在牌桌上。這才是最關鍵的戰略定力。
![]()
李弘揚,香港大學助理教授,港大OpenDriveLab(opendrivelab.com)團隊負責人。研究方向為端到端智能系統在機器人、自動駕駛的應用。他主導的端到端自動駕駛方案UniAD于2022年提出,獲IEEE CVPR 2023最佳論文獎。UniAD等系列工作產生了明顯的社會經濟效益,包括特斯拉于2023年推出的端到端FSD。他構造的超大規模具身智能訓練場Agibot World, 是業界首個百萬真機、千萬仿真數據集,系統研究具身Scaling Law方法論。他提出的俯視圖感知方法BEVFormer,獲2022年百強影響力人工智能論文榜單,成為業界廣泛使用的純視覺檢測基準。他多次擔任CVPR、NeurIPS、ICLR、ICCV、ICML、RSS等國際會議領域主席(AC),其中獲得NeurIPS 2023 Notable AC。他是《自然》、《自然·通訊》審稿人、國際期刊《Automotive Innovations》客座編委。IEEE、CCF、CSIG高級會員、IEEE汽車委員會自動駕駛國際標準P3474工作組組長。榮獲2024年中國吳文俊人工智能青年科技獎。
UniAD 之后,沒有“終點站”,只有更廣義的智能世界
李夢佳:介紹下您及其團隊在人工智能領域近年來的代表性研究成果?
李弘揚:此前曾介紹過一項高效的研究成果BEVFormer,該項目完成后進行了開源。此項代表作自2022年發表以來廣受歡迎,目前單篇引用量已逾千次,這對一篇學術論文而言意義重大。
第二個代表作項目是公眾熟知的UniAD,其開創性地將感知與決策統一在單一網絡模型中。該成果于2022年12月發布,次年3月即引發討論,特斯拉也在2023年底推出的FSD V12中也體現了此思路;進入2024 年,國內主流車企也陸續跟進,選擇了這一技術路線。
![]()
圖注:端到端自動駕駛算法工作UniAD 被評為 CVPR 2023 最佳論文
第三項代表作是最近完成的一項具有廣泛影響力的研究工作:超大規模真實機器人操控數據集“AgiBot World”的構建。
![]()
圖注:AgiBot World github 地址https://github.com/OpenDriveLab/AgiBot-World
該項目之所以受到廣泛關注,關鍵在于其部署規模與應用廣度:項目在一個占地1000平方米的場地中,部署了100臺真實機器人,數據采集覆蓋了五大典型行業場景。相比以往研究在整合多源數據時常面臨的異構性難題,這個項目在統一數據標準、跨領域適配等方面實現了關鍵突破。
上述三項成果,分別代表了我及其團隊在視覺感知、端到端自動駕駛以及具身智能領域的代表性工作。
李夢佳:在您的研究過程中,曾經出現過哪些關鍵的“轉折點”?有沒有某個時刻,讓您對自動駕駛或整個智能系統的研究路徑產生了根本性的重新思考?
李弘揚:關鍵的轉折點在于,我逐漸意識到自動駕駛的研發已步入“下半場”。這一認知源于我在加州與多位知名教授的深入交流。我們達成共識:自動駕駛已從技術驅動轉向資源驅動,成為高度依賴資金、數據和工程體系的賽道。在這一階段,若缺乏企業級的資源支撐,學術界很難再產出具有顛覆性或廣泛影響力的成果。
基于上述判斷,我逐步將此前在端到端自動駕駛中積累的技術能力,遷移應用于更廣義的智能系統。事實上,從自動駕駛系統到泛化智能系統,二者在感知、決策、系統集成等核心能力上具有高度共通性。我一些最緊密的合作伙伴中,許多都具備自動駕駛背景,現在我們轉向更具前瞻性的研究方向。
對我而言,最關鍵的轉折點,是明確了“具身智能”是一片尚待開拓的藍海。在深入思考與調研后,我逐漸意識到,具身智能在其四大核心要素:算法、數據、硬件與應用場景的每一個層面都蘊藏著巨大的研究價值和應用潛力。這個戰略方向的確立大約是在2024年6月至7月之間,也正是從那時起,我將研究重心全面轉向具身智能領域。
李夢佳:您早期聚焦于端到端自動駕駛,如今卻將重心轉向具身智能。促使您做出這一轉變的原因是什么?
李弘揚:之所以選擇將研究方向從自動駕駛轉向具身智能,根本原因在于兩者在核心技術上具有高度的共通性。盡管自動駕駛系統表面上是一個“有四個輪子”的載體,但從建模的角度來看,其整體架構是可以被抽象和簡化的。
無論是自動駕駛還是機器人系統,它們在技術流程上遵循著類似的范式:首先,通過感知系統識別并理解外部環境;接著,基于感知結果與環境進行智能決策與交互;最終,執行相應的動作以完成任務目標。這種從感知到決策,再到執行的閉環流程,構成了二者在系統設計與技術實現上的深層共性。
例如,在機器人領域,動作執行通常被稱為“策略(Policy)”,這一概念與自動駕駛中的控制模塊本質一致,因此兩者在技術棧上具有高度相似性。從某種程度上看,自動駕駛可以被視為一種形態固定的特化機器人,其“身體”由車輪、油門和方向盤構成。
從這個角度來看,這并不是“轉型”,而更像是方法論的自然延展,將一套已經在自動駕駛中打磨成熟的技術體系,特別是以強化學習為代表的智能決策框架,從特定的交通場景推廣至更廣泛的機器人領域。
具身智能的“ImageNet時刻”,不是靠秀場,而是平臺
李夢佳:在您看來,目前機器人領域在技術推進上面臨的核心挑戰是什么?
李弘揚:在技術層面,機器人領域面臨諸多挑戰,其中最為關鍵的是數據獲取與規模化的問題。測算結果顯示,若以當前大語言模型所依賴的數據規模為參照,多模態領域的數據量僅為其約1/200,而機器人相關數據的規模則更為稀缺,僅為1/5000。在如此有限的數據基礎上實現系統的泛化能力和智能水平,構成了當前研究中的重大難題。
造成機器人數據難以規模化的根本原因,在于其高度的異構性。不同的機器人平臺、傳感器配置以及所承擔的任務各異,使得數據難以統一和整合。這與自然語言處理領域形成鮮明對比,后者的文本數據可便捷地從互聯網中大規模獲取,具備良好的標準化和一致性。
因此,研究中面臨的重要課題之一,是如何通過模擬仿真環境或設計成本可控的設備,實現機器人數據的大規模、快速、經濟的采集與積累。這一過程不僅技術復雜,也蘊含著創新的空間。
為應對這一挑戰,可以從兩個方向入手:一是與國內外領先的硬件企業建立合作,借助其平臺實現數據的快速獲取;二是自主研發低成本、高效率的數據采集系統,以滿足大規模數據需求并推動研究進展。這兩條路徑均具備深厚的技術潛力和廣闊的應用前景。
![]()
圖注:AgiBot World Colosseo 簡介
李夢佳:您前陣子發布的“AgiBot World” 數據集,是否正是為了應對前述的數據采集挑戰,進而推動具身智能的發展?要想打造具身智能領域的“ImageNet”時刻,還需要哪些努力?
李弘揚:當前具身智能領域存在顯著的泡沫化傾向,有些宣傳稱“AgiBot World”是具身智能的“ImageNet 時刻”,其實存在一定程度的過度渲染。
冷靜地看,一個領域真正的“ImageNet時刻”,并非指發布一個數據集讓大家被動使用,而是要創建一個能激發整個社區主動參與和貢獻的平臺或基準(Benchmark)。
只有當社區成員在此基礎上不斷貢獻,例如圍繞其舉辦多年競賽、催生出各類衍生數據集時,才能形成一個健康且良性的發展循環。因此,我們將當前的工作視為一個起點,并計劃在此基礎上舉辦一系列社區活動。
未來,通過開源生態、仿真平臺、學術競賽以及校企捐助計劃等一系列舉措,將逐步構建起完善的社區生態,這是至關重要的一步。
李夢佳:所以可以理解為,核心策略是圍繞數據集舉辦競賽,通過社區共創的模式來解決領域內的關鍵難題。如果進一步細分,“數據獲取”這一宏觀挑戰還可以被拆解為哪些更具體、更具可操作性的子問題?
李弘揚:從具體的任務來看,數據集及相關競賽主要側重于三個核心方向:首先是多機器人協同(Multi-robot Collaboration);其次是融合觸覺信號的感知,例如對力的變化進行感知;最后則是靈巧手的高級操作。
李夢佳:能否詳細介紹下UniAD?有報道稱它對特斯拉的FSD產生了深遠影響。
李弘揚:首先,2023年,這篇論文在九千多篇投稿論文里脫穎而出,獲得了年度 CVPR 最佳論文。其次,至于其對FSD的深遠影響,通常企業不會公開承認其技術源自學術界或開源項目。但從時間線上看,UniAD的方案提出得比特斯拉采用類似方案要早很多。盡管無法斷言,但特斯拉的工程師大概率是了解過這項工作的。
![]()
圖注:UniAD 流程圖。UniAD 把所有模塊(感知、預測)變成一個“統一系統”,通過聯合訓練,讓每個部分都為了最終的規劃目標來學習、調整。
該工作最大的意義在于提出了一種“以終為始”、以任務規劃為導向的理念。它改變了過去分模塊獨立優化(如單純提升感知模塊性能)的模式,轉而從自動駕駛的終極目標(如任務完成率、乘坐舒適性)出發,進行端到端的全局聯合優化。這才是其最深遠的影響。
回顧這項已完成兩年的工作,其對后續研究的啟示有兩點。
第一點便是“以終為始”的思維模式。如同美國DARPA等大型項目,應首先明確最終目標,再由此逆向推導所需的技術、團隊和平臺,而非由現有技術拼湊組合。
第二點啟示,是研究工作必須做得極為扎實。例如,UniAD論文正文僅八頁,但附錄中關于實驗設計、消融研究以及每個模塊設計緣由的論證卻遠超十頁。一項能獲最佳論文級別認可的工作,必須能邏輯嚴密、細節扎實,并經得起反復推敲。
李夢佳:關于具身世界模型,當前學術界對此似乎存在分歧,例如一些研究者相信世界模型,另一些則不然。請問您對此持何種觀點?
李弘揚:世界模型本質上是一種基于條件概率的預測:在給定當前狀態(St)和特定動作(At)的條件下,預測下一時刻的狀態(St+1)。它之所以備受關注,是因為一個訓練有素的世界模型,天然地蘊含了對環境的感知與理解能力。
這與傳統的視頻預測(Video Prediction)有嚴格區別,后者缺少對動作(At)這一條件的依賴。正是因為世界模型能夠理解動作指令(如“向左轉”或“打開門”)并預測其結果,才表明它具備了空間感知能力,這對自動駕駛和具身智能至關重要。
目前,國際上的權威專家也在積極推動這一方向。因此,個人觀點是,所有研究者都應“相信”世界模型這一宏觀方向。當前真正的分歧點,不在于“信或不信”,而在于具體采用何種技術路線,例如是基于視頻、還是基于隱空間,是分層的還是其他類型的,這其中有大量的技術細節尚待探索。
李夢佳:關于Scaling Law,在具身智能領域,應如何驗證并應用,從而有效提升模型性能與效率?
![]()
圖注:OpenAI提出的Scaling Law。例如,只要模型更大、數據更多、計算更強,語言模型的表現就會越來越好,而且提升是穩定的、可預期的。但要想效果最好,這三樣得一起提升,不能只放大其中一個。單獨看每一樣,它對模型性能的提升都有一種冪律增長。
李弘揚:Scaling Law無疑是過去一年學術界的一大熱點。但坦率地說,過去一年在自動駕駛和具身智能領域,許多關于Scaling Law的研究還不夠充分。其不夠扎實之處在于,部分研究或是在過于簡化的場景中進行,或是基于極少數(例如僅四五個)數據采樣點便繪制曲線進行外推,其結論的可靠性有待商榷。
估計今年該方向會持續熱門,但研究必須走向深入和細致。未來的研究思路可以包括:探索如何高效利用Scaling Law,用更少的數據(如十分之一)達到同等的泛化能力;或是基于其規律,提煉出一套可預測的方法指南。
熱點不是終點,熱鬧也非壞事:要在場,但不隨波逐流
![]()
圖注:2024年11月5日,李弘揚參加智源主辦的“智源論壇·2024具身與世界模型專題峰會”
李夢佳:能否分享在您的學術道路上,有哪些關鍵的人或事件對您產生了深遠影響?特別是有哪些組織或導師的引導,對您的研究方向產生了深遠影響?
李弘揚:在學術道路上,對我具有深遠影響的人與事可從兩個層面理解。其一,來自組織的包容與引導。在上海人工智能實驗室,領導層給予我們團隊,包括我個人,非常大的包容與自由探索的空間。
我印象特別深的一次,是一位領導曾經問我:“弘揚,你覺得未來五到十年,自動駕駛在學術界還有哪些值得深入的研究方向?”他還分享了自己的經歷,說他當年讀書時做的是通信方向。現在回過頭看,這個領域在高校的研究空間已經比較有限了,更多是工業應用的階段。正是因為有這樣的視野和啟發,才使我們更加大膽探索更具前瞻性的方向。
其次,與師長的交流使我獲得技術洞察力。無論是加入香港大學后的馬毅教授,還是先前交流過的朱松純教授,他們始終在關注如何回歸智能本質,專注于技術研究本身。這種理念對我產生了深遠的影響,也促使我不斷思考科研的初心與方向。
李夢佳:接下來我們聊一些關于人才培養的話題。對于有志于從事AI研究的青年學子,您在“如何做好研究”方面有哪些具體的建議?
李弘揚:首先,我建議不要過早專注于某一具體的機器學習方向,而應優先打好堅實的數學基礎。線性代數、概率論等核心課程必須深入掌握,這是理解現代機器學習算法的前提。
其次,編程能力同樣不可或缺。這不僅僅是指會調用API或使用已有軟件包,更重要的是對C++、Python等主流語言有扎實的掌握——這是具備計算機科學背景的研究者所應具備的基本功。
在此基礎上,還應拓展更廣泛的技術能力。例如,并行計算知識可以提升模型訓練與算法實現的效率;具備一定的網頁開發與設計能力有助于成果展示;而在云端環境中進行研究,則要求熟練掌握Linux命令、Git版本控制等基礎操作。
總的來說,應當先建立起全面而扎實的技能體系。至于具體研究課題的選擇,則往往與所就讀學校及所在課題組的研究方向密切相關,此處不再贅述。
李夢佳:近期AI領域的重大突破讓整個行業顯得有些浮躁。對于年輕的研究人員而言,應如何在這種環境中保持定力,平衡好堅持自身學術方向與應對外界浮躁現實之間的關系?
李弘揚:堅持正確的方向,遠比盲目地堅持更為重要。一個非常實用的做法是:果斷取關所有微信公眾號。因為許多媒體賬號缺乏基本的判斷力,只是機械轉發信息,缺乏責任感,極易誤導視野與方向。
面對層出不窮的新模型和技術熱點,研究者無需焦慮跟風。更有效的心態是將每一個科研項目當作一件獨立的作品,用打磨藝術品的態度去精雕細琢。真正有價值的研究,往往誕生在與外界保持距離的思考中,而不是喧囂中盲從熱點。
當一個研究方向成為人人追逐的焦點時,其原創性與研究空間往往已經大幅縮水。此時更需要的是一種“耐得住寂寞”的學術定力。堅持自己的判斷,即使所做的事情在短期內不被廣泛關注,也可能在長期中顯現價值。
尤其是在“具身智能”這樣極易引發技術焦慮的領域,更需要保持理性和清醒。當前許多所謂的機器人突破性視頻演示,其實在我看來幾乎可以百分之百確認是假的。可以預見的是,到了2025年以后,整個技術界的評價標準將從精心剪輯的“演示”轉向實時、透明的“直播”。
因此,對于青年研究者而言,一個長期有效的策略是:在行業最熱鬧的時候,要在場,保持關注和判斷,不被邊緣化;而當熱潮退卻、泡沫破滅、喧囂散去時,憑借你的扎實積累和持續努力,依然能坐在牌桌上。這才是最關鍵的戰略定力。
李夢佳:非常贊同您關閉信息流的觀點。面對近期具身智能領域層出不窮的融資消息,您自己是否也會主動屏蔽這些信息?
李弘揚:雖然我個人確實減少了對許多媒體賬號的關注,但來自朋友,尤其是投資圈朋友的信息分享,有時也難以避免。不過,從另一個角度看,這或許是件好事。正如一些學者所認為的,當前領域的投資熱度正體現了科技創新在推動新生產力。
我想要提醒的是,一個新興賽道很火并存在一定的泡沫,是正常現象。但作為學者,關鍵在于始終保持冷靜的獨立思考。這種冷靜體現在,不應因為一份技術報告出自大公司就盲目相信。
反之,也不能僅僅因為一篇論文被頂會接收,就認為其內容必定無懈可擊。作為學者,時刻保持批判性思維的能力,至關重要。
李夢佳:高校與科研機構應分別提供哪些支持(如資源、渠道等),來更好地幫助青年人才與專家學者成長與發展?
李弘揚:我有一套關于創新生態的理論,其中包含三個關鍵角色。首先,大學作為教育者,主要負責“從0到1”的源頭創新,核心是培養學生的批判性思維。其次,包括智源在內新型研發機構負責“從1到10”的承接與轉化,扮演著連接高校與企業的“連接器”角色。最后,企業則負責“從1到100”的規模化放大,它們擁有海量資源和明確的產品目標,但其行為往往受短期商業利益驅動。
因此,在人才培養方面,高校提供的最核心支持是成體系的方法論與完備的技術知識框架。而新型科研機構(如智源)則能提供一個資源相對充裕、能讓研究者“心無旁騖”進行探索的環境,并發揮其作為高校與產業之間關鍵的“紐帶”作用。
作者長期關注 AI 產業與學術,歡迎對這些方向感興趣的朋友添加微信Q1yezi,共同交流行業動態與技術趨勢!
GPU 訓練特惠!
H100/H200 GPU算力按秒計費,平均節省開支30%以上!
掃碼了解詳情?
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.