
作者 | 唐小引
出品 | CSDN(ID:CSDNnews)
想象一下:什么是“老司機”的直覺?
你正在開車經過一個繁忙的路口。右側停著一輛公交車,擋住了你的視線。突然,你的腳不自覺地放在了剎車上。為什么?你的眼睛并沒有看到行人,也沒有看到紅燈。
幾秒鐘后,一個騎著電動車的人從公交車頭“鬼探頭”沖了出來。你從容踩下剎車,避免了一場事故。
這就是我們常說的“車感”或者“駕駛直覺”。它不是教科書上死記硬背的規則,而是一種基于經驗的、潛意識的風險預判。這種能力,是人類大腦在處理了無數次復雜路況后進化出的“超級算法”。
現在的自動駕駛系統雖然已經很厲害了,能識別車道線、紅綠燈,甚至能識別幾十種不同的車型,但它們往往缺乏這種“直覺”。它們像是一個剛拿駕照、只會死守交規的新手,遇到沒見過的復雜情況(比如那個被擋住的盲區)時,往往會不知所措。
那么問題來了:我們能不能把老司機的這種“直覺”,直接“拷貝”給人工智能呢?
最近,來自清華大學智能產業研究院(AIR)的團隊,就做了一件科幻電影里才有的事:他們用人類駕駛員的腦電波(EEG),教會了自動駕駛模型如何像人一樣“思考”!
這項發表在人工智能頂會 NeurIPS 2025 上的成果,名叫 E3AD。其背后的發起人——龔江濤博士生于 1990 年,成長于陜西漢中。清華十年,她始于計算機科學,深入神經科學,走上了具身認知增強之路。本期《萬有引力》,一起來走進她的故事以及對于類腦認知的研究及思考。
![]()
左:龔江濤,右:唐小引,歡迎收聽音頻~
AI 交叉人生的十字路口:從計算機到人機交互
唐小引:大家好,歡迎收聽《萬有引力》。今天的嘉賓是清華大學助理教授龔江濤老師,龔老師的主要研究方向是學習、駕駛、工作等強認知活動場景中的智能系統設計及具身認知增強的類人智能體。歡迎龔老師,請和大家打個招呼,做一下自我介紹,可以簡要分享一下自己個人產學研經歷的故事。
龔江濤:大家好,我是龔江濤。目前在清華大學智能產業研究院工作,擔任助理教授、助理研究員。今天很高興受邀來這里,跟大家分享一下我在科研生涯的一些經歷和思考。
我本科在清華大學軟件學院學習,拿到計算機的第一學位。因為個人興趣,本科期間我又在美術學院修讀了第二學位,方向是數字娛樂設計。這段雙學位的學習經歷,也讓我較早地建立起了交叉學科的視角和基礎。
到了研究生階段,我進入清華的信息藝術交叉學科項目——這是由計算機、美術學院和新聞傳播相關院系共同建設的一個交叉培養項目。學習一段時間后,我跟隨導師徐迎慶教授(清華大學教授、未來實驗室主任)來到未來實驗室,繼續完成博士階段的研究。
博士畢業時,我越來越明確地感受到:不管是做交叉研究,還是推動技術真正落地,都離不開對產業的深入理解。所以我選擇加入聯想研究院,在業界的科研機構里更貼近產業一線,去探索和實踐——怎樣把科研成果轉化為企業能落地的產品。
有了這段經歷之后,到了 2022 年,人工智能浪潮涌動。剛好張亞勤院士(中國工程院外籍院士、清華大學智能產業研究院院長)回歸清華并成立了清華大學智能產業研究院(AIR),我覺得這個平臺和我的方向非常契合,于是申請加入,在這里繼續做學術與產業結合的研究與探索。
唐小引:你從進入清華到博士畢業,花了 10 年的時間。很多人可能是由別的學科進入 AI 交叉科學,但你不一樣——計算機出身,后來轉到人機交互,并且一路走到了更交叉的研究路徑。我想聽聽:第一,當初為什么選計算機?第二,很多計算機專業的人會一直在原方向深耕,你為什么會轉向人機交互?背后的動因是什么?
龔江濤:這個問題確實挺關鍵的。現在大家覺得人工智能、計算機是熱門,但十年前并非如此,那會兒更熱的反而是房地產相關。再加上我家人做城市規劃設計,所以我當時的第一志愿其實更偏建筑、土木這些方向。
后來因為一些機緣巧合,沒有走成那條路,我把軟件學院作為第二選擇。但這個“第二選擇”也不是完全偶然——我在中學階段接觸過數學和信息學競賽,第一次真正寫代碼的時候就很震撼:你可以把自己的想法“教給”機器,讓它替你去執行;就像把思維復制了一份,而且還能不斷復用、擴展。我當時就覺得這件事特別有潛力,所以把軟件相關的方向放進了自己的選擇里。現在回頭看,雖然當時有點陰差陽錯,但確實也挺幸運。
進了軟件學院后,我有很長一段時間非常沉浸在計算機體系里:從硬件體系結構、操作系統到編譯原理,再到各種算法和軟件系統。我越學越覺得這些底層原理特別迷人。但當我把這一套“原理鏈條”打通以后,也出現了一個更強烈的疑問:很多軟件只是在一個固定設備里運行,它和真實的人類生活之間,好像隔著一道墻——除了輸入輸出的那一層接口,剩下的東西離普通人的感知有點遠。我總覺得未來不應該只是這樣。
也是在這個階段,我接觸到了人機交互相關的研究,視野一下就打開了。人機交互特別“交叉”:它不只是一個計算設備,而是會引入各種傳感器去感知人的行為、意圖和場景,讓機器不必只靠鍵盤鼠標、或者那些“機器能懂但人得去適應”的指令,而是能更自然地理解人的語言、動作和習慣。換句話說,只有把“接口”這件事做好,再強的算法、再酷的技術,才真的有機會落到人類社會里去。這件事對我來說非常有吸引力。
所以后來有機會申請第二學位時,我了解到美院有一個和計算機結合的項目,我就特別想加入。也正是在那段學習里,我糾正了自己以前對設計的一些偏見——我曾經以為設計只是把東西做得好看,后來才意識到這想法太淺了。真正好的設計,既要邏輯上好用、體驗上順暢,又要能把新的能力做出來,甚至實現過去做不到的交互形態;而要做到這些,就必須把技術、認知、表達、場景等很多因素綜合起來,串成一個完整的“故事”。那段經歷基本讓我很清晰地找到方向:從讀博到現在工作,我就一直沿著這條路走下來了。
![]()
唐小引:聽下來確實是興趣驅動,而且你剛才提到一個很強的對比:于你而言,計算機本身的局限,以及人機交互帶來的更大空間。你能不能再具體一點,說說這個對比最“標志性”的點是什么?
龔江濤:對,我的體感是這樣——算法和系統越往上走,確實會越來越抽象,也就更容易和真實世界的感受拉開距離。基礎設施當然非常關鍵,但對普通用戶來說,能真正“摸到”的往往就是接口那一層:怎么接觸、理解、用起來。
技術進步的目的,最終還是要改善日常生活。如果接口沒有大的突破,人和機器的關系就很難更緊密——人很難在日常的每一個動作、決策里,都自然地和機器協同。那結果就可能變成:技術在技術圈里越玩越嗨,但普通人真正能享受到的,還是局限在“坐到電腦前、打開軟件”的那一刻。它更像是少數人的玩具,而不是大眾生活的一部分。
唐小引:我大概明白了。你希望技術能更多走進千家萬戶,不只是停留在技術人群內部,而是從消費側、用戶側真正用起來——不管是個人還是行業。
龔江濤:是的,我特別在意“用戶能接觸到技術的機會點”。觸點越多,技術才越有可能真正幫到人。而人機交互做的事情,本質上就是創造新的交互途徑和體驗:一方面探索新的交互形態,另一方面不斷優化已有體驗,讓機器越來越適應人,讓技術能更自然、更無縫地融入人的日常生活。
唐小引:你博士期間師從徐迎慶教授,博士后階段在聯想跟隨芮勇院士(聯想集團 CTO、歐洲科學院外籍院士)和王茜鶯博士(聯想集團全球副總裁、斯坦福大學人機交互博士),現在又在張亞勤院士創立的 AIR 任教。這三段經歷分別給你的研究風格留下了什么烙印?對你有哪些影響和啟發?
![]()
龔江濤:確實,這一路走來我特別幸運,遇到了很多良師益友,對我的幫助非常大。
先說博士階段的徐迎慶老師。我最早接觸徐老師時,他還在微軟亞洲研究院,后來他加入清華,我也能明顯感受到清華在引進和支持人才方面是非常開放的。
從個人層面來說,徐老師是那種特別“立得住”的導師:人很正直,做事有原則,沒有私心。對我而言,這種人格和學術氣質本身就是一種很強的示范。更重要的是,他對交叉學科的理解和教學理念,長期在影響我——他的經歷本身就是交叉的:本科是數學背景,后來轉到計算機,同時又在藝術和創意表達上做過很有代表性的工作,比如參與過《新聞聯播》片頭彩帶動畫的創作,也在動畫領域拿過不少獎項。在他身上,我看到的交叉不是“這邊借一點、那邊拼一點”的淺層組合,而是每到一個新領域,都能從底層邏輯去把它吃透,然后帶著一種更顛覆、更原始的創新視角去做事情。這套方法論,對我博士階段的研究根基影響特別深。
舉個例子,我博士期間雖然在“人機交互”這個大方向里,但我真正最主要的研究工作,其實是在清華大學醫學院展開的,做的是腦科學相關研究。這個起點也挺有意思:我剛加入徐老師團隊時,做的是面向盲人的大幅面觸覺顯示器——用密集觸點把圖案“顯示”出來,讓盲人可以通過觸摸去感知圖形。
當時我接到任務后,一開始想的是:怎么生成更適合盲人理解的觸覺圖像?我查了大量資料后發現,很多工作只是把簡單的視覺圖像“轉換”成觸覺圖像,本質上還是站在視覺的視角做映射,并沒有真正從觸覺的角度去理解“觸覺信息應該怎么被表達”。我把這個想法跟徐老師說了,徐老師的反饋很直接:你說得對,那就先把“觸覺到底是怎么回事”研究清楚。
于是我們就和醫學院洪波老師(清華大學醫學院教授)那邊合作,開展了基于 fMRI(功能性磁共振成像)的研究,從大腦層面去看觸覺相關的認知活動:從手上的感受器如何接收信息,到大腦怎么加工、怎么整合,甚至在不同條件下怎么產生代償機制。那段經歷完全超出了我原本的預期,但也正是它讓我從另一個角度去理解“智能”:一個生物體是怎么感知環境、理解環境、處理信息并適應環境的。
當我把這種“生物智能”的機制和“計算機如何處理信息”的方式放在一起對照時,對算法設計的啟發非常強。很多靈感不是那種絞盡腦汁才擠出來的,而是你真的看懂了“它原來是這么工作的”,idea 就會如泉涌般而來。
唐小引:思想的漣漪。
龔江濤:對,就是這種感覺。所以我一直覺得,博士階段徐老師給我最大的影響,就是把我帶到一個更“底層、更原始”的創新路徑上:先把問題的“根”弄清楚,再往上長出方法和系統。這也幾乎塑造了我后面一直延續至今的研究風格。
唐小引:而且感覺這段經歷也確實影響了今天的你——你的方向、你的方法,很多都從那時候延續下來了。
龔江濤:是的。這段博士經歷對我來說特別關鍵。
后來博士畢業時,我也有一個挺意外的經歷:我當時作為系里第一個在院級畢業典禮上發言的學生代表上臺演講。當時我沒有想到,可能一方面是我們的盲人觸覺顯示器項目本身影響力比較大,另一方面也是因為研究確實做得比較深入,所以才有這個機會。
也正是在畢業那個節點,我有一種很強烈的感覺:在學校里該系統學的東西,我差不多都學到了;但與此同時,我也有很多新的困惑——我做出來的東西,到底怎么在真實社會里產生價值?如果這件事我想不清楚,那我作為一個未來要獨立開展研究的人,就很難判斷什么方向是“對社會真的有用”的。
更現實一點說,我未來還要帶學生、指導學生。我得告訴他們怎么做研究、怎么成長、怎么在社會上站穩。但如果我自己都不清楚科研成果如何走向應用、如何在產業里形成價值,那我其實也很難把這些問題講透給學生。
所以在那個時候,我就走到了第二段經歷:去聯想研究院。在這段經歷里,對我影響最大的就是芮勇院士和王茜鶯博士。芮勇老師和我導師是很好的朋友,我們在一次活動上碰到后,交流下來發現有很強的合作契機。芮老師也覺得,我如果想把后續研究做得更貼近產業、真正走向落地,那么加入聯想這樣的團隊會是一個很好的平臺,于是我就進入了聯想研究院,開始了下一階段的探索。
在這個過程中,王茜鶯博士對我的影響也非常大。她本身就是人機交互領域的專家,研究方向跟我高度一致。她在斯坦福完成人機交互學習后回到業界,牽頭搭建了一個很有創新性的機制——TSIP(技術戰略與創新平臺),也就是把“技術戰略”和“創新孵化”打通的一套平臺化體系,她是這個平臺的負責人。
這段經歷給我兩個特別重要的啟發。
第一是“國際化的學術視野”。人機交互這個領域,國內外的發展節奏過去差異挺大的(現在在逐漸縮小)。在國外,HCI 在計算機社區里是非常大的一個研究共同體,因為它能做的事情太多了;而在國內,當時更多還是集中在解決已有交互觸點的技術瓶頸,大家很少去主動創造新的觸點、新的交互形態。茜鶯老師把很多前沿的理念和方法帶回來,也給了我更多參與國際交流的機會:比如投稿頂會期刊、參加國際學術會議。在這個過程中,我也在不斷完成“學術表達的國際化轉換”。再加上聯想本身就是一家高度國際化、非常開放的企業,這種環境對我的成長幫助很大。
第二個啟發更“落地”——也就是:HCI 研究在業界到底怎么生存、能為公司和產品真正做什么。茜鶯老師當時把團隊能力拆得非常清晰,基本上形成了一套可運轉的閉環。
一塊是技術戰略與基礎管理:做前瞻布局、資源與預算的統籌,也相當于研究組織的“中樞系統”。
一塊是用戶研究:由心理學、人因工效等背景的同學為主,負責洞察用戶、理解真實需求。
一塊是設計:從概念設計到精細化設計,往往以“搭檔”的形式進入具體項目,把洞察轉化成方案。
還有一塊是技術與工程:好的體驗和想法必須快速做原型、做驗證,才能知道能不能達到預期,這里面需要很強的工程支撐。
這套框架讓我第一次非常直觀地意識到:HCI 不是單點能力,而是一整套可以在產業里“交付價值”的綜合體系。
另外還有一個很有意思、也很有代表性的案例:那段時間茜鶯老師也在做內部孵化,相當于內部創業,重新孵化了一個教育品牌。這個過程給了我非常鮮活的樣本——如果我們真的要把一個新想法變成新產品,要怎么組團隊、怎么定方向、怎么一步步研發迭代;怎么和領域專家共創;以及最后怎么推動它走向商業化落地。這些都是我在聯想四年里學到的、特別實用的東西。
唐小引:聽起來你在聯想實現了“仰望星空”和“腳踏實地”的結合,把這套能力真正修煉出來了。
龔江濤:是的。但我也想說,這個過程其實挺不容易的。很多時候,一個人決定改變,背后往往是先感受到某種“痛苦”,才會真的下決心去調整。
比如我從清華去聯想,最開始就很痛苦:當你說不清自己的研究到底“價值在哪里”、怎么向外界解釋它、怎么讓它真正產生價值時,會非常焦慮。后來我在很多師弟師妹、以及更年輕的學生身上,也經常看到類似的狀態——很多人一路讀到博士最后,反而更迷茫,因為和社會多少有點脫節。博士本身又是一個很難、很痛苦的爬坡過程,爬完以后如果發現并沒有“前途一片光明”,落差感會更明顯。隨著博士培養規模越來越大,這種困惑其實會更普遍。所以我一直覺得,研究工作如果能和產業形成更好的連接,你會更容易找準自己在社會中的位置,也更不容易陷入長期的迷茫。
到了聯想以后,研究的產業化又是另一種“痛苦”。
研究早期本質上是投入,是成本,短期很難直接看到收益。那你怎么立項?怎么說服業務方、贊助方愿意支持你做這件事?這里面有大量溝通、論證、準備工作,本身就是很大的挑戰。
等項目做出來之后,真正落地又會遇到新問題:你立項時的假設、條件、預測,到了落地那一刻往往會變;外部環境也會變;合作方的需求也可能變。于是你就得重新校準——這件事還能不能按原計劃推進?要不要改路線?這些都是新的難題。
尤其當你做的是新產品、新模式,失敗率往往遠高于成功率。好在做研究的人“抗打擊能力”一般還可以——每篇論文投稿,你都會面對來自全球同行的審稿意見和質疑,這種訓練反過來讓你更習慣在批評中迭代自己。所以經歷過這一套之后,我對“如何把一個研究想法在產業里孵化出來”這條鏈路,以及中間可能踩的坑,就有了更系統、更真實的認識:既包括我自己踩過的坑,也包括我觀察同事、前輩們如何解決問題的經驗。
也正因為這樣,心態會更穩定。聯想幾年之后,我不太會再陷入那種“我不知道該做什么、也不知道未來價值在哪里、也不知道怎么去說服別人”的狀態了——這些關鍵障礙基本都被掃清了。
然后時間來到更大的背景:人工智能浪潮一波一波地往上卷。其實我 2018 年去聯想時,就已經開始跟 AI 做結合,但當時我仍然覺得那只是冰山一角,后面一定會有更大的浪潮。
正好那時候亞勤老師從業界回到清華,再次創業,創建了智能產業研究院(AIR)。我一下就意識到:這是一個很重要的機會點——如果能在一個專注做 AI 的機構里工作,我就能更近距離地參與這波浪潮,也能把自己的興趣和能力投入到更關鍵的問題上。
來到 AIR 的這幾年,我也確實有很強的體感:我做的很多事情,基本都是社會最關注的方向——比如自動駕駛、機器學習、大模型、智能體等等。機會特別多,也讓我獲得了更前沿的 AI 訓練,對產業發展方式的理解也更深入,同時也能從自己的視角做出一些實際貢獻。
坦白說,在來 AIR 之前,我整體還是偏人機交互,對算法本身關注沒有那么重。但在 AIR 這個環境里,你會看到同事們每天都在討論新算法、討論問題和改進方案。耳濡目染之下,我也開始重新思考:原來從我的視角出發,我也可以用 HCI 的方法論和流程,去推動一些更底層、更源頭的 AI 創新——這是我在 AIR 這段經歷里非常大的收獲。
具身認知增強與駕駛:用人類腦電波教 AI 開車
唐小引:我看到你現在的研究方向重點放在“具身認知增強”上。我其實是第一次聽到這個說法,有點困惑。因為過去大家聊 AI 的“認知”,更多還是偏語言、思維、符號系統這一套——比如維特根斯坦那句“語言的邊界就是世界的邊界”,講的是認知世界,而不是物理世界。但“具身”又強烈指向跟真實物理世界的互動。就像大模型正從數字世界走向物理世界一樣。能不能先請你給大家梳理一下:具身認知增強這個方向在國內外大概發展到什么階段?然后再講講你自己主要在攻哪一塊。
龔江濤:這個問題問得很到位。其實過去很長一段時間,相關研究基本是兩條平行線:一條是做語言模型、NLP、大模型的,更多在軟件和互聯網的“數字世界”里;另一條是做硬件、機械、自動化、機器人這套工程體系的,更多在“物理世界”里。兩撥人各自很強,但確實涇渭分明,很多時候甚至彼此不太關注對方在推進什么。
這幾年隨著 AI 能力快速外溢,兩邊開始明顯“匯流”。做大模型的人會想:既然在語言層面已經證明了通用能力,那能不能把這種能力遷移到物理世界,讓模型不只會說、會寫,還能“會做”;而機器人這邊也會想:過去機器人更多是在解決相對固定、規則明確的任務,很多時候更像高級自動化。那現在 AI 這么強,是不是有機會讓機器人真的更像人一樣,能理解、能適應、能學習?
但實話說,這個融合目前還在起步階段,挑戰非常硬。最核心的兩點:
第一,物理世界比語言世界復雜得多。語言本身就是對現實的高度抽象和壓縮,我們討論的很多東西已經被“提煉”過了;可一旦回到真實環境,信息是多模態、冗余、連續變化的,還牽涉動力學、能量、關節控制等一整套約束,變量更多、耦合更強。
第二,物理世界“真的會出事”。在數字世界里,最極端也許就是誤刪文件、甚至“刪庫跑路”;但在物理世界里,機器人是鋼鐵軀體,動作一旦不當就可能傷到人。所以你會發現,機器人一啟動,旁邊的人會下意識往后退——因為它的風險是真實存在的。這也是具身智能繞不開的門檻:安全、可靠、可控。
那我自己的切入點,其實是反過來問一句:人到底是怎么把這件事做好的?你越做具身相關研究,越會感嘆人這個系統有多精妙——能耗低、學習快、恢復能力也強;但你真要把這些能力搬到機器人身上,會發現每一步都很難。
我們在實踐里經常遇到一個“看似矛盾”的問題:很多機器學習方法只能學習“已經發生、看得見”的東西——也就是事情出了問題,你才有數據去教它怎么改。但現實里真正決定系統安全性和魯棒性的,往往是那些發生概率很低、但代價很高的關鍵場景。比如駕駛這種任務,大多數時候路況是正常的,數據里也就幾乎都是“正常駕駛”。模型當然很快能學會正常部分,可一到少量的臨界情況,就容易掉鏈子——而偏偏這些情況最要命。
我自己的理解是:人之所以總體事故率低,很重要的一點不是“事后補救”,而是“提前預判”。我們一直在做風險預測和規避——很多危險其實在發生之前,就被我們繞開了。所以我做“具身認知增強”,很大一塊就是想把這種能力交給機器:讓它不只是會執行動作、會完成任務,還能識別風險的苗頭、提前調整策略,把問題消解在真正發生之前。
如果機器人能學會這種“預測—規避”的能力,那么哪怕訓練數據里極端事件很少,它也能從大量的日常數據中學到更可靠的安全行為,學習效率和最終效果都會明顯提升。
唐小引:正好也請您聊聊你們團隊的新成果——E3AD,首次嘗試把人類駕駛時的認知信號,直接用來增強端到端自動駕駛的規劃任務。我讀論文的時候還挺驚訝的。用大白話講,這是不是有點像“用腦電教 AI 開車”?它到底解決了傳統端到端自動駕駛(E2E-AD)的哪些痛點?
![]()
龔江濤:可以這么理解,但我們更想表達的是:把“人是怎么提前預判風險的”這件事,變成機器能用的信號。
我們之前提到過一個核心動機:人之所以很多時候“沒出事”,并不是因為事后處理得有多好,而是因為提前感知到風險苗頭,就先做了規避動作,讓風險根本沒發生。相比之下,機器如果完全靠在環境里“自己跑、自己撞、自己學”,遇到風險的概率會高很多。
問題在于:這種“提前預判”的過程,怎么被采集出來?最直覺的方式是讓駕駛員自己說——比如讓他隨時報告:你現在覺得危險嗎?接下來會不會有風險?但我們做過測試,發現這非常難。很多時候,司機其實已經下意識把腳從油門移開,甚至準備去踩剎車了,但他并不會、也很難用語言準確描述“我正在進入風險預警狀態”。
于是我們同步采集了腦電信號。一個很有意思的現象是:在駕駛員自己還沒意識到、也說不清楚的時候,他的腦電反應已經出現了明顯變化——它能更早地“暴露”出大腦對潛在風險的預警。這就給了我們一個入口:把這種隱式的預警信號,轉化為對自動駕駛規劃更有用的監督信息。
唐小引:那為什么選腦電?從腦科學的角度,它到底在測什么?
龔江濤:簡單說,腦電反映的是大腦神經活動的“電信號痕跡”。大腦里神經元之間通過突觸通信,本質上伴隨電活動;同時大腦作為生理組織,也會產生血流、血氧等變化。所以神經科學里有很多不同的觀測手段,用來間接捕捉大腦的工作狀態。
我們可以打個比方:如果你想知道“北京城里的人都在干什么”,腦電更像是在北京上空放了一堆麥克風,去聽整體的“聲音模式”,再反推大家的活動狀態;而像 fNIRS、fMRI 這類偏血流/血氧的技術,更像是看“哪片區域的能耗和供給在變”,用資源變化去推測哪些區域更活躍。
當然,這些手段都不是“讀心術”,而是用可觀測信號去捕捉規律,再去推測它可能對應的認知狀態。
唐小引:那你們用的是侵入式還是非侵入式?
龔江濤:我們用的是非侵入式腦電。
![]()
唐小引:接著我想問更“工程化”的部分:采集到的認知數據,怎么結構化地融合到端到端自動駕駛訓練里?它的數據流大概是怎樣的?
龔江濤:這個問題很關鍵。我們之所以選擇端到端自動駕駛,而不是傳統的模塊化方案,主要有兩個考慮。
第一是計算機系統層面的趨勢。早些年算力有限,大家更傾向于模塊化:先感知、再預測、再規劃、再控制。模塊化當然清晰,但它會帶來信息瓶頸——上游把豐富的原始信息壓縮成少量中間結果傳給下游,細節丟失后,下游可能在關鍵時刻漏掉重要線索。小偏差一路往下傳,最后可能放大成大錯誤。
而端到端的路線,雖然內部也會有層級結構,但它能更充分地保留和利用原始信息,整體穩定性和性能上更有潛力。從技術演進角度看,系統越往后發展,往往越趨向端到端。
第二是從人腦研究范式出發。早期我們也曾經更傾向“模塊化”理解大腦:這個區域干什么、那個區域干什么,信號一站一站傳遞。但越來越多研究發現,大腦的分工并沒有那么“干凈利落”,更多是全腦協同:既有自下而上的信息流,也有目標驅動的自上而下整合。也就是說,當你在執行駕駛任務時,你很難把“純感知信號”從“決策、意圖、預期”里完全剝離出來。
在這種情況下,如果我們以“完整任務”為單位去觀察大腦協同,反而更接近真實工作方式,也更有利于提升信噪比——而信噪比,恰恰是腦科學研究里非常現實的瓶頸。
所以我們提出了一個對齊思路:讓“人腦的任務過程”和“機器的任務學習”都盡量用端到端的方式對齊,再做融合。結果也驗證了這個邏輯——第一次用端到端范式去融合時,效果比我們預想得更好,也增強了我們繼續走這條路的信心。
另外,在更深入地做腦信號結構化分析之后,我們也看到:一些傳統“模塊化”的認知觀點并沒有完全失效,它反而可能幫助我們在端到端框架之上做更精細的建模,進一步提升效果。
唐小引:你們做了多層次的融合對比:在特征層、規劃層等不同階段分別融合,性能差異還挺明顯。這個對比結果說明了什么?對未來的模型設計有哪些啟示?
龔江濤:對,其實我們前面也鋪墊過一點。最后的結論很清晰:把人類認知信號和自動駕駛系統都對齊到“任務層”,也就是最終的規劃與決策層來做融合,效果最好。
原因在于,大腦在真實任務中并不是“感知歸感知、決策歸決策”這么干凈地分開。很多所謂的“感知相關信號”,其實已經被后面的目標、規劃和決策狀態影響了。換句話說,如果你把腦信號硬塞到早期的感知階段,它里面混著的并不只是感知信息,還夾雜了“我打算怎么做”的成分,反而容易出現錯配。
而我們實驗也印證了這一點:越是貼近端到端任務閉環、越是對齊整體規劃目標的融合方式,收益越穩定、效果也越好。這對未來模型設計的啟示就是:與其糾結在某個“模塊點位”拼接,不如更多從“任務對齊”出發,考慮融合發生在什么層面最合理。
唐小引:接著聊聊具身認知在這里面的價值。第一點,引入具身認知到底帶來了哪些“數據標注”本身給不了的額外信息?
龔江濤:我覺得這是具身方向最有意思、也最關鍵的點。
你看,AI 走到今天,技術當然進步很大——網絡更深了、參數更多了、算力更強了。但從研究范式上講,主流路徑一直很像:有數據、有真值(標簽)、有模型,用標簽去監督模型更新。這個范式背后其實有個默認前提:人類能夠把“什么是對的”用顯式的方式講清楚。因為很多真值最終還是靠人標出來的。
可一旦進入具身任務,這個前提就經常不成立。很多能力是“操作性技能”,比如控制身體、預判風險、下意識規避危險——這些東西往往很難被語言準確描述。你讓一個老司機解釋“我剛剛為什么松油門、為什么準備踩剎車”,他可能自己都說不清楚;但他的身體和神經系統其實已經做出了反應。
![]()
所以我的理解是:當語言說不清楚的時候,身體會用信號“自己說話”。尤其是由大腦皮層、脊髓等神經系統共同調控的那些過程,往往在動作發生之前,就已經出現了可觀測的隱式信號。
這就帶來一個新的可能:我們不僅僅記錄“他最后做了什么動作”,而是把更早的階段——他在評估環境、猶豫、預判、準備采取措施時的隱式信號——也采集下來,作為一種更深層次的監督信息。對具身智能來說,這是一類傳統標注很難提供、但可能非常關鍵的數據來源。
唐小引:我之前聽清華心理與認知科學系主任劉嘉老師提到,人類很多動作更多由小腦控制,而大模型更像是在做“大腦皮層”的事。具身任務比如開車,往往需要大小腦高度配合。你們在研究里對這個問題的觀察是什么?
龔江濤:我非常贊同“大小腦協同”這個判斷,而且具身任務很多確實不只是小腦的事。
如果是偏“純小腦”的能力,比如穩定控制、保持平衡、走路這類相對明確的控制問題,其實從自動化到今天,控制理論和工程體系發展得已經很成熟了,單獨拿出來不一定那么難。
具身智能真正的瓶頸,往往在于:小腦式的穩定控制,要和大腦皮層式的感知、理解、規劃、應對突發情況整合起來。只要環境變得動態、復雜,需要識別、需要推理、需要處理長程目標,或者任務里存在大量不可預期的意外,就會遇到各種極端情況、邊界場景。
所以我覺得,研究大腦在進化過程中如何被具身經驗塑造、以及大腦和小腦如何形成有機協作,對我們今天構建更可靠的“大小腦協同型具身智能”,是非常關鍵的一條路徑。
腦電大模型:讓腦信號從“玄學”走向通用
唐小引:再談談泛化驗證。大家也很關心不依賴腦信號的推理穩定性。也就是說,在推理階段只用視覺等輸入,模型還能否保持“類腦認知”的能力?實際測試中這種泛化效果穩定嗎?能舉個具體例子嗎?
龔江濤:這個問題很核心,也確實跟技術進步直接相關。
我們這次工作里引入了上交大的 Large Brain Model(大腦大模型,簡稱 LaBraM),它對腦科學數據的泛化非常關鍵。因為腦科學天然有兩個難點:一是信噪比低;二是個體差異大。要從不同人、不同狀態里提煉出共性,把個體差異“消融”掉,往往需要更大規模的數據和更強的模型能力。
我們也在和智源研究院雷博老師(智源研究院研究員)所在的大腦大模型團隊合作交流,這塊進展非常快,大家交流起來都很興奮。
舉個相對直觀的例子來說明“大腦大模型”現在的能力邊界:過去腦電、血氧這類信號基本是兩條路線,各做各的。但在大腦大模型的框架下,它們有機會被映射到同一個“腦表征空間”里,指向同類的腦活動,這是一個很重要的變化。
再比如一個經典任務:用腦電去預測你正在看什么。這個任務很適合用來檢驗魯棒性。兩三年前,這件事還很“玄學”,結果隨機性很強;但現在已經能做到在大類、輪廓結構等層面相對穩定地解碼出來。這說明什么?說明腦信號的可用性、可遷移性在變強。
回到我們的問題:如果腦信號能更穩定地表達“風險預警、注意力變化”等認知狀態,那么我們就可以在訓練階段用它去“教會”模型——哪些視覺線索對應潛在風險、哪些場景需要提前規避。推理階段即便不再輸入腦信號,模型也能把這種能力遷移到純視覺輸入上,泛化就更穩定。
唐小引:我在準備采訪時也跟一些做具身的朋友聊:現在居然已經有“腦電大模型”這種路線了。以前我們談具身更多聚焦多模態、世界模型、空間智能這些。這個領域其實發展不短了,但很多人不太了解。你覺得過去是大家之間存在壁壘,還是說現在因為都奔著具身智能走,才開始發生交叉融合?
龔江濤:你說得很準確:過去確實更像“各走各的路”。
也不能說完全沒有交集。人工智能研究里會偶爾借鑒認知科學的一些觀點,做一些“腦啟發”的設計。但過去的一個現實問題是:腦科學、認知科學的研究范式很難規模化泛化。不同實驗的刺激材料、流程、分析方法都不一樣,結論有時連領域內部都未必完全一致。大家都是在嘗試打開大腦這個黑箱:先采集數據,再提出假設;或者基于假設設計實驗去驗證。
所以計算機科學想從這里借鑒時,經常只能借到“概念層”的東西:那些更通俗、更好傳播、更符合直覺的理論會先被引入。但原始的大腦數據長期沒有真正大規模進入 AI 社區。
中間就會出現一種“隔了好幾層翻譯”的情況:認知科學家先抽象一遍,AI 研究者再理解一遍,最后做出來的系統到底跟大腦有多像,其實很難說清。
而現在的變化是:隨著算力、模型和數據處理能力提升,我們終于有機會繞開多輪“概念翻譯”,直接在原始數據層面建立連接。尤其當我們把兩邊都放到“任務對齊”的框架下,讓輸入輸出在同一類任務上對應起來,就更有可能讓神經網絡自己從復雜數據里去蕪存菁,學到更本質的規律。
這個趨勢不只發生在腦科學與 AI 的結合上,其實在 AI for Science 的很多方向都類似:過去是科學家從數據里總結公式和定律,我們做系統時再去“引用定律”;現在很多時候可以直接讓模型從原始數據里學習,反而效果更好——這是一個更底層的范式變化。
終局猜想:具身智能的未來是“認知伙伴”
唐小引:聊到“終局”,大家現在看馬斯克做腦機接口,會覺得很不可思議。你覺得這會成為未來的終局嗎?
龔江濤:我個人是相信這個趨勢的——技術進步確實可能繞開很多屏障,讓我們更穩定地獲取原始認知信號,從而更直接地完成任務。
但這并不意味著每個人未來都要“配一個腦機接口”。現實里,技術怎么落地、以什么形態落地,未必和想象完全一致。更重要的是,“所想即所做”如果不加約束,會帶來風險和倫理問題。
不過從方向上講,讓系統更接近“所想即所得”、更自然地讀懂人的意圖,這很可能是一個長期的演進方向。
唐小引:那順著這個方向,你能不能描繪一下你理解的具身智能未來?或者說,你心里的 AGI 是什么樣的?
龔江濤:我們現在更愿意把它理解成一種“認知伙伴”。
我們做 AI、做智能體,最終還是希望讓人類生活變得更好。要做到這一點,它必須在兩件事上持續變強:理解人類,以及和人類協同。
而從邏輯上講,如果 AI 和人類各用一套完全不同的思維機制,社會協作成本會變得非常高——溝通成本、對齊成本都會上升。所以我更希望未來的智能體,在核心機制上盡可能和人類共享某些“可對齊”的邏輯框架,這樣它才能真正融入人類社會,而不是只在自己的系統里自洽。
唐小引:回到當下的通用腦電大模型,你們論文里也提到表現已經很不錯了。為什么會選擇上交大團隊的 Large Brain Model?背后應該也有合作和評估過程,能分享一下嗎?
龔江濤:這件事確實挺有意思。我一直在北京工作,但我也得承認,上海這邊整體的 AI 氛圍和生態非常活躍,很多方向推進得很快,而且合作方式也比較開放,容易產生新東西。
當時我們對市面上幾個主流的腦電大模型做過評估,大概篩了三套重點方案。后來我們和上交大負責的老師做了線下深入交流,綜合他們的數據量、已驗證任務的覆蓋面以及工程實現的完整度,最后選擇了他們的 Large Brain Model。引入之后,確實帶來了比較明顯的性能提升,我覺得這是一個比較成功的選擇。
唐小引:那除了上交大的 LaBraM,還有其他不錯的腦電大模型嗎?
龔江濤:有的。當時我們做選擇的時候,智源研究院那邊的相關模型還沒完全出來。后來我們在去年年底也有交流,接下來我也希望能把智源這邊納入評測范圍,做一個更系統的對比測試(benchmark)。
唐小引:也就是說,底層模型層面可能會有多個選擇來支撐?
龔江濤:對,可能會做對比評測。但最終在具體系統里,往往還是會“擇優選一”,更偏非此即彼的路線。
跨范式研究的挑戰:當“允許試錯”遇到數據采集的深坑
唐小引:你剛才講了很多讓人興奮的點。那我也想問問“趟坑經歷”——這種跨范式的研究,通常不會一路順利。你印象最深的挑戰是什么?是技術層面的,還是協作層面的?最后又是怎么解決的?
龔江濤:我覺得最大的挑戰,往往從啟動立項那一刻就開始了。你要推動一種“新范式”,在一開始還沒有足夠實踐經驗、也沒有完全跑通閉環的時候,要爭取資源支持非常難。現實一點說,我們目前很多科研運行機制,對“失敗”是缺少預案的——很多項目能立項,往往是因為你幾乎已經驗證到八九不離十了。
我們之所以能把這件事啟動起來,是把它嵌入到一些更容易獲得支持的目標里:比如自動駕駛評估、一些更靈活的縱向經費支持等。通過這種方式,才有機會孵化一條“以前沒人走過”的路。
唐小引:那這件事最初的靈感怎么來的?以及在 AIR 內部溝通、對外爭取合作伙伴和經費時,大家的反饋是什么?
龔江濤:我確實很幸運。和亞勤老師溝通我過往經歷時,我提到過我們在醫學院做觸覺與腦認知研究的經驗。亞勤老師當時的判斷是:駕駛本身就是強認知活動,“老司機的大腦到底在做什么”這件事很值得先把數據采下來。哪怕短期不確定能不能直接影響自動駕駛算法研發,也值得先做探索。能拿到他的支持,是項目啟動的關鍵因素之一。
第二是合作伙伴的支持。我們當時和百度這邊一起承擔了一些國家課題。在我們提出方向調整后,也做了匯報交流。百度整體態度很開放:他們可能短期看不到明確落地路徑,但并不反對我們在國家項目框架下做探索。更重要的是,在大的項目里,他們確保主線目標可控,同時也給我們留出了一塊“允許試錯”的空間和經費,用來做設備采購、實驗組織和數據采集。
唐小引:那在“允許試錯”的部分里,有哪些真的“翻車”了?又有哪些是出乎意料地成了?
龔江濤:最典型的“難”,其實在數據采集。
我們當時專門設計了一條包含多種道路形態的采集路線,盡量覆蓋主輔路切換、掉頭、復雜交互等場景,并且選擇偏晚高峰的時段,讓老司機更可能遇到豐富的交通沖突與博弈。
![]()
采集時,駕駛員需要同時佩戴腦電設備和眼動設備,車內還要布置多視角攝像;我們前后排都安排了乘客,其中乘客還佩戴心率、皮電等生理傳感器,方便從“乘客視角”捕捉他對風險的感受變化。這一整套系統搭建和穩定運行,比我們預想花了多一到兩倍時間;后續的數據清洗、對齊、建庫、分析,也遠比實驗室預實驗更耗時。
不過好消息是,盡管過程慢、投入大,但最終效果確實讓我們覺得很“值得”。
唐小引:那從技術判斷上總結一下:腦電會不會成為未來自動駕駛的主流信號?以及除了腦電,還有哪些生理信號也可能融合進來?
龔江濤:我更愿意把它看成“第一步”,而且它不只局限于自動駕駛。更廣義的具身智能、甚至一些離身的智能系統,都可能從這種范式里受益:我們不一定非要重復走一條老路,而是可以借助人類隱式信號,找到更高效的學習路徑。
至于信號類型,和大腦直接相關的,除了腦電,還有 fNIRS 這類血氧信號等。我們自己還做過一個很有代表性的方向:眼動信號。
眼動本質上反映的是注意力分配——而在復雜駕駛場景里,信息極其冗余,模型也非常需要“注意力”去篩選重點。我們把人的注視作為一種先驗融合進機器視覺后,發現效果是可觀的。更有意思的是:隨著模型規模變大,在不同階段加入眼動先驗都能帶來相對穩定的提升。
這讓我們形成一個直觀判斷:僅靠顯式標注的數據,哪怕數據量不斷擴大,也很難完全覆蓋人類在真實任務里產生的那些“隱式認知線索”。把這類線索納入學習體系,可能是繞不開的一條路。
唐小引:所以最大的瓶頸還是數據?
龔江濤:對,核心瓶頸還是數據:采集難、對齊難、建庫難、分析難。軟件工程本身反而相對成熟。
擁抱開源與未來:大腦其實一直在“說話”
唐小引:那說到開源。現在大家很關心“完全開源”——代碼、模型、權重、數據集都開嗎?你們有什么計劃?
龔江濤:我們作為高校科研團隊,這項工作是盡可能完全開源的:代碼、模型、權重以及數據都會開放。
但也有一部分需要現實約束:自動駕駛場景涉及道路與影像數據,會牽涉隱私與合規問題,所以在圖像等敏感數據的訪問上,我們會設置郵件申請等門檻,確保合規使用。這主要是由場景本身的特殊性決定的。
唐小引:現在“開發者”定義也在變——大模型降低了編程門檻,越來越多人可以參與;同時交叉學科也更常見。你作為過來人,對新一代開發者有什么建議?
龔江濤:我覺得編程會讓每個人受益,不管你來自哪個學科。它會讓你更理解機器的邏輯,也更懂得怎么把機器當作工具和伙伴去協作。
如果你想更系統地進入計算機領域,還是建議把計算機的基礎思想和方法論補齊:數據結構、算法、系統、工程思維這些,能決定你走得穩不穩。好的一點是,計算機學科的學習資源極其開放,自學門檻在很多學科里反而是最低的——公開課、開源項目、資料都很豐富,愿意投入就能學起來。
另外我不太擔心“人多會搶飯碗”。真正決定差異的,往往是你的跨學科能力:你能不能在“精”之外,理解一個真實領域的問題語境;能不能和領域專家深度協同;能不能把技術真正落到場景里。交叉學科不是淺嘗輒止,而是在扎實基礎上,深入理解目標領域,才能把事做成。
唐小引:最后請你用一句話總結:類腦認知賦能自動駕駛,它對端到端自動駕駛、以及未來 AI 系統設計分別有什么啟示?
龔江濤:我想說的是——大腦其實一直在“說話”。這些隱式認知信號里,可能藏著構建更接近通用智能系統的關鍵線索;在理解人類大腦的基礎上,我們有機會設計出更能融入真實世界、更能服務人類社會的 AI 系統與智能體。
關于《萬有引力》:
這是由 CSDN &《新程序員》執行總編唐小引主理的對話欄目。技術趨勢多變,一不留神總擔心錯過。正在發生的技術事件,對于我們開發者意味著什么?我們面臨的諸多困惑從何尋找答案?《萬有引力》即志在于此,直面事件與困惑,抽絲剝繭,解讀技術真相。
欄目定位:一檔面向開發者群體,聚焦解讀技術真相的對話欄目。
視頻觀看平臺:CSDN 視頻號、CSDN 網站 & App
多形式:文章、視頻、音頻都會有,持續關注 CSDN 公眾號都可獲取,歡迎大家關注!
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.