文|傲然
編輯|楊布丁
4月25日,前 DeepSeek 研發負責人、多模態技術核心研究員阮翀,以元戎首席科學家的身份首次亮相。
在溝通會環節,阮翀告訴騰訊汽車,自己從 DeepSeek 轉戰加入元戎啟行,“考慮時間很短,幾天就做了決定”。在當日AI Talk分享中,他也坦誠分享入局物理 AI賽道的兩大原因:一是不太喜歡邊際收益遞減的事情;二是性格原因,“不喜歡跟別人搶著做事”。
與多數自動駕駛研發從業者的分享不同,這次阮翀不僅解讀了元戎基座模型的最新進展,還詳細介紹了公司在輔助駕駛認知能力構建方面的最新進展。同時,他還分享了AI時代人和組織該如何共同進化,他笑稱,這部分內容是自己夾帶的 “私貨”。
![]()
阮翀認為,隨著輔助駕駛進入規模化量產階段,以往依賴小模型發展的技術路徑,導致系統穩定性與用戶高頻使用率提升緩慢,在復雜長尾場景中仍然容易出現能力波動,輔助駕駛體驗尚未形成穩定可靠的信任基礎。面向這一階段性挑戰,元戎提出以基座模型為核心的新一代技術路徑。
發布會上,阮翀介紹,基座模型將駕駛決策、場景理解與行為評估能力統一在同一架構中,通過更大的模型規模、更高的數據質量和更快的數據閉環,推動輔助駕駛系統持續進化。在這一體系下,數據閉環迭代周期從過去的約 5 天縮短至約 12 小時,運行效率大幅提升。
談及大模型與物理世界空間交互的行業痛點,阮翀拋出一個觀點:與其說是一個技術問題,我更覺得它是一個信仰問題。
結合元戎啟行深耕的輔助駕駛業務,他進一步解釋:你為什么會相信一個人類司機可以開好車?或者說人類開車就不會有事故嗎?你很難無瑕疵地去證明這個事情。而是說你會不會相信模型的能力能夠達到人的能力——它不是數學證明,而是一種信仰。信仰需要一些證據支持,比如你可能坐一些車體驗效果怎么樣。
今年1月,騰訊汽車曾獨家報道,阮翀正式加盟元戎啟行。公開資料顯示,阮翀 2018 年畢業于北京大學計算語言研究所,2023 年加入 DeepSeek 擔任研究員。
根據DBLP (Digital Bibliography & Library Project,計算機科學文獻數字圖書館)記錄,阮翀(Chong Ruan)與代達勱(Damai Dai)、李嘉實(Jiashi Li)、鄧乘奇(Chengqi Deng)、趙成剛(Chenggang Zhao)和高華祚(Huazuo Gao)是和梁文鋒(Wenfeng Liang)共同署名論文最多的研究人員,各自與梁共同署名論文均有9篇。
2023-2024 年,他深度參與了 DeepSeek-VL/VL2、Janus 系列等多模態模型的研發;在大語言模型領域,他是 2025 年 9 月《Nature》收錄論文《DeepSeek-R1 通過強化學習激勵大型語言模型進行推理》(DeepSeek-R1 incentivizes reasoning in LLMs through reinforcement learning)的作者之一,該研究具有廣泛的行業影響力。
此外,他還參與了 DeepSeekMoE(混合專家架構優化)、DeepSeek-V3(規模化與硬件適配)、Native Sparse Attention(硬件對齊稀疏注意力機制)等多項底層技術研究。
以下是阮翀在元戎啟行發布會、AI Talk以及溝通會上的部分發言實錄:
發布會演講實錄:
各位來賓、各位媒體朋友們,大家好,我是阮翀。剛才我們CEO周光博士已經介紹過了,我是幾個月前來到元戎的。相信很多人已經知道了這個消息,今天是我第一次跟大家公開見面,非常感謝大家的到來。
大家可以看到演講的標題:Being AI-Native In Post-LLM Era(如何打造后大語言模型時代的 AI 原生)。本來這個標題應該是介紹元戎的智駕體系,這也是很重要的一點,但標題并沒有非常直接地反映這一點。很快大家就會知道為什么,因為最后兩頁我夾帶了一些“私貨”。
有一個很簡單的道理,在某種意義上是不言自明的:以前大家會做各種各樣的小模型,比如我需要去檢測一個行人、一個紅綠燈等等。整個智駕體系里有非常多的小模型,就會帶來巨大的負擔,無論是開發、管理還是人力上的負擔。
![]()
未來的趨勢,從語言模型開始,就會演變成:我們有一個很大的、參數量很多的基座模型,希望它能夠同時完成很多不同的任務,而不是每個特定任務都有一個單獨的模型。這樣會給整個研發體系帶來非常大的便利。稍微具體一點說,我們可以把這個過程分為數據Scaling和模型的Scaling。
從數據的角度看,如果有一個很大的模型,我們就可以把各種傳感器類型的數據,以及語言或動作等不同模態的數據,都統一到一個模型里面。這樣就可以吃進更多的數據,利用數據閉環不斷提升模型的能力。
![]()
從模型的角度看,當模型的參數量越來越大,我們就可以基于這個基座模型,完成很多版本,用很少的模型來完成整個研發迭代周期里的絕大部分任務。
我們把它具體分為三個模型:第一個是Driver模型,負責開車,接受傳感器的輸入,輸出駕駛動作——應該怎么剎車、怎么打方向盤。
![]()
第二個是Analyst模型。這個模型可以把語言模態接入進來:有了傳感器輸入和駕駛動作,它可以分析模型到底為什么要這么開。比如你開到路口時,它可以告訴你前面是一個路口,有盲區,會不會有行人突然出來,需要減速。這樣就有了可解釋性,它會告訴你為什么這么開,讓你安心。同時,這個模型還會做數據標注,處理整個研發過程中汽車的駕駛行為。
第三個是Critic模型。它在一定程度上可以更好地利用負向數據。在小模型時代,大家只能用正向數據學習——告訴他什么行為是好的,車速應該是多少,模型去擬合這些好的行為。但實際上很多行為是不好的,比如不小心闖紅燈,或者跟別的車搶路權。只有當你知道什么是好的、什么是不好的,并且把不好的行為也告訴模型,模型才能盡量避免這些行為。通過更多地接管負面數據的學習,可以獲得更智能的駕駛行為。
![]()
那么,有了大模型之后,怎么用它來加速整個開發流程?我舉三個具體例子。
第一,用大模型做數據表征。 以前的端到端模型雖然是用數據驅動的方式做迭代,但往往是一種滯后的行為:我開發一個模型,測試一下,發現在某些場景上有問題,比如不居中,或者等紅燈時溜車,然后我就會修改訓練方式,或者抽取一批相應的訓練數據加進去,訓練下一版模型,希望修正這些錯誤行為。但如果有一個數據表征模型,就可以提前把所有數據分析和歸類。我知道模型在什么場景下有什么樣的數據,就可以做針對性的采樣或升采樣。某種場景數據不足,我可以提前做一些定向收集或其他處理。這樣就能把迭代過程前置,簡化流程。
第二,數據質量的評估。 通常很難直接評價數據的質量,只能通過間接方法:我用這個數據去訓練一個模型,訓完之后看模型好不好,從而判斷數據好不好。問題在于,每次訓練模型的時間代價很長,從數據到訓練需要很長的迭代周期。如果有一個大模型,就可以通過一段很短的Foundation Model來解決這個問題,以比較短的周期進行迭代。
第三,模型評估驗證。 以前訓好模型后,把它部署到汽車上,出去開一圈才知道到底好不好。路測是一個非常精準的方式,因為它對應最終實際應用時模型需要做到的事情。但缺點是比較耗費人力物力:首先要發版,其次需要有一個人盯著它開車,流程比較繁瑣。有了基座模型以后,我們可以把很多以前非常依賴路測的東西挪到云服務器上,在一個虛擬環境里運行駕駛模型,就能知道它開得好不好,從而縮短模型驗證的周期。
有了這樣的使用方法,我們可以在每個研發階段應用類似的技術,加速整個研發周期。以前迭代一版模型可能需要100多個小時,而現在可以加速十倍,只需要12個小時就能做到。
模型只是一個加速的結果,是一個時間點上的產物。但除了模型之外,更重要的我認為是研發的過程。因為技術總會不斷迭代,總會有新技術出現,總會有新的競爭者。某一點的領先不是真正的領先,真正的領先在于你如何去組織研發過程,實現持續的迭代和改進。除了拿到模型交付結果之外,更重要的是怎么把模型應用到日常工作的方方面面。
![]()
這么說可能比較抽象,我們可以看幾個具體的例子。
其一,知識管理。 以前大家怎么管理內部的研發流程?比如有很多知識散落在各種各樣的文檔、聊天窗口里。隨著時間的推移,文檔會過時,聊天窗口沒有人看,信息就會逐漸散失。但如果有了大模型,這個事情就變得很容易。比如我以前沒做過自動駕駛,現在很多事情模型可以跟我解釋:它可以從互聯網讀取各種數據,學習各種論文,解釋學術名詞,還可以總結各種聊天記錄,把一些口口相傳的知識提取出來。
其二,代碼生成。 這一點已經非常普遍,不用過多強調。以前大家都是手寫代碼,現在可以用模型執行更多編程任務。
第三,人際合作,減少溝通成本。 尤其當涉及跨部門協作時,以前需要找到另一個人,跟他說我需要一個什么東西,占用他的時間讓他幫你做。現在可以把很多流程化的東西固化成一個技能——它是一個可執行的東西,而不是可讀的東西。這樣一來,可以直接跳過跟人溝通的過程,更快地拿到協作所需的組件。
第四,實驗分析。 同樣,以前看實驗日志,模型可以幫你匯總、畫圖表,加速迭代的過程。
![]()
最后一條,有了這么一個智能工具之后,人到底應該做什么?或者說組織應該做什么? 這里的“組織”指的是機構,比如公司或科研機構。對我來說,有幾點比較重要。
人應該做的:第一,需要關注新技術,無論是自己去嘗試,還是和身邊的人溝通。雖然有句話說“只要我學得足夠慢,就不用學新的東西”,但我認為世界變化還是很快的——尤其是從去年年底開始,代碼模型的進步已經遠遠超出了大家的預期。第二,在使用工具時,一定要把工具當成自己的手,而不是自己的大腦。因為模型有可能會犯錯,如果你不知道模型在干什么而盲目相信它的結果,很容易帶來垃圾工作量的提升,實際進展卻沒有多少。
而對于一個組織來說,怎么更好地使用AI?大家可以看到,有人用AI寫代碼提速了5倍,但實際進展并沒有5倍。
這里分享一個觀點,當你需要開始一個項目時,最好是使用輕微不足的人手,加上相對充足的token。只有人手不足的時候,你才會去思考什么是真正重要的事情,而不是亂七八糟的事情全都去做——那樣只會分散你的精力。使用token可以提升你的開發效率,或者補充一些相對初級的人手。
還有一點,怎么看待公司這樣的組織形式?以前我們會認為公司是人的集合:公司有這么多員工,每個員工負責做不同的事情。隨著智能體越來越發達,我們可以把公司看成是人和skill的集合。
人用來發揮主觀能動性,發揮那些短期內無法固化的事情。而很多流程或規章制度,可以從以前的TXT變成可執行的skill。你不再需要人去執行這些規章化的流程,而是把它變成一個可執行的東西,去加速整個組織的演化。
謝謝大家!
AI Talk+溝通會部分實錄:
問:如今大模型已經進入日常生活和工作的方方面面。剛才阮翀提到,我們的生活、工作、組織架構都可以用大模型。但有沒有哪些具體現象或時刻,讓你意識到當前大模型的能力還需要進一步突破,它的能力邊界一定是有限的?
阮翀:尤其是對于視覺模型,當前最難的問題是空間范圍感知的缺陷。模型經常前后左右不分,導致一些奇怪的行為。在人看來非常簡單的事情,比如車門在左邊還是右邊、這個東西在車里面還是車外面,經常給模型帶來困惑。
問:進一步請教,在各位日常思考與工作中,是否有發現哪些領域的突破性進展,可以為當前大模型能力的提升帶來借鑒?我知道很多學物理、學化學的思維方式能帶到大模型和物理AI中。
阮翀:這個問題我更想反過來談,怎么把大語言模型的進展推廣到其他領域?我想強調的還是“閉環”這個概念。比如用AI預測化學分子的性質——熔點是多高、溶解度怎么樣,然后用它來制藥。這很像幾年前編程模型的狀態:可以用來做檔案補全,能加速以前的過程。
假設原來有一百個分子結構需要測試,AI預測可以簡化流程,只做十個分子,加速迭代。但問題在于:這十個分子能不能讓機器自動去測?或者說,最近很火的“AI科學家”概念,怎么控制模型能力去完成一個完整的閉環?假設我分析出這十個分子可能有什么性質,能不能讓機器人來做實驗?機器人和人做實驗的差別在于:如果安排兩三個不同的實驗人員去做,可能因為人的個體差異(比如手法好壞)導致結果不同。如果可以用標準化的方式做,就會減少人的干預,結果也更容易復現。
問:多模態技術具體能在物理世界中解決哪些問題?多模態與物理AI之間最本質的關系是什么?我們也注意到,近期不少大模型公司的多模態負責人選擇進入物理AI領域,這背后的信號是什么?
阮翀: 我的想法可能跟別人不太一樣,但也有共性。兩方面原因:一是我不太喜歡邊際收益遞減的事情。做大語言模型很多年,能力也在提升,但跟ChatGPT剛出來時的感覺已經完全不一樣了,會有一種疲倦感。大語言模型發展得很好,訓練比其他領域領先很多,幾乎可以用一個模型解決所有想要的事情。但在其他領域,不管多模態還是具身智能,還沒有發展到這個階段。我更愿意參與這樣的階段,而不是一個相對成熟的階段。
二是性格原因:我不喜歡跟別人搶著做事。比如某個模型很好,大家都一窩蜂去做。我更在意某種使命感或責任感:如果一件事情我做和不去做,對世界沒有差別,那我為什么要做?所以我會選擇換一個領域。
問:我們該怎么做,才能確保AI的發展是“for good and for all”?
阮翀:人怎么保證一個人是好人、不會犯罪?需要法律、規章制度等。AI也一樣。如果你相信AI的能力可以達到或超過人類水平,那么你也需要某些工具來控制它,而不是期待它天生就是善良的。
問:你當時從上一家公司來到元戎考慮了多久?來到自動駕駛公司之后,最讓你興奮的點是什么?最讓你感到難或者焦慮的點是什么?這個行業這兩年很卷,前段時間地平線蘇箐說進入三年的苦日子,你可能在苦的時候來了。
阮翀: 我考慮時間很短,幾天就做了決定。我沒有非常詳細地比較要去哪家公司,我更關注的是工作氛圍。最打動我的是跟元戎幾個合伙人聊天,感覺很好,大家可以像朋友一樣相處,這是我最看重的,其他反而沒那么重要。
問:最焦慮的點是什么?
阮翀:最大的問題看你跟誰比。如果跟大模型公司比,這個行業人才密度確實還是差一點。以前你把一個工作交給其他人做,非常放心;現在需要非常頻繁地檢查結果、檢查整個過程。
問:大模型跟物理世界空間交互的點,在大模型時代還是一個難點,你們怎么解決?從安全或者運營的角度看,這個問題怎么處理?
阮翀:其實與其說是一個技術問題,我更覺得它是一個信仰問題。你為什么會相信一個人類司機可以開好車?或者說人類開車就不會有事故嗎?你很難無瑕疵地去證明這個事情。而是說你會不會相信模型的能力能夠達到人的能力——它不是數學證明,而是一種信仰。信仰需要一些證據支持,比如你可能坐一些車體驗效果怎么樣。
我的信仰是:智能負責多場域,而且不只有一種實現方式。當一個系統負載到一定程度,無論它的載體是人腦還是其他東西,就會出現相應的智能行為。只要能達到一定水平,就可以實現智能。如果你相信這件事,長期來看就會期待這個結果。
換句話說,有一句話叫“AI是迄今為止尚未實現的東西”。每次技術攻克一個問題之后,人們會說“這個東西是AI的明珠”,一旦實現了,就會被開除AI行列,“這東西不需要智能”。這是一個反復發生的事。從我的信仰角度講,我是相信的。
問:大模型在端側部署,參數量這么大,車端芯片能跑得動嗎?會不會有算力和存儲的限制?
阮翀:有兩個辦法。第一,可以通過中軸(蒸餾)去解決,用大模型教一個小模型,這樣小模型的能力也會很強,比你從頭訓練一個小模型強很多。第二,要相信時間的力量。時間意味著硬件的進步,以前車載芯片算力有限,過幾年翻幾倍。只要你相信這個過程是持續的,模型的大小就不會是問題。
我以前2017年做的時候,在手機上跑50兆的模型,當時已經覺得非常大了;現在大家會在手機上跑1G、2G的模型做APP。對計算機行業來說,最大的教訓就是沒有新鮮事:所有在PC時代、個人編碼時代發生過的事情,都會在手機上再發生一遍;手機上發生的事情,又會在物理世界上再發生一遍。
問:一直在聽阮翀說VLA模型,最后歸到多模態大模型。按照您的理解,切換到大模型就是所謂的范式切換嗎?
阮翀:其實剛才還有一點沒有說完:這一代模型跟上一代相比,能力可以跨量級比較。當前的模型,跟發展之后的模型原理差不多。模型設計密度本身就會提升。隨著模型發展,可能需要一個直接模型才能達到預期的能力;可能過兩年,確實只需要一個更小的模型就行了。
問: 剛才你們提到了一千公里MPCI((每千公里人工接管次數))的數據。我想問,這個目標通過范式切換是可以實施的一部分嗎?
阮翀:這是特斯拉已經實現的東西。如果別人能做到,你也能做到。這不是一個編出來的口號或者目標,它是一個已經實現的東西。
問:在阮翀看來,一千公里的MPCI是今年整個訓練開發的核心目標嗎?你是基于技術發展方向做的判斷?能不能稍微延展一下?為什么?
阮翀:是的。你為什么要做自動駕駛?你希望它做什么?一方面希望車開得舒服,可以睡覺,也有其他動機。但對我來說最重要的事情是:有很多指標可以衡量自動駕駛好不好。
比如,特斯拉FSD會有一些問題——旁邊有一輛摩托車,系統擔心風險,做一些橫向避讓,車上的人會被晃一下。但每個人需求不一樣,在我看來這不是特別重要。我知道現在很多人極度依賴智駕,一邊開車通勤,一邊開電話會議或者睡覺。在這種場景下,你不是特別在意舒適性,而是在意到底要不要被打斷、被迫接管。從這個角度講,最關心的指標應該是MPCI。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.