![]()
本科畢業(yè)于北大工學(xué)院,早期研究聚焦于自動駕駛;博士后期間在卡內(nèi)基梅隆大學(xué),利用強(qiáng)化學(xué)習(xí)解決核聚變反應(yīng)堆控制問題。陳佳玉的科研生涯,始終圍繞著復(fù)雜系統(tǒng)的智能控制展開。
2025 年,陳佳玉開啟了全新的階段:他同時擔(dān)任博導(dǎo)與原力無限資深研究科學(xué)家,研究對象從核聚變轉(zhuǎn)向了通用家用機(jī)器人。他試圖結(jié)合學(xué)術(shù)界的理論深度與產(chǎn)業(yè)界的工程資源,尋找通往通用智能的路徑。
在本次專訪中,陳佳玉回應(yīng)了關(guān)于“天才少年”標(biāo)簽、中美科研環(huán)境差異以及具身智能落地路徑等話題。他認(rèn)為,標(biāo)簽并不重要,重要的是能否精準(zhǔn)地定義研究問題,并在有限的資源下找到最優(yōu)解。
核聚變與機(jī)器人,在數(shù)學(xué)本質(zhì)上是一樣的
DeepTech:回望你的學(xué)術(shù)生涯,從自動駕駛到強(qiáng)化學(xué)習(xí)理論,再到核聚變控制,最后回歸具身智能。每一次方向轉(zhuǎn)變背后的邏輯是什么?
陳佳玉:我剛開始做科研是從技術(shù)角度出發(fā)的。起初做自動駕駛的感知,后來做決策,自然而然地接觸到了強(qiáng)化學(xué)習(xí)。博士階段,我希望能把這個方向做深,于是轉(zhuǎn)向了偏理論和算法的設(shè)計,暫時與具體應(yīng)用解綁。
到了博后階段,我又想把算法重新落地到應(yīng)用層面。無論是核聚變里的等離子體控制,還是具身智能里的機(jī)器人控制,本質(zhì)上都是用強(qiáng)化學(xué)習(xí)去求解復(fù)雜的控制問題。一旦鎖定了強(qiáng)化學(xué)習(xí)這個方向,我就一直在沿著它做。
DeepTech:為什么對強(qiáng)化學(xué)習(xí)這么情有獨鐘?
陳佳玉:強(qiáng)化學(xué)習(xí)起源于認(rèn)知科學(xué),后來經(jīng)由 Richard Sutton 引入計算機(jī)科學(xué)。它的學(xué)習(xí)過程是非常類人的(Human-like)。如果說人工智能的終極目標(biāo)是發(fā)展類人智能,我認(rèn)為強(qiáng)化學(xué)習(xí)研究的問題比其他范式更本質(zhì)。
同時,它也是一個非常綜合的學(xué)科,涉及到控制理論、統(tǒng)計學(xué)、優(yōu)化理論,對數(shù)理基礎(chǔ)要求很高。這一點我也比較喜歡。
DeepTech:可以理解為你比較喜歡挑戰(zhàn)難題、追求本質(zhì)意義上的問題嗎?
陳佳玉:關(guān)于挑戰(zhàn)難題,這可能是我剛讀博時的一個誤區(qū),認(rèn)為最難的東西必定是最有用的東西。但我現(xiàn)在的 Philosophy 是不要單純?yōu)榱俗鲭y的問題而做難的問題。如果單純?yōu)榱颂魬?zhàn)最難的問題而做研究,其實有點太自我了。我現(xiàn)在更傾向于從需求出發(fā),從實用主義出發(fā),用一個有用的技術(shù),解決大家最想解決的問題,這才是做工程、做企業(yè)需要著力的點。
關(guān)于本質(zhì),我認(rèn)為這也跟你想做的研究的最終目標(biāo)有關(guān)系。我們最終要發(fā)展類人智能,所以我認(rèn)為強(qiáng)化學(xué)習(xí)是一個有前景的方向,這是本質(zhì)的。當(dāng)然,做研究和做企業(yè)不同。做研究是追求用最簡潔的方式解決最本質(zhì)的問題。因為解決了本質(zhì)問題,影響的點會很多,所以本質(zhì)也是有用的一個方面。
DeepTech:你在 CMU 做核聚變控制是非常硬核的物理科學(xué),現(xiàn)在做人形機(jī)器人拿水杯是日常生活場景。這兩類問題在數(shù)學(xué)本質(zhì)和決策邏輯上有什么異同?
陳佳玉:方法論是一樣的。無論是基于真實交互數(shù)據(jù),還是基于模擬器建模,從數(shù)學(xué)本質(zhì)上講,它們都可以建模成一個馬爾可夫決策過程(MDP)。
拿到一個控制問題,你都需要定義三個項:觀測是什么?動作是什么?如何評價動作的好壞?
核聚變過程和機(jī)器人拿水,都是高維、非線性的連續(xù)控制問題。傳統(tǒng)控制方法很難解決,而強(qiáng)化學(xué)習(xí)的優(yōu)勢恰恰在于此。所以,它們底層的解題思路是通用的。
DeepTech:在這些階段的經(jīng)歷中,對你影響比較大的人物是誰?
陳佳玉:最重要的人物是我的兩位導(dǎo)師,Vanita Gawva 和Joshua Tendell。
我的博士導(dǎo)師 Vanita Gawva 習(xí)慣把所有問題映射到數(shù)學(xué)領(lǐng)域,用統(tǒng)計學(xué)或優(yōu)化理論去解釋。這讓我學(xué)會從數(shù)學(xué)原理去思考算法的可行性,看透問題的本質(zhì)。
我的博后導(dǎo)師 Joshua Rendell 則相反,他是一個在應(yīng)用和工程上做得極好的人。從他身上我學(xué)到,解決工程問題最重要的是迭代,是根據(jù)需求不斷調(diào)整。
我現(xiàn)在做研究,實際上是在嘗試結(jié)合這兩者:既要在理論上尋求突破,又要具備工程頭腦,通過快速迭代去解決實際問題。
DeepTech:可否舉一個具體場景,說明你如何結(jié)合兩位導(dǎo)師身上學(xué)到的知識?
陳佳玉:我們正在計劃做一些關(guān)于持續(xù)性強(qiáng)化學(xué)習(xí)的東西。持續(xù)性強(qiáng)化學(xué)習(xí),是讓人工智能具有持續(xù)學(xué)習(xí)新任務(wù)的能力,也就是讓其在學(xué)習(xí)新任務(wù)的時候不忘掉舊任務(wù),同時依托從舊任務(wù)中提取出的知識進(jìn)行更好的學(xué)習(xí)。這是一個更類人的學(xué)習(xí)過程。
但它目前還只停留在理論階段。要攻克這個問題,你既要在理論方面做出突破,同時在應(yīng)用的時候又要應(yīng)用很多工程上的技術(shù)。我們正在做的就是這樣的事情,既在做持續(xù)性強(qiáng)化學(xué)習(xí)的算法,進(jìn)行理論上的突破,同時又想盡快把它應(yīng)用到機(jī)器人上。這個應(yīng)用過程就會涉及很多工程上的迭代,這就是理論和工程的結(jié)合。
通用機(jī)器人是 AI 的珠穆朗瑪峰
DeepTech:你現(xiàn)在一方面在港大做教職,一方面加入原力無限這家創(chuàng)業(yè)公司。為什么選擇這種雙棲模式?
陳佳玉:對于我來說,這兩者是高度耦合的。我在公司也是做研究,方向和我在港大做的完全一致:通用家用機(jī)器人。
在香港做通用家用機(jī)器人研究面臨三個獨特的困境:第一是錢。買設(shè)備、買顯卡、雇員工,這是千萬級別的投入,光靠申請中期的 Funding 很難拿到;第二是地。在香港找一個 150 平米的實驗室是非常非常難的事情。第三是算力。而在產(chǎn)業(yè)界,這些場地、人力、算力的支持都能得到解決。我們在原力無限成立了聯(lián)合實驗室,我負(fù)責(zé)的是原型機(jī)的研究,不涉及量產(chǎn)和推廣。這本質(zhì)上是研究能力和研究資源的互補(bǔ)。
DeepTech:為什么是原力無限?
陳佳玉:我覺得這是一個天時地利人和的選擇。做具身智能研究,最大的痛點往往是缺乏真實的落地場景。原力無限最吸引我的,是它已經(jīng)構(gòu)建了一個從商業(yè)到技術(shù)的正向循環(huán)。FORCE 系列、MASTER COFFEE 系列以及輪式人形 AstroDroid AD-01 機(jī)器人在市場上的成功,證明了這家公司懂產(chǎn)品、懂商業(yè),這為我們探索更前沿的通用智能提供了堅實的后盾。
此外,這個團(tuán)隊身上有一股Doer(實干家)的氣質(zhì)。在這里,不管是建設(shè)實驗室還是攻克算法難題,決策鏈路非常短,執(zhí)行效率非常高。這種純粹的工程文化讓我感到非常舒適。
更重要的是,我們達(dá)成了深度的技術(shù)共識。公司管理層對我給予了無保留的信任,我們都堅信:具身智能的未來在于一腦多身,在于通用的物理世界模型。所以我們?yōu)榱送粋€愿景——定義下一代具身智能——成為并肩作戰(zhàn)的創(chuàng)業(yè)合伙人。這些都讓我覺得,這就是我要找的地方。
DeepTech:為什么一定要做家用機(jī)器人?
陳佳玉:機(jī)器人學(xué)更像是人工智能技術(shù)的一個實驗場。如果你想做一個通用的機(jī)器人,幾乎要集齊 AI 領(lǐng)域所有的技術(shù):CV、NLP、大模型、強(qiáng)化學(xué)習(xí)、控制理論、人機(jī)交互等等。而具身智能被認(rèn)為是人工智能領(lǐng)域的珠穆朗瑪峰,特別是人形機(jī)器人。
從落地場景看,商業(yè)場景天花板不高,而工業(yè)場景更需要追求效率的專用機(jī)器;唯獨家庭場景,大家不希望洗碗搞個機(jī)器、洗衣搞個機(jī)器,而是希望有一個通用機(jī)器人。所以,我們決定攀登這座高峰。
DeepTech:你覺得和一些擁有更強(qiáng)大算力和資金的大廠相比,初創(chuàng)公司的機(jī)會和挑戰(zhàn)在哪里?
陳佳玉:必須要找到一個落地的場景,并且做得比較專精才好。你如果去拼基礎(chǔ)模型或者研究,可能都不會是大廠的對手。得有一條自己獨有的研究道路,足夠快的落地,足夠的實用主義才行。
DeepTech:你覺得這個場景會先發(fā)生在哪里?
陳佳玉:我覺得短期來看應(yīng)該會是在 B 端。因為 B 端的成功更多依賴于政策,現(xiàn)在鼓勵人形機(jī)器人進(jìn)工廠。但我們認(rèn)為長期來看,更大的機(jī)會在 C 端,特別是進(jìn)家庭。
工廠可以做各種異構(gòu)的專用機(jī)器人來提升效率,但通用機(jī)器人鋪展的空間不大;在家庭場景下,大家肯定不想說洗碗的時候有洗碗機(jī)機(jī)器人,洗衣服的時候使用洗衣服機(jī)器人——大家更希望家庭里能有一個通用機(jī)器人,來解決多種任務(wù)。所以我們認(rèn)為長期來看,機(jī)會在 C 端。
世界模型需要以 Agent 為中心
DeepTech:你目前最想攻克的科學(xué)問題是什么?
陳佳玉:主要有兩個方向,一是剛剛提到的持續(xù)性強(qiáng)化學(xué)習(xí),另一個是以 Agent 為中心的世界模型。
持續(xù)性強(qiáng)化學(xué)習(xí)是針對現(xiàn)在的 AI 學(xué)完一個任務(wù)就忘了舊知識的問題而言的。針對一個持續(xù)的任務(wù),我們希望 AI 能夠在即使不知道下一個任務(wù)是什么的情況下,也能主動調(diào)動已有知識庫快速學(xué)習(xí),并且不遺忘。這是一個非常難的問題。
世界模型就是在解決一個更本質(zhì)的問題。現(xiàn)在具身智能無非就兩套方案,一個是叫 VLA(Vision-Language-Action),一個叫世界模型。VLA 怎么做?比如你教一個機(jī)器人拿杯子,就需要手把手教它:把一個人拿杯子的序列映射到機(jī)器人動作空間。
而世界模型會教會它背后的原理。我們會告訴它:你不把這個杯子拿緊,這個杯子就會掉在地上,而掉在地上就會碎。有了這個因果模型,機(jī)器人就能明白動作背后的原因,從而更好地泛化,比如把拿杯子的經(jīng)驗遷移到拿水壺上。這個機(jī)器人就可以從中學(xué)到,我是因為不想讓這個杯子掉到地上,所以我要把這個杯子拿緊。
至于以 Agent 為中心的世界模型呢,現(xiàn)在大家做的世界模型(比如 Sora)很多是第三人稱視角的,學(xué)的是通用的物理知識。但我們認(rèn)為,世界模型是用來指揮智能體行為的。每個人心中都有一個自己的世界模型。所以我們想做強(qiáng)調(diào)以 Agent 為中心的建模。這兩個方向,一個是抽象,一個是因果的建模,這是我們做世界模型和別人做世界模型不一樣的點。
DeepTech:機(jī)器人需要像大模型做數(shù)學(xué)題那樣去推理嗎?
陳佳玉:這可能和大家的直覺不一樣。我認(rèn)為在執(zhí)行任務(wù)的時候,是沒有那么多時間進(jìn)行推理的。比如洗衣服、洗碗,這些動作在熟練之后,更多像是一種肌肉記憶。它和用大模型解數(shù)學(xué)題不一樣。
推理能力可能在學(xué)習(xí)階段非常有幫助,能加速學(xué)習(xí)過程。但一旦學(xué)好之后,真正的執(zhí)行過程是不大需要推理的。
DeepTech:你認(rèn)為當(dāng)下具身智能領(lǐng)域,最被高估和最被忽視的技術(shù)分別是什么?
陳佳玉:最被高估的是泛化性。現(xiàn)在很多 Paper 里宣稱的泛化,往往是偶然的泛化——從 A 場景換到 B 場景的過程中碰巧能用。但這缺乏理論保證,如何獲取可保證的泛化性,大家討論得不夠。
而最被忽視的是持續(xù)學(xué)習(xí)。如何做到持續(xù)學(xué)習(xí)而不遺忘?這是 Richard Sutton 和 Ilya Sutskever 最近都在提的難題,但因為技術(shù)路線不明朗,業(yè)界的討論還比較少。
數(shù)據(jù)飛輪轉(zhuǎn)起來的那一刻
DeepTech:你對未來五到十年具身智能這個行業(yè)發(fā)展有什么判斷?
陳佳玉:我不太能給出時間判斷,這是一件非常難的事情。現(xiàn)在技術(shù)的發(fā)展越來越脫離原來的摩爾定律。以前你可以根據(jù)摩爾定律做時間上的判斷,比如每兩年算力會增長三倍,但現(xiàn)在算力起的作用越來越弱了,所以說現(xiàn)在對時間上的判斷其實是很難的。
但是我覺得它大概的路線是這樣的:
第一階段,機(jī)器人能夠在特定的場景下實現(xiàn)任務(wù)之間的泛化,這個過程我感覺應(yīng)該很快就會到來,大概兩到三年吧。
下一個階段就是推廣和部署的階段。因為機(jī)器人已經(jīng)能在一個場景下可靠地執(zhí)行多個任務(wù)了,后面就會是降本的階段,會大量的推廣部署。大量推廣部署之后,機(jī)器人就會日夜不停地產(chǎn)生數(shù)據(jù),積攢海量的數(shù)據(jù)。由此,我們就可以利用算法上的一些突破,以及這些海量的跨場景的數(shù)據(jù),說不定可以得到跨場景的通用機(jī)器人,也就是場景泛化。所以我覺得大致會走一個從任務(wù)泛化推廣部署,再到場景泛化的路線。
DeepTech:目前具身智能也缺乏統(tǒng)一的benchmark 和數(shù)據(jù)集,你覺得這個問題如何解決?
陳佳玉:數(shù)據(jù)問題的話,我認(rèn)為初期可以依靠數(shù)據(jù)工廠,也是靠人類去采集。慢慢的可以依賴一些機(jī)器,比如用機(jī)器在數(shù)據(jù)工廠里面進(jìn)行自動化的采集。其次,我認(rèn)為終究是需要有真實的客戶數(shù)據(jù)比如說有 1,000 臺機(jī)器人部署到 1,000 個家庭里,它們夜以繼日地產(chǎn)生數(shù)據(jù),這將會是非常強(qiáng)勁的數(shù)據(jù)洪流。用更好的數(shù)據(jù)選更好的策略,用更好的策略產(chǎn)生更好的數(shù)據(jù),就會形成正反饋的閉環(huán)。
實際上我認(rèn)為通用機(jī)器人能不能落地,最關(guān)鍵的時間點就是數(shù)據(jù)飛輪什么時候開始轉(zhuǎn)起來。
DeepTech:你認(rèn)為機(jī)器人達(dá)到什么標(biāo)準(zhǔn),才算可以安心部署給用戶?
陳佳玉:標(biāo)準(zhǔn)就是是否能在特定場景中,長時間、穩(wěn)定、有效率地完成多種任務(wù)。現(xiàn)在的難點在于長時間穩(wěn)定。如果能做到這一點,哪怕是在單一場景下,我認(rèn)為就是下一個里程碑。
先定義問題,再尋找資源
DeepTech:我注意到你 2024 年博士畢業(yè)之后,2025 年就成為了博導(dǎo)和首席科學(xué)家,也被貼上“少年天才科學(xué)家”的標(biāo)簽,你怎么看待這個標(biāo)簽?
陳佳玉:我個人認(rèn)為這都不重要,我認(rèn)為最重要的是,我是否解決了重要的問題,做出了重要的工作。以及我做這個方向是當(dāng)前一個比較熱門的方向。更重要的,還是說你能做出什么重要的工作來,標(biāo)簽不重要的。
DeepTech:在這個標(biāo)簽之下,你能不能給我們分享一些面對困難的時刻?
陳佳玉:其實做研究、特別是一個人做研究,它的試錯成本是非常高的。我讀博士期間經(jīng)常是一個項目成功、一個項目失敗,就這樣交替進(jìn)行。因為本質(zhì)上做研究就是探索不同的路的過程。你要邊探索邊思考哪條路更好,就像走迷宮一樣把那條路試出來。
但一個比較重要的點是,所有失敗過程中鍛煉的那些技能在之后都會用上。所以我認(rèn)為最重要的就是,首先這是一個值得做的工作,其次你要有足夠新的想法,最后還要有足夠的堅持。我覺得這樣最后結(jié)果總不會差的,無論這個事做成還是做不成。
DeepTech:你提到了要有比較足夠新的想法和堅持,你會覺得這兩個點對你來說是比較難完成的事情嗎?很多人會覺得堅持聽上去簡單,但實際上做起來很難。
陳佳玉:現(xiàn)在做研究,特別是做人工智能研究,你可以得到大量很簡單的想法,然后把它做成一篇論文,這樣你能夠很快把論文數(shù)量 build up 起來。但很多論文往往都不會造成什么影響,可能反而是那種比較新、比較重要的問題,花的時間成本會很高,人力成本會很高,失敗風(fēng)險也會很大。
這種時候你就得做一些抉擇了,也會很難,因為你要忍受更大的不確定性。但這種問題一旦解決,它的影響也會更大一些。
DeepTech:一邊是發(fā)文效率高但簡單的 Idea,另一邊是更重要但困難的新問題,你自己怎么去衡量和選擇?
陳佳玉:我認(rèn)為做科研的核心在于目標(biāo)感,你要明確自己的階段性目標(biāo)和長遠(yuǎn)目標(biāo)是什么。
所有與目標(biāo)無關(guān)的事情其實都不那么重要。真正與目標(biāo)相關(guān)的,可能也就是那么兩三份核心工作,這才是需要花大力氣、投入 80% 精力去做的。至于剩下 20% 的精力,我會留給那些不太相關(guān)但比較有趣的工作。這主要是基于現(xiàn)實考量:我們確實需要文章的數(shù)量。
這里存在一個視角的差異:作為 PI,我需要的是重要的文章。但作為學(xué)生,他們首先需要能讓他們畢業(yè)的文章,以及在科研初期就能做出來、用來練手的文章。這類文章可能影響力有限,但對學(xué)生的學(xué)術(shù)生涯起步非常重要。
因此,我不能只看重那些影響很大的工作,而忽視那些相對簡單的工作。兩者都要兼顧,只要控制好比例即可。
DeepTech:作為年輕的博導(dǎo),如果給想進(jìn)入這個領(lǐng)域的學(xué)生或研究者一個建議,你會說什么?
陳佳玉:第一,先定義自己的研究問題。確保它足夠重要,然后再進(jìn)行深度研究。不要盲從,不要還沒想清楚就動手;第二,找資源。在具身智能領(lǐng)域,資源(算力、設(shè)備、場景)不到位,你很難進(jìn)行很好的研究。一定要盡量給自己找更多的資源支持。
如果年輕研究者在早期找不到真正的方向,或者無法判斷哪些問題足夠重要,我的建議是:多去研究領(lǐng)域內(nèi)那些標(biāo)桿性人物的思考方式。
這些頂尖學(xué)者通常都有自己的一套完整的研究體系,這是基于他們漫長的學(xué)術(shù)生涯沉淀下來的。去拆解和學(xué)習(xí)這些體系,是建立認(rèn)知最直接的方式。
但要注意,學(xué)習(xí)不是盲從。你不能照搬某一個人,而是要多看、多想,博采眾長。你需要結(jié)合自己的思考,先構(gòu)建出自己的研究體系,然后再從這個體系中去推導(dǎo)和定義你的研究問題。通常來說,這是一個從體系到問題的過程。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.