網易首頁 > 網易號 > 正文申請入駐

對話陳佳玉：從核聚變到機器人，是攀登AI珠峰的過程

2025-12-06 21:03:13　來源: DeepTech深科技

北京舉報

分享至

本科畢業于北大工學院，早期研究聚焦于自動駕駛；博士后期間在卡內基梅隆大學，利用強化學習解決核聚變反應堆控制問題。陳佳玉的科研生涯，始終圍繞著復雜系統的智能控制展開。

2025 年，陳佳玉開啟了全新的階段：他同時擔任博導與原力無限資深研究科學家，研究對象從核聚變轉向了通用家用機器人。他試圖結合學術界的理論深度與產業界的工程資源，尋找通往通用智能的路徑。

在本次專訪中，陳佳玉回應了關于“天才少年”標簽、中美科研環境差異以及具身智能落地路徑等話題。他認為，標簽并不重要，重要的是能否精準地定義研究問題，并在有限的資源下找到最優解。

核聚變與機器人，在數學本質上是一樣的

DeepTech：回望你的學術生涯，從自動駕駛到強化學習理論，再到核聚變控制，最后回歸具身智能。每一次方向轉變背后的邏輯是什么？

陳佳玉：我剛開始做科研是從技術角度出發的。起初做自動駕駛的感知，后來做決策，自然而然地接觸到了強化學習。博士階段，我希望能把這個方向做深，于是轉向了偏理論和算法的設計，暫時與具體應用解綁。

到了博后階段，我又想把算法重新落地到應用層面。無論是核聚變里的等離子體控制，還是具身智能里的機器人控制，本質上都是用強化學習去求解復雜的控制問題。一旦鎖定了強化學習這個方向，我就一直在沿著它做。

DeepTech：為什么對強化學習這么情有獨鐘？

陳佳玉：強化學習起源于認知科學，后來經由 Richard Sutton 引入計算機科學。它的學習過程是非常類人的（Human-like）。如果說人工智能的終極目標是發展類人智能，我認為強化學習研究的問題比其他范式更本質。

同時，它也是一個非常綜合的學科，涉及到控制理論、統計學、優化理論，對數理基礎要求很高。這一點我也比較喜歡。

DeepTech：可以理解為你比較喜歡挑戰難題、追求本質意義上的問題嗎？

陳佳玉：關于挑戰難題，這可能是我剛讀博時的一個誤區，認為最難的東西必定是最有用的東西。但我現在的 Philosophy 是不要單純為了做難的問題而做難的問題。如果單純為了挑戰最難的問題而做研究，其實有點太自我了。我現在更傾向于從需求出發，從實用主義出發，用一個有用的技術，解決大家最想解決的問題，這才是做工程、做企業需要著力的點。

關于本質，我認為這也跟你想做的研究的最終目標有關系。我們最終要發展類人智能，所以我認為強化學習是一個有前景的方向，這是本質的。當然，做研究和做企業不同。做研究是追求用最簡潔的方式解決最本質的問題。因為解決了本質問題，影響的點會很多，所以本質也是有用的一個方面。

DeepTech：你在 CMU 做核聚變控制是非常硬核的物理科學，現在做人形機器人拿水杯是日常生活場景。這兩類問題在數學本質和決策邏輯上有什么異同？

陳佳玉：方法論是一樣的。無論是基于真實交互數據，還是基于模擬器建模，從數學本質上講，它們都可以建模成一個馬爾可夫決策過程（MDP）。

拿到一個控制問題，你都需要定義三個項：觀測是什么？動作是什么？如何評價動作的好壞？

核聚變過程和機器人拿水，都是高維、非線性的連續控制問題。傳統控制方法很難解決，而強化學習的優勢恰恰在于此。所以，它們底層的解題思路是通用的。

DeepTech：在這些階段的經歷中，對你影響比較大的人物是誰？

陳佳玉：最重要的人物是我的兩位導師，Vanita Gawva 和Joshua Tendell。

我的博士導師 Vanita Gawva 習慣把所有問題映射到數學領域，用統計學或優化理論去解釋。這讓我學會從數學原理去思考算法的可行性，看透問題的本質。

我的博后導師 Joshua Rendell 則相反，他是一個在應用和工程上做得極好的人。從他身上我學到，解決工程問題最重要的是迭代，是根據需求不斷調整。

我現在做研究，實際上是在嘗試結合這兩者：既要在理論上尋求突破，又要具備工程頭腦，通過快速迭代去解決實際問題。

DeepTech：可否舉一個具體場景，說明你如何結合兩位導師身上學到的知識？

陳佳玉：我們正在計劃做一些關于持續性強化學習的東西。持續性強化學習，是讓人工智能具有持續學習新任務的能力，也就是讓其在學習新任務的時候不忘掉舊任務，同時依托從舊任務中提取出的知識進行更好的學習。這是一個更類人的學習過程。

但它目前還只停留在理論階段。要攻克這個問題，你既要在理論方面做出突破，同時在應用的時候又要應用很多工程上的技術。我們正在做的就是這樣的事情，既在做持續性強化學習的算法，進行理論上的突破，同時又想盡快把它應用到機器人上。這個應用過程就會涉及很多工程上的迭代，這就是理論和工程的結合。

通用機器人是 AI 的珠穆朗瑪峰

DeepTech：你現在一方面在港大做教職，一方面加入原力無限這家創業公司。為什么選擇這種雙棲模式？

陳佳玉：對于我來說，這兩者是高度耦合的。我在公司也是做研究，方向和我在港大做的完全一致：通用家用機器人。

在香港做通用家用機器人研究面臨三個獨特的困境：第一是錢。買設備、買顯卡、雇員工，這是千萬級別的投入，光靠申請中期的 Funding 很難拿到；第二是地。在香港找一個 150 平米的實驗室是非常非常難的事情。第三是算力。而在產業界，這些場地、人力、算力的支持都能得到解決。我們在原力無限成立了聯合實驗室，我負責的是原型機的研究，不涉及量產和推廣。這本質上是研究能力和研究資源的互補。

DeepTech：為什么是原力無限？

陳佳玉：我覺得這是一個天時地利人和的選擇。做具身智能研究，最大的痛點往往是缺乏真實的落地場景。原力無限最吸引我的，是它已經構建了一個從商業到技術的正向循環。FORCE 系列、MASTER COFFEE 系列以及輪式人形 AstroDroid AD-01 機器人在市場上的成功，證明了這家公司懂產品、懂商業，這為我們探索更前沿的通用智能提供了堅實的后盾。

此外，這個團隊身上有一股Doer（實干家）的氣質。在這里，不管是建設實驗室還是攻克算法難題，決策鏈路非常短，執行效率非常高。這種純粹的工程文化讓我感到非常舒適。

更重要的是，我們達成了深度的技術共識。公司管理層對我給予了無保留的信任，我們都堅信：具身智能的未來在于一腦多身，在于通用的物理世界模型。所以我們為了同一個愿景——定義下一代具身智能——成為并肩作戰的創業合伙人。這些都讓我覺得，這就是我要找的地方。

DeepTech：為什么一定要做家用機器人？

陳佳玉：機器人學更像是人工智能技術的一個實驗場。如果你想做一個通用的機器人，幾乎要集齊 AI 領域所有的技術：CV、NLP、大模型、強化學習、控制理論、人機交互等等。而具身智能被認為是人工智能領域的珠穆朗瑪峰，特別是人形機器人。

從落地場景看，商業場景天花板不高，而工業場景更需要追求效率的專用機器；唯獨家庭場景，大家不希望洗碗搞個機器、洗衣搞個機器，而是希望有一個通用機器人。所以，我們決定攀登這座高峰。

DeepTech：你覺得和一些擁有更強大算力和資金的大廠相比，初創公司的機會和挑戰在哪里？

陳佳玉：必須要找到一個落地的場景，并且做得比較專精才好。你如果去拼基礎模型或者研究，可能都不會是大廠的對手。得有一條自己獨有的研究道路，足夠快的落地，足夠的實用主義才行。

DeepTech：你覺得這個場景會先發生在哪里？

陳佳玉：我覺得短期來看應該會是在 B 端。因為 B 端的成功更多依賴于政策，現在鼓勵人形機器人進工廠。但我們認為長期來看，更大的機會在 C 端，特別是進家庭。

工廠可以做各種異構的專用機器人來提升效率，但通用機器人鋪展的空間不大；在家庭場景下，大家肯定不想說洗碗的時候有洗碗機機器人，洗衣服的時候使用洗衣服機器人——大家更希望家庭里能有一個通用機器人，來解決多種任務。所以我們認為長期來看，機會在 C 端。

世界模型需要以 Agent 為中心

DeepTech：你目前最想攻克的科學問題是什么？

陳佳玉：主要有兩個方向，一是剛剛提到的持續性強化學習，另一個是以 Agent 為中心的世界模型。

持續性強化學習是針對現在的 AI 學完一個任務就忘了舊知識的問題而言的。針對一個持續的任務，我們希望 AI 能夠在即使不知道下一個任務是什么的情況下，也能主動調動已有知識庫快速學習，并且不遺忘。這是一個非常難的問題。

世界模型就是在解決一個更本質的問題。現在具身智能無非就兩套方案，一個是叫 VLA（Vision-Language-Action），一個叫世界模型。VLA 怎么做？比如你教一個機器人拿杯子，就需要手把手教它：把一個人拿杯子的序列映射到機器人動作空間。

而世界模型會教會它背后的原理。我們會告訴它：你不把這個杯子拿緊，這個杯子就會掉在地上，而掉在地上就會碎。有了這個因果模型，機器人就能明白動作背后的原因，從而更好地泛化，比如把拿杯子的經驗遷移到拿水壺上。這個機器人就可以從中學到，我是因為不想讓這個杯子掉到地上，所以我要把這個杯子拿緊。

至于以 Agent 為中心的世界模型呢，現在大家做的世界模型（比如 Sora）很多是第三人稱視角的，學的是通用的物理知識。但我們認為，世界模型是用來指揮智能體行為的。每個人心中都有一個自己的世界模型。所以我們想做強調以 Agent 為中心的建模。這兩個方向，一個是抽象，一個是因果的建模，這是我們做世界模型和別人做世界模型不一樣的點。

DeepTech：機器人需要像大模型做數學題那樣去推理嗎？

陳佳玉：這可能和大家的直覺不一樣。我認為在執行任務的時候，是沒有那么多時間進行推理的。比如洗衣服、洗碗，這些動作在熟練之后，更多像是一種肌肉記憶。它和用大模型解數學題不一樣。

推理能力可能在學習階段非常有幫助，能加速學習過程。但一旦學好之后，真正的執行過程是不大需要推理的。

DeepTech：你認為當下具身智能領域，最被高估和最被忽視的技術分別是什么？

陳佳玉：最被高估的是泛化性。現在很多 Paper 里宣稱的泛化，往往是偶然的泛化——從 A 場景換到 B 場景的過程中碰巧能用。但這缺乏理論保證，如何獲取可保證的泛化性，大家討論得不夠。

而最被忽視的是持續學習。如何做到持續學習而不遺忘？這是 Richard Sutton 和 Ilya Sutskever 最近都在提的難題，但因為技術路線不明朗，業界的討論還比較少。

數據飛輪轉起來的那一刻

DeepTech：你對未來五到十年具身智能這個行業發展有什么判斷？

陳佳玉：我不太能給出時間判斷，這是一件非常難的事情?，F在技術的發展越來越脫離原來的摩爾定律。以前你可以根據摩爾定律做時間上的判斷，比如每兩年算力會增長三倍，但現在算力起的作用越來越弱了，所以說現在對時間上的判斷其實是很難的。

但是我覺得它大概的路線是這樣的：

第一階段，機器人能夠在特定的場景下實現任務之間的泛化，這個過程我感覺應該很快就會到來，大概兩到三年吧。

下一個階段就是推廣和部署的階段。因為機器人已經能在一個場景下可靠地執行多個任務了，后面就會是降本的階段，會大量的推廣部署。大量推廣部署之后，機器人就會日夜不停地產生數據，積攢海量的數據。由此，我們就可以利用算法上的一些突破，以及這些海量的跨場景的數據，說不定可以得到跨場景的通用機器人，也就是場景泛化。所以我覺得大致會走一個從任務泛化推廣部署，再到場景泛化的路線。

DeepTech：目前具身智能也缺乏統一的benchmark 和數據集，你覺得這個問題如何解決？

陳佳玉：數據問題的話，我認為初期可以依靠數據工廠，也是靠人類去采集。慢慢的可以依賴一些機器，比如用機器在數據工廠里面進行自動化的采集。其次，我認為終究是需要有真實的客戶數據比如說有 1,000 臺機器人部署到 1,000 個家庭里，它們夜以繼日地產生數據，這將會是非常強勁的數據洪流。用更好的數據選更好的策略，用更好的策略產生更好的數據，就會形成正反饋的閉環。

實際上我認為通用機器人能不能落地，最關鍵的時間點就是數據飛輪什么時候開始轉起來。

DeepTech：你認為機器人達到什么標準，才算可以安心部署給用戶？

陳佳玉：標準就是是否能在特定場景中，長時間、穩定、有效率地完成多種任務。現在的難點在于長時間穩定。如果能做到這一點，哪怕是在單一場景下，我認為就是下一個里程碑。

先定義問題，再尋找資源

DeepTech：我注意到你 2024 年博士畢業之后，2025 年就成為了博導和首席科學家，也被貼上“少年天才科學家”的標簽，你怎么看待這個標簽？

陳佳玉：我個人認為這都不重要，我認為最重要的是，我是否解決了重要的問題，做出了重要的工作。以及我做這個方向是當前一個比較熱門的方向。更重要的,還是說你能做出什么重要的工作來,標簽不重要的。

DeepTech：在這個標簽之下，你能不能給我們分享一些面對困難的時刻？

陳佳玉：其實做研究、特別是一個人做研究，它的試錯成本是非常高的。我讀博士期間經常是一個項目成功、一個項目失敗，就這樣交替進行。因為本質上做研究就是探索不同的路的過程。你要邊探索邊思考哪條路更好，就像走迷宮一樣把那條路試出來。

但一個比較重要的點是，所有失敗過程中鍛煉的那些技能在之后都會用上。所以我認為最重要的就是，首先這是一個值得做的工作，其次你要有足夠新的想法，最后還要有足夠的堅持。我覺得這樣最后結果總不會差的，無論這個事做成還是做不成。

DeepTech：你提到了要有比較足夠新的想法和堅持，你會覺得這兩個點對你來說是比較難完成的事情嗎？很多人會覺得堅持聽上去簡單，但實際上做起來很難。

陳佳玉：現在做研究，特別是做人工智能研究，你可以得到大量很簡單的想法，然后把它做成一篇論文，這樣你能夠很快把論文數量 build up 起來。但很多論文往往都不會造成什么影響，可能反而是那種比較新、比較重要的問題，花的時間成本會很高，人力成本會很高，失敗風險也會很大。

這種時候你就得做一些抉擇了，也會很難，因為你要忍受更大的不確定性。但這種問題一旦解決，它的影響也會更大一些。

DeepTech：一邊是發文效率高但簡單的 Idea，另一邊是更重要但困難的新問題，你自己怎么去衡量和選擇？

陳佳玉：我認為做科研的核心在于目標感，你要明確自己的階段性目標和長遠目標是什么。

所有與目標無關的事情其實都不那么重要。真正與目標相關的，可能也就是那么兩三份核心工作，這才是需要花大力氣、投入 80% 精力去做的。至于剩下 20% 的精力，我會留給那些不太相關但比較有趣的工作。這主要是基于現實考量：我們確實需要文章的數量。

這里存在一個視角的差異：作為 PI，我需要的是重要的文章。但作為學生，他們首先需要能讓他們畢業的文章，以及在科研初期就能做出來、用來練手的文章。這類文章可能影響力有限，但對學生的學術生涯起步非常重要。

因此，我不能只看重那些影響很大的工作，而忽視那些相對簡單的工作。兩者都要兼顧，只要控制好比例即可。

DeepTech：作為年輕的博導，如果給想進入這個領域的學生或研究者一個建議，你會說什么？

陳佳玉：第一，先定義自己的研究問題。確保它足夠重要，然后再進行深度研究。不要盲從，不要還沒想清楚就動手；第二，找資源。在具身智能領域，資源（算力、設備、場景）不到位，你很難進行很好的研究。一定要盡量給自己找更多的資源支持。

如果年輕研究者在早期找不到真正的方向，或者無法判斷哪些問題足夠重要，我的建議是：多去研究領域內那些標桿性人物的思考方式。

這些頂尖學者通常都有自己的一套完整的研究體系，這是基于他們漫長的學術生涯沉淀下來的。去拆解和學習這些體系，是建立認知最直接的方式。

但要注意，學習不是盲從。你不能照搬某一個人，而是要多看、多想，博采眾長。你需要結合自己的思考，先構建出自己的研究體系，然后再從這個體系中去推導和定義你的研究問題。通常來說，這是一個從體系到問題的過程。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.