網易首頁 > 網易號 > 正文申請入駐

從 DeepMind 到投身具身智能，王佳楠：算法最終還是要服務真實世界｜萬有引力

2026-01-23 18:31:59　來源: AI科技大本營

北京舉報

分享至

對話 | 唐小引嘉賓 | 王佳楠

責編 | 夢依丹

出品 | CSDN（ID：CSDNnews）

通往 AGI 的終點，是代碼，還是身體？

在王佳楠看來，答案明確指向了——具身智能。

她曾在牛津大學完成學業，加入 DeepMind，從事強化學習與持續學習研究，親歷了 AlphaStar 等標志性項目的誕生，也在國內生成式 AI 尚處早期階段時，參與過統一生成框架的探索，走在 AIGC 爆發之前的科研前沿。無論是在“純算法”的巔峰，還是在生成式模型的起點，她都站在浪潮內部。

2024 年，她加入星塵智能，選擇直面一個更復雜、也更“真實”的問題：如何讓大模型真正進入機器人，進入物理世界，成為可用、可落地、可持續演化的智能體。

這意味著不再只是比拼指標、參數或論文，而是要與硬件、數據、系統協作和真實場景中的不確定性正面交鋒。

左：王佳楠，右：唐小引

在 2025 全球機器學習技術大會現場，CSDN &《新程序員》執行總編唐小引與星塵智能副總裁、前 DeepMind 研究員王佳楠展開了一次深入對話。從 AGI 的終極想象，到具身智能的現實瓶頸，從快慢系統的工程邏輯，到通用機器人的時間表與開發者應有的信念，她給出了一個既冷靜、也充滿長期主義色彩的答案。王佳楠在采訪中提到的核心觀點有：

具身智能并非機器人或 AI 的“新分支”，而是各類 AI 技術（CV、NLP、大模型）在現實世界中的統一落點；
從 DeepMind 到創業公司，本質是從“定義好問題”到“定義問題本身”；
“快慢系統 / 大小腦”是具身智能的核心系統觀，而非模型數量之爭；
數據是當前最硬的瓶頸，高質量真機數據不可替代；
世界模型很有潛力，但不是“等它完美了再做機器人” 世界模型能提供預測與提示價值，但它本身不是銀彈，也不需要完美；
VLA 是通往通用機器人的關鍵一步，而非終點；
通用機器人“走到人身邊”可能只需 2–3 年，但完全自主還需要長期演化更現實的路徑，是“可用先行、人類接管、逐步升級”，類似自動駕駛的發展節奏；
具身智能是一條漫長但值得堅持的路：這是一個需要共創的時代，個人、公司與社區必須共同積累、持續反饋，才能真正推進邊界。

歡迎收聽音頻播客，如有興趣觀看完整視頻，可在文末獲取

從 DeepMind 到投身具身智能

唐小引：大家好，歡迎收看《萬有引力》。我們今天在全球機器學習技術大會的現場，非常榮幸地邀請到了星塵智能副總裁、前 DeepMind 研究員王佳楠老師。

王佳楠老師會和大家深入分享自己的技術人生，希望能提供一些參考和共鳴，還將深入分享對于當下火熱的具身智能賽道的見解，以及她在星塵智能的實踐。歡迎王老師，您可以先和大家打個招呼，做一下自我介紹。

王佳楠：大家好，我是星塵智能副總裁王佳楠。更長的時間里，我其實是一個 AI 開發者。我 18 年在牛津大學畢業后，加入了 DeepMind 從事強化學習和持續學習的研究。疫情期間，大概 21 年左右回國，在深圳的 IDEA 研究院從事生成式 AI 的研究。24 年初，我加入了星塵智能，負責大模型與機器人的結合。

唐小引：您剛才定義自己是一個 AI 開發者，我很好奇具身智能和 AI 現在的關系。以前我剛接觸機器人時，感覺它和 AI 是兩個賽道，但現在我看到非常多 AI 領域的人在做具身智能，包括以前做 CV 的、做自動駕駛的，還有做大模型的，都在耕耘具身智能賽道。所以您認為，自己目前依然是一個 AI 開發者，這是一種融合的關系嗎？

王佳楠：對，機器人現在是我們 AI 的一個終端平臺。在過往很多年里，機器人本身也是一個歷史悠久的學科，那時候大家可能會做很多定向開發，比如完成某個固定任務。現在我們希望的是智能機器人，讓機器人變得更聰明，可以在開放環境中與人交互，完成復雜的任務。所以在這一波浪潮中，AI 變得非常重要。包括做 CV、NLP 等各個領域的 AI 從業者，都會把機器人當作一個終端平臺進行開發，以實現智能機器人的最終目標。

唐小引：您是怎么選擇這個賽道，為什么投身具身智能機器人的？

王佳楠：這要從很久之前說起。我 18 年從牛津畢業加入 DeepMind 時，公司當年的目標就是 AGI。在那個年代，很難想象，AI 并不是一個非常流行的詞匯，很多人不相信甚至不知道 AGI 是什么。在公司內部，關于大家心目中的 AGI 是什么，也有非常多的討論。當時有很多派系，比如討論 AGI 是否需要一個機器人的身體？如果不需要，它需要解決什么樣的問題？觀點非常多樣。那時我就在思考，在我心目中 AGI 意味著什么。隨著這些年 AI 技術的發展，我看到了機器人更多的可能性，也慢慢覺得這才是最終目標。對我來說，AGI 就是智能機器人，所以就收斂到了這個賽道。

唐小引：所以，我們現在討論的通往 AGI 的路徑，它的終局是具身智能嗎？

王佳楠：不同的人會有不同的觀點。但對我，或者對一批開發者來說，這會是一個終極的幻想。人類幻想這件事已經很久了，在各種科幻小說里，都希望有智能機器人來幫忙做事。它可能作為朋友，扮演不同的角色，在我們的生活中占據重要位置。

DeepMind歲月：見證 AlphaStar 的誕生

唐小引：您和機器人的結緣是在 DeepMind 嗎？

王佳楠：在 DeepMind 時，我開始思考關于 AGI 的問題。當時 DeepMind 也有自己的 Robotics Lab。我去做了一些調研，看看他們在做什么。那時候大家主要是在做摞小方塊之類的任務，比如把紅色的方塊放在藍色的上面。當時我的想象力還沒有完全打開，感覺機器人非常受局限。但是，近些年國內硬件的發展，尤其是我看到了星塵智能的機器人之后，思路突然被打開了。機器人其實可以更自然地出現在我們生活中，能做更多的事情。

唐小引：您有三段主要的職業經歷。可以先談談您從牛津大學畢業后，是如何加入 DeepMind 的嗎？對于國內所有做 AI 的人來說，那幾乎是一個信仰般的地方。

王佳楠：加入 DeepMind 對我來說是一件很自然的事情。對于很多人來說，心中都會有一些圣地，當時在英國讀書的我，也覺得那是一個非常了不起的地方，希望加入其中做研究。讀書期間，牛津組織了一些活動，可以去 DeepMind 參觀，和里面的科學家交流，當時深受鼓舞，覺得有機會一定要加入。剛好畢業時確實有這樣的機會，所以很幸運地加入了當時的浪潮，去從事研究。

唐小引：您是在 AlphaGo 之后加入 DeepMind 的。能否和我們分享一下，您在 DeepMind 期間主要參與了哪些研究方向或項目？

王佳楠：我加入的時候，AlphaGo 項目已經完成了。我大概是 18 年加入 DeepMind 的。那時我們做了很多用 AI 打游戲的工作，以此作為驗證平臺，來驗證強化學習方法是否能通用，是否能像人一樣做決策。我見證了“AlphaStar”打星際爭霸的過程，那是一個非常大型的游戲，對很多游戲玩家來說是一個圣杯。我們將強化學習應用在這樣一個需要大規模交流、協作和復雜決策的游戲當中。我見證了它的誕生，以及它逐漸向更通用平臺擴展的過程。我們不止是打一款游戲，而是希望設計一個足夠統一的框架和學習方法，讓它在不同游戲中都能表現出色。這就要求模型有更高的智能、更強的適應能力，對模型和數據的要求也更高。我在不斷追求通用的這條路上參與了一段時間。

回國發展：從純粹研究到追求落地應用

唐小引：那您后來為什么選擇回國呢？我看到很多 AI 科學家、研究人員或開發者會一直留在海外發展。

王佳楠：原因有很多。第一是時代原因，21 年左右正好是疫情期間，大家都在遠程工作，所以我就回國了。回國后，我見證了國內有非常多不錯的 AI 公司和 AI 成果，這是其一。

其二，在 DeepMind 做了三年之后，我個人的心態也發生了一些變化。當時的 DeepMind 本身不做任何應用，它有專門的部門叫“DeepMind for Google”負責做應用，但英國的 DeepMind 只做純算法開發。那是一段非常有趣且令人鼓舞的旅程。

但在經歷了三年之后，我希望能更多地接觸和解決真實世界的算法問題，因為算法最終還是要服務于我們的生活。那時我個人的心態和追求的目標發生了一些變化，剛好有這樣的時機巧合，就決定留在國內發展了。

唐小引：所以作為一名研究者，您還是希望自己的研究能更多地進入真實場景，實現落地應用。您回國后加入了 IDEA，但它本身也是一個偏研究的機構。

王佳楠：研究是其中的一部分。但當時 Harry 沈院長（沈向洋）有更高的目標，他希望我們能真正孵化出一些獨角獸公司，為社會做貢獻，這也是他成立研究院的目標之一。在他的藍圖中，研究院處在一個把研究轉化成產品、創造影響力的重要階段。所以，它既有很重的科研成分，也有很強的商業化目標。

唐小引：您在 IDEA 是在機器人中心嗎？

王佳楠：計算機視覺與機器人中心。

唐小引：在這段經歷中，您做出了哪些自己認為是重要成果的成就？

王佳楠：我的成果主要是在生成式 AI 方面。我當時負責生成式 AI，包括現在大家熟知的文字、圖像等視覺領域，其中視覺包括圖片、視頻、3D等。當時生成式 AI 還處于初期階段，不像現在 AIGC 這個詞這么普及，有這么多投入。那時還是以科研探索為主，希望能夠用更統一的框架去解決不同的生成類問題。所以，當時主要是在算法推進方面做了很多嘗試并取得了一些成果。

唐小引：那星塵智能是什么吸引并打動您加入的呢？

王佳楠：首先，我和我們的聯合創始人戴媛是十多年的好朋友。我們當年在美國認識，她在 UIUC 讀本科，我在港中文讀本科，去那邊交換時認識的。她一直是一個非常有激情的人，也一直在從事機器人相關的研究和探索，所以我們定期有很多交流。我當時更偏 AI，而她有很多機器人的視角。她回國后在騰訊的 Robotics X 也是做機器人方面的研究。在交流過程中，我逐漸發現機器人行業在走向成熟，尤其是硬件方面有了非常大的進步。后來她與來杰一起創立了星塵智能。

當我親眼看到他們的硬件原型時，那一刻我的想象力被點燃了。我從未想過機器人的動作可以如此靈動、絲滑，展現出近乎人類般的通用操作潛能。正是因為這種技術突破帶來的震撼，再加上時機、團隊的人，還是產品的初代，都非常吸引著我，于是我決定加入他們。

唐小引：我看星塵智能的機器人發展得非常快。我算是見證了它從無到有、從零開始的過程，直到現在，它的速度讓我有些驚嘆。不知道你們內部是怎樣的節奏，才能從外部看來有如此驚人的發展速度？

王佳楠：的確，我們是一家比較年輕的公司，但我們的產品形態和成熟度都已經非常不錯了。我們現在也在對外發售，并且有很多人嘗試過我們的產品。對于一個需要多學科合作來制造機器人的公司來說，這個速度的確很快。

我們內部，第一是團隊非常多元化，且在這個行業里有非常長時間的積累，技術本身不是一蹴而就。其次，我們非常注重多團隊之間的協作。因為我們既有算法、軟件，也有硬件、結構，會涉及到非常多的問題，所以緊密的創業精神非常重要。大家抱著“要解決這個問題”的最終目標去合作，而不是單獨負責一個小模塊，完成一個小目標。這樣的創業精神讓大家聚集在一起，調用自己過往的知識去合作完成最終的產品。

唐小引：所以星塵智能讓您在具身智能之路上，從軟硬件、從本體到整個系統，都得到了更深入全面的了解。

王佳楠：沒錯，我從一個純軟件開發者，到現在開始與機器人結合，甚至要去關心機器人的數據如何產生，產生后要進行什么處理，以及如何獲得高質量的標注數據，整個全流程到最后的機器人算法部署，都學習到了非常多。

唐小引：有什么頓悟和迷思嗎？

王佳楠：頓悟是，我覺得對我來講，機器人是我要追求的理想和目標，這個信念感非常重要。機器人研發涉及復雜的軟硬耦合，任何一個硬件環節的變量都可能帶來挑戰，這與純粹的 AI 開發邏輯完全不同。

以前做算法研究，問題通常是預設好的，數據已經過清洗，開發者的目標非常純粹——即在既定指標上刷新 SOTA（最優性能）。回想起來，那是一個相對“真空”且定義明確的環境。

但在具身智能領域，開發者必須從“解題者”轉變為“全流程定義者”：機器人的任務場景由你定義，數據的采集方案由你設計，模型的適配性也由你把控。你需要從最終的交互結果出發，反推所需的硬件部件、系統協作，并精準定位鏈路中的瓶頸。這種從全局出發、應對高度不確定性的開發模式，正是具身智能最迷人也最具挑戰的地方。

唐小引：您說的全流程，是現在創業公司的普遍情況，還是說在大廠里依然是每個模塊分開負責？

王佳楠: 機器人一直是一個對動手能力要求比較高的行業。目前，大部分機器人 AI 公司都偏創業型，或是在大廠里也是比較年輕的團隊，所以行業的標準還沒有特別完善。我相信，或多或少大家都會在全流程中體驗各種問題，去不斷塑造我們希望達到的標準。這是一個在演化中的過程。

技術厘清：具身智能的“快慢系統”

唐小引：我前面說，跟很多具身智能從業者一聊，全是問題，讓我有點喪氣。

王佳楠：所以信念很重要。

唐小引：的確，長期主義的信念是底色。作為觀察者，我想請教一個核心概念的厘清：您今天提到的“快慢系統”，在 LLM 語境下通常被稱為 System 1/System 2，而具身智能領域更習慣稱之為“大小腦”。這是否意味著，目前具身智能圈已經將大模型的認知框架與機器人的底層邏輯進行了跨界統一？

王佳楠： 無論是“快慢系統”、“大小腦”還是“System 1/System 2”，其背后的邏輯架構和系統目標是高度一致的。其核心在于區分決策的深度：復雜任務需要深度的邏輯推理，過程較長且慢；而基礎動作或直覺性任務（如行走），則由快系統直接響應，無需占用高階計算資源。

在工程實現上，快慢系統更多是一種“功能定義”，而非固定的物理模型限制。它既可以通過單一模型在不同模式間切換實現，也可以通過多模型協作完成。我們可以通過預設邏輯引導模型在處理高難度任務時觸發“慢思考”；也可以讓模型在訓練中自主學習判斷介入推理的時機。此外，該架構具備高度的可擴展性，例如通過接口為慢系統調用外部更強大的模型，以應對特定的復雜場景。

唐小引：您可以圍繞快系統展開分享一下嗎？我之前很困惑，比如現在有一些專用的具身智能機器人能滿足干體力活的需求，但大家可能想要的是像人一樣，在任何場景下，屬于行動類的任務都能直接做。但現在具身智能給大家的感覺，更多的是在執行一些預設任務，對于一些臨時需求，可能沒辦法很好地執行。如果具身智能要類比人，那么實現小腦這樣的目標可能會非常遙遠。不知道現在我們進展到哪一步了？

王佳楠：關于“快系統”或“小腦”的功能，我們普遍將其定義為無需語言中介、由直覺驅動的基礎運動能力。例如，抓取桌面上的單一物體，這屬于一種非決策性的反射動作。

在人類日常行為中，存在大量的“原子動作”（抓、拿、推等）。對應到機器人訓練上，快系統的核心任務就是通過海量的動作片段數據進行預訓練，構建機器人的“動作基元庫”。這非常類似于人類的早期發育：嬰兒在產生復雜認知前，首先要通過運動來感知并適應自己的身體，將抓握、伸展等動作內化為本能。

目前，我們內部已經積累了大規模的機器人運動語料。快系統并不需要理解動作背后的語義邏輯，它只需要明確自身的“能力邊界”，即知曉自己能完成哪些物理軌跡。只有當快系統具備了這些成熟的原子技能，后續接入的“慢系統”（大腦）才能作為指揮官，通過高層指令精準調用這些動作，實現從“意圖”到“執行”的閉環。

技術瓶頸與探索：意圖理解、模型架構與數據

唐小引：那怎么把我作為人類的意圖和需求，精準地讓機器人去執行呢？我們希望的肯定不是預設好的任務。

王佳楠：這是非常重要的一個問題，就是人類意圖的表達。要讓機器人理解非預設的復雜需求，核心在于意圖表達的顆粒度。

目前，VLA 模型主要依靠“語言指令-動作映射”來建立聯系。然而，純語言交互在面對精細任務時顯得有些力不從心。回顧 AIGC 的進化史，從最初的文本描述到后來引入位置、輪廓等具體約束，控制力得到了質的飛躍。

這種邏輯完全可以復刻到機器人身上。除了“說出需求”，我們還可以引入更直觀的控制接口：比如給機器人畫出一個大致的運動軌跡，或者設定空間約束。通過這種“語言指令+多模態提示”組合，我們能極大地增強機器人對人類真實意圖的捕捉能力，從而應對更具動態挑戰的現實場景。

唐小引：我們接著聊一聊大腦。我聽到很多人表示，基于 Transformer 架構的 AI 大腦，可能模型本身能力強，不代表在具身智能機器人上也一樣強。經常聽到具身智能領域分享技術瓶頸時，會提到模型架構、數據和計算等方面。如果說模型架構的局限性是具身智能的瓶頸，那現在探索和解決方案的可行方向是什么？

王佳楠：模型架構方面，大家在做不同的探索。最常見的是用一個 Transformer 搞定，遵循現在 VLM（Vision-Language Model）的框架。還有一些方案是外接一個世界模型，這個世界模型可能是 DiT（Diffusion Transformer）或 Diffusion 模型，對未來做一個預測，再把這個預測以某種方式接到下層的執行模型中。

你也可以去提取更多的動作提示，比如做圖片生成、軌跡生成，這些也可以用專有模型來做。所以架構上，我覺得比較重要的是有一個相對完善的系統，可以開放地接受不同形式的提示或人類意圖。我們希望最終一個模型能搞定所有事，但現在受限于您剛才提到的數據等層面的問題，當前可能還完成不了。但我們可以去調用更強的模型來補齊這方面的知識和能力。所以整個系統層面的要求會更高，而對于單一模塊，模型架構和數據能力會在各自領域不斷提升。那些提升如果能被機器人這一側直接用到，就是比較理想的狀態。

唐小引：星塵智能在數據這塊，是不是仿真的占比較少？

王佳楠：我們目前用仿真比較多的是在做數據增強。

唐小引：大家在解決數據瓶頸時，可能會通過合成數據等方式。現在這方面存在共性瓶頸，但在技術路線上，好像又沒有形成比較公認的方案。您對這塊的思考是怎樣的？

王佳楠：因為行業還處于初期，大家都在探索階段，的確共識性沒有那么強。但大家大概知道一些重要的模塊和可行的方案。我相信星塵智能、其他公司、高校以及科研機構，大家都在這個方向上努力，我們會逐漸收斂出比較行之有效的路徑。

目前來講，共識是大家都知道數據重要，而且一定需要最高質量的數據。因為在真實應用時，機器人需要真的去交互，可能會操作非常精細的物體，所以我們必須要有高質量的真機數據。在這一塊我們做了非常多的優化。

仿真數據方面，我們和高校合作，也會做一些數據的生成和增強。“增強”的意思是，我采集了一條真實數據，這條數據在仿真中一定是真實可接觸的，因為是我親手采集的。然后我可以在仿真中把它變成一千條、一百萬條數據，比如對背景、光照、材質、顏色做一些調整，這些都是非常有效的。還有一些是純仿真生成的數據。當交互不復雜時，比如抓放一個東西，這類數據也可以相對高質量地產生。但如果你要做更復雜的事，比如拿著鑰匙開鎖，或者疊衣服，這些就比較難仿真。這就要看仿真軟件的進步和大家的持續探索能產生什么樣的結果。但它也是一條可行的路線，取決于你的任務難度。最后就是我們廣泛積累的互聯網數據，這方面大家也都在做廣泛的收集和探索。

唐小引：積累的互聯網數據能解決具身智能的痛點嗎？

王佳楠：它能解決一些偏上層能力的痛點。比如要完成一個長時序的任務，可能會有步驟 A、B、C、D，這些是可以通過互聯網數據補齊的。再比如，我要操作一個物體，最基本的能力是，當人給我指令說“拿杯子”，它首先要知道杯子是什么，杯子在哪兒。而且人經常會說得很模糊，比如“幫我拿一個紅色的東西”，“幫我拿一個熱量比較低的飲料”。這些對于需要和人交互的機器人模型來說，對上層語義的理解要求非常高。所以，長期積累的互聯網數據還是能夠解決不少問題的。

世界模型：通往 AGI 的路徑，還是哲學問題？

唐小引：在 AI 數字世界里，大家之前很苦惱于提示詞怎么寫才能精準表達需求，現在上下文工程很流行。在 AI-Coding 領域，現在有些工具會直接把你的模糊需求進行增強，再輸出更精準的結果。在涉及到從數字世界到物理世界的具身智能領域，又是怎么做的呢？

王佳楠：您剛才講的這一塊是非常有效的路徑。人的輸入是不可控的，指令可以非常自由。那我們可以有一個專門的模塊來翻譯你的指令，把它翻譯成機器人可能“見過”的、更直接的指令，這是一個有效的方案。

但現在更多的情況是，大家直接利用一個預訓練好的 VLM 模型，它本身就自帶對這類指令的理解和增強能力。這樣就可以先不考慮這一層的復雜度，直接把你的指令翻譯成機器人的動作。

這最終還是取決于你的場景。

我們希望機器人最終能在真實場景里做我們希望它做的事。如果這個場景需要非常多的與人交流交互，那你就需要把這一塊做強。可能需要翻譯模塊，也需要對話能力，不只要有動作，還要同時輸出與你的交互內容，比如語言。但有些場景，比如我在咖啡廳打工，前面已經有人接單了，我的任務就是做不同的咖啡，在這種不需要經常和人交互的場景下，可能就不需要那么強的指令理解能力。所以這很看場景。機器人基本都會有權衡（trade-off），比如速度、復雜度，以及動作完成的精準度，它們之間經常需要取舍。大家在真實場景中需要考慮這些問題。

唐小引：剛才聊到世界模型，今年這個概念非常火。有一個言論是“世界模型是通往 AGI 的路徑”，這會是大家的共識嗎？

王佳楠：純屬個人觀點，這未必是一個共識性的結論。這可能出于我之前的一些經驗考量。當時還在 DeepMind 的時候，大家會做很多打游戲這樣的任務，用到了非常多的仿真。那時大家就會討論，這個仿真什么時候可以做到完美？做到完美我們就有世界模型了。

但有一個可能偏哲學的觀點是，如果你已經能夠完美地仿真出這個問題所處的環境和復雜度，那這個問題你其實已經解決了。這是一個雞生蛋還是蛋生雞的問題。你很難說我可以等到有了一個完美的世界模型，然后我的機器人就可以變得更好。這個世界模型能否完美地存在，本身可能是一個問題。但它也許并不需要完美，能解決一部分問題就行，比如給你一個大致的提示。這一點還是非常可行的，因為近些年我們看到視頻生成模型已經變得越來越強。當然它在物理真實性方面還有提升空間，但的確已經有很多不錯的成果了。如果持續發展，它確實可以為我們的機器人提供一些比較好的提示，這是可行的。當然，還需要去優化速度，以及它跟機器人的真實交互接口。但這是一條比較簡潔且看起來很有潛力的方向。

唐小引：您覺得世界模型有哪些是可行的方向，又有哪些是當前您看到的泡沫或者誤區？

王佳楠：首先，我認為世界模型是一個可行的、且很有潛力的方向，我們跟高校的合作其實也在探索和推進這個方向。至于泡沫或者誤區，現在很難一下子就判斷。因為問題的多元性太強了。如果你是讓大模型解一個數學問題，那問題非常清晰，有對有錯。但對機器人來說，它所處的場景和需要解決的問題非常多元化，可能會有不同的技術方案對某個特定問題行之有效，但對更廣泛的問題可能并不適用。但這不意味著它就是泡沫或誤區，因為它確實也能解決一些問題。所以，我現在的觀點是：能夠解決問題的就是好方向，取決于你是否定義好了你的問題。

VLA 與通用機器人的愿景

唐小引：具身智能體和數字世界的 AI Agent 有什么異同？之前前 OpenAI 的研究員吳翼老師曾說，具身智能體的實現，前提可能是要先解決 VLA 和硬件的問題。您對此有什么思考？

王佳楠：具身智能體不是我的主要方向，我們做 VLA 做得比較多，這取決于怎么定義“智能體”。

現在大家說的 AI Agent 更多的是指有很多專用模型，它們之間可以基于不同場景互相調用，串聯起來解決一個問題，這可能是我比較狹隘的理解。在這方面，我的實操經驗不多。但我們之前確實嘗試過調用不同的模型來解決機器人問題。比如李飛飛他們的團隊也會做類似的事情，調用一些感知類的模型來解決定位問題，這些是可行的，也是行之有效的。

唐小引：剛才聊到 VLA，我看到一個觀點說，VLA 是自動駕駛以及具身智能的終極解決方案。您怎么看這個觀點？

王佳楠：終極解決方案，這要看“終極”指的是什么。從我個人觀點來看，我認為它是通向終極的非常重要的一步，它為機器人配備了通用的能力，這是非常重要的一件事。但在下游應用中，還是會需要一些特定的設計或改動。當然，這兩者并不沖突，它是在 VLA 的基礎上再演化出一些新的結構與功能。所以我同意，它是通往終極的一個重要的里程碑。

唐小引：您理解的具身智能終極，是不是就是我們大家之前呼喚的通用機器人？它到底還有多遠？

王佳楠：這個問題還蠻難回答的。我認為，我們對通用機器人的想象，是它在我們身邊幫助我們做很多事，是我的助理、管家，或者清潔人員，它會有不同的角色。

我認為這樣的通用機器人走到我們身邊，可能需要的時間比較短，大概 2 到 3 年。但它是不是一個純自主的機器人，這有待商榷。

我不認為在短短的時間內，我們的模型能夠達到足夠的魯棒性和安全性，來真正完全自主地完成我們交代的一切。所以我們公司包括我個人的觀點，還是跟自動駕駛一樣。首先，機器人作為一個產品，它要在你身邊，有自己的使用價值。就像車一樣，有沒有自動駕駛功能，它都是車，你都可以用。自動駕駛是為它配備了一定的智能性，這個智能性一定是在不斷演化升級的。當它走到我們身邊時，一開始我們可能需要去接管、去幫助它、去教它，這些都是可以接受的。在這個過程中，它會慢慢地演化出更高的智能、更高的準確率和魯棒性。我覺得這需要經過一個漫長的時間迭代。

唐小引：這個漫長的周期是多久？

王佳楠: 周期長短看你的需求。比如你要百分之百的正確率，并且是在你定義好的一千萬個任務上。當你的目標清晰時，這主要就是一個數據和模型訓練的問題，問題還沒那么大。

如果數據采集足夠快，大家共同創建一個數據中心和數據來源，我覺得 3 到 5 年我們可能會有非常完整的數據，覆蓋日常生活中各種各樣的場景。但如果你的問題不確定，比如今天是一萬種任務，但生活中可能會有各種各樣的可能性演化出更多任務，或者在其他場景下有不同的交互模式，那這個迭代過程可能就要不斷地持續下去。

未來方向：人機交互、多模態數據與降低門檻

唐小引：圍繞具身智能當前的技術發展，除了剛才提到的，您覺得還有哪些很關鍵的方向或問題？

王佳楠：關鍵的方向和問題，比如剛才講到的世界模型、快慢系統，這些都是大家已經在廣泛探索的。

唐小引：還有哪些是大家目前沒太注意到，但未來可能會成為廣泛探索方向的？

王佳楠：其中一個是與機器人的交互。交互這塊包括它如何理解我的意圖，如何與我溝通交流。當它自己碰到問題時，會不會主動發出信號說“我現在不知道該怎么辦了”。因為它畢竟不像手機是我們熟悉的產品，所以需要去不斷定義交互方式，并解決里面的科學問題。

第二，從訓練模型的角度，我們希望數據可以更加多元化、多模態。我們最近跟 MIT 的合作也在思考，人做事的時候其實不是非常被動的，我們會有主動的關注點轉移，會有更多的模態感知，比如我們的觸覺，我們大致知道自己使了多少力。所以，更多模態的數據收集，以及如何把這些數據應用到模型中，也是非常值得繼續探索的問題。這是兩個例子。

唐小引：我剛才聽您演講時，用一句通俗的話來理解，您想做的事情是“把具身智能的門檻打下來”。

王佳楠：在一定程度上可以這樣理解。

唐小引：您覺得截止到目前，距離您的目標完成了多少？

王佳楠：在我心目中，可能進度在 50% 左右。

首先是“打磨”階段，我們先在內部用順手，然后推向高校。目前有很多合作伙伴在試用我們的機器人，我們也在同步觀察他們的使用習慣，看看實際會碰到哪些坑。現在的反饋是，門檻對他們來說不算高，大家能基于這個平臺做非常深度的算法開發。

接下來是商業化落地。現在還是我們幫客戶去驗證某些場景能不能跑通，但下一步，必須得讓客戶自己能輕便地去驗證。只有客戶能自主驗證場景、方便地進行二次開發，商業側才算真正成熟了，這是非常關鍵的一步。

再往前看，才是面向極客這類的普通用戶。這類人的畫像其實跟科研用戶挺像的，實操能力極強，愛探索。

所以我覺得“科研”和“極客”這兩端目前的進展還不錯，雖然還有提升空間，但最考驗我們的還是中間的商業應用。這需要我們的交互界面做得足夠友好，怎么讓一個完全沒有背景知識的人也能上手即用？這是我們接下來要猛攻的方向。

落地挑戰與給開發者的建議

唐小引：您在星塵智能本身也會很關注機器人具體的應用落地環節嗎？會實際參與嗎？

王佳楠：老實講沒有那么多。我們會去關注終端場景，因為我們在內部做預訓練模型，比如 VLA 模型，就是要服務于下游場景的。所以在這個層面我們很關注。但我們有更專業的同事在做不同場景的實際測試。

唐小引：那通過您的觀察和交流，有看到在 To C 和 To B 的實際應用落地時有什么樣的挑戰嗎？有哪些是讓您覺得比較棘手的？

王佳楠：在實際落地過程中，我的經驗可能沒有那么多，只能分享幾個道聽途說的，聽我們同事分享的也非常有意思。有些點真的是要走到實際場景中才會碰到。比如我們去養老院，跟老人家交流，做一些他們關注的任務。然后發現了一個非常有意思的小細節：我們那個機器人的夾爪開合非常快。這是為了服務于快速控制，能夠做拋接這類高動態的任務，是我們設計的一個優勢。但是在養老院，因為夾爪開合快，會有聲音，可能會嚇到老人家。這是一個非常實際的小問題，是在這個特定場景里才會碰到的。諸如此類的問題在不同場景中會有不同的體現。當然，更多不那么偏向與人交互的，比如商業型或任務驅動型的場景，挑戰可能更多的是需要力觸覺反饋、需要做精細操作，或者在比較密集的一堆試管中抓到想要的那一個。這些是靈巧性和精準度的挑戰。

唐小引：您剛才舉的養老院的例子，后面的解決方案是什么？

王佳楠：這應該會有不同的解決方案，是我們同事在持續跟進的。我覺得在機器人領域，很多問題沒有是非對錯，而是一個取舍。

唐小引：最后，對于年輕的，或者想要觀望、投身具身智能的開發者，您有什么建議或心得體會可以分享嗎？

王佳楠：我覺得一件非常重要的事情是，具身智能是一個非常有前景，但也很長的一條路。這個過程中一定會碰到非常多的問題，所以希望大家能有信念感，去關注自己的目標是什么，需要解決什么樣的問題，并對自己當前碰到的問題有一定的耐心和容忍度。因為你在創造歷史，這不是一條之前大家都走過的路。

其次，要抱著一個共創共贏的心態，我們公司也是如此。因為整個市場未來的預期非常大，而這個問題不是一個人、一個學校或一個機構能夠短期內自己解決的。我們需要集合大家的力量，尤其是前沿開發者的力量。我們需要不斷地收集反饋，了解有什么困難，無論是從硬件層還是算法側。當這個強大的社區建立起來之后，每個人都是其中的貢獻者和受益者。所以希望大家可以多進行交流，多反饋，一起抱著共贏的心態來解決問題。

唐小引：我之前聽別的專家提醒，要對熱技術有冷思考，說具身智能是一個“一將功成萬骨枯”的方向，所以如果要投身，一定要想清楚。您的側重點更像是在這個方向上如何堅持下來。

王佳楠：對，其實不沖突。你確實要先想好，自己是不是有這樣的信念，是不是真的想解決這個問題。一旦你確定了，就請多多堅持，多一點耐心。

唐小引：好，謝謝王佳楠老師為我們帶來的精彩分享。我們今天的節目就到這里，謝謝大家，我們下期再見。

↓想要觀看完整視頻的小伙伴可戳~

關于《萬有引力》：

這是由 CSDN &《新程序員》執行總編唐小引主理的對話欄目。技術趨勢多變，一不留神總擔心錯過。正在發生的技術事件，對于我們開發者意味著什么？我們面臨的諸多困惑從何尋找答案？《萬有引力》即志在于此，直面事件與困惑，抽絲剝繭，解讀技術真相。

欄目定位：一檔面向開發者群體，聚焦解讀技術真相的對話欄目。
視頻觀看平臺：CSDN 視頻號、CSDN 網站 & App
多形式：文章、視頻、音頻都會有，持續關注 CSDN 公眾號都可獲取，歡迎大家關注！

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.