網易首頁 > 網易號 > 正文申請入駐

硬氪專訪｜商湯聯創王曉剛帶隊具身智能新業務，要幫機器人重新理解真實世界

2025-12-15 09:33:18　來源: 36氪

北京舉報

分享至

作者｜黃楠

編輯｜袁斯來

在AI行業，商湯科技已經是家成立11年的公司，早已習慣一次次浪起浪涌。

在視覺AI崛起的時代，它從港中文實驗室跑出、叩開規模化落地的大門。但To B業務從來不是一份輕松活，包括商湯在內、絕大部分公司不得不應對客戶長期定制化的開發需求。

直到ChatGPT橫空出世，所有公司集體轉向大模型。在算力層面先走一步的商湯，找到了施展空間。根據商湯年報，其生成式AI 2024年收入為24億元，占比由2023年的34.8%提升至63.7%，成為商湯科技最關鍵的業務。

但大模型狂飆3年后，一個實際的問題出現：“除了特定場景的單點突破，AI如何真正走進物理世界、成為改變生產生活的實用工具？”

這也是商湯在每一次技術迭代中都在追問的核心命題。

隨著具身智能成為下一代AI革命的主賽場，近日，大曉機器人公司成立，由商湯聯合創始人、執行董事王曉剛出任大曉機器人董事長，正式入局具身智能戰場。

王曉剛告訴硬氪，大曉機器人成立的初衷，并非是跟風“本體內卷” 或 “復雜技能炫技”，而是要回歸真正的痛點，并提出“以人為中心（Human-centric）”的全新研究范式。在提供專注于構建能理解物理世界規律的“大腦”基礎之上，最終輸出一個適配真實場景需求的軟硬一體產品。

這也是行業趨勢。去年尚在探索移動穩定性與適用場景的具身智能行業，短短一年，已是截然不同的景象。有公司拿下動輒數億元的訂單，走進深圳、上海、蘇州的機器人工廠車間，讓具身智能不再只是To VC的故事。

AI技術演進正在從“數字智能”走向“物理智能”。身處其中的老牌AI公司們，會發現自己身處又一次重要轉型中。

商湯2025年上半年凈虧損為11.62億元、同比下降50%，研發投入也還在增長，它需要找出更落地的方向。

通用智能的突破，不在于一步登天的AGI幻想，而是從真實交互中沉淀可復用的能力。機器人的終極價值不在于形態的酷炫，而在能否解決實際物理世界的難題。從視覺AI、大模型再到具身智能，商湯以大曉機器人為支點，正試圖撬動的，不僅是一個千億級的具身智能市場，還是AI與物理世界深度交互的可能。

以下是硬氪同王曉剛的對談實錄，內容經編輯：

不做單純的具身大腦公司

硬氪：今年被普遍認為是具身智能落地元年。為什么商湯會選擇在這個節點成立大曉機器人切入具身賽道？

王曉剛：主要基于產業化落地與技術范式兩個維度的考量。

在產業化方面，具身智能是一個規模達數十萬億級、乃至更大發展空間的廣闊賽道。正如英偉達創始人黃仁勛所言，未來每個人都可能會擁有一個或多個機器人，其數量有望超越手機，而單體價值可與汽車相媲美。

對商湯而言，過去我們聚焦To B軟件領域，若要進一步擴大企業規模，實現軟硬結合的業務升級，機器人賽道的垂直整合屬性是重要突破口。同時，基于此前在各垂直行業的積累，團隊理解用戶痛點與需求，相較于對場景理解不足、難以解決實際問題的具身企業，商湯的場景落地能力更受期待，產業化推進速度也有望更快。

從技術范式來看，傳統具身智能的發展存在明顯短板。

機器人本體硬件發展迅速，但 “大腦”端的智能能力相對欠缺，核心問題在于采用了 “以機器為中心（Machine-centric）” 的技術路線；即先設計形態、參數差異巨大的各類機器人本體，再通過本體采集數據訓練通用模型。這種思路并不成立，正如自然界中人與動物無法共享同一大腦，不同結構的機器人如靈巧手、夾爪、不同數量的機械臂等，也難以適配統一模型。

硬氪：大曉機器人團隊所采用的技術方案有何差異性？

王曉剛：我們提出的是 “以人為中心（Human-centric）” 的新的技術范式。先研究人類與物理世界的互動方式、運動規律，通過穿戴式設備、第三視角設備等多元工具，結合視覺、觸覺、力學等多維度數據，記錄人類在真實生產生活中的行為、尤其是復雜的常識性行為。

通過將上述數據輸入世界模型，讓模型深度理解物理世界規律與人類行為邏輯，從而構建出強大的機器人“大腦”。同時，成熟的世界模型反過來還能指導硬件設計，讓硬件形態更貼合實際應用需求。

今年八九月份，特斯拉、Figure AI等企業宣布摒棄真機路線，轉向基于第一視角攝像頭的視覺方案，但其本質僅是通過視覺記錄人類行為，并未涵蓋力、觸覺、摩擦等關鍵維度，但這些維度正是具身智能與物理世界發生三維接觸的核心需求。

僅靠視覺技術，機器人可實現跳舞、打拳等模仿類動作，但在挪瓶子、擰螺絲等需要與物理世界交互的場景中，難免面臨技術瓶頸。

目前，大曉機器人所提出的Human-centric范式已得到了實踐驗證。此前，大曉機器人核心教授成員劉子緯教授團隊合作構建了一個EGO life數據集，包含300小時第一視角與第三視角的人類真實行為數據；期間，基于該數據集研發的具身視覺模型，經實測，可以有效解決現有數據多為簡單無意義行為、難以支撐復雜運動學習的痛點。

大曉機器人團隊成員：一排從左往右依次為李鴻升、陶大程、王曉剛、潘新鋼；二排從左往右依次為呂健勤、趙恒爽、劉子緯、劉希慧（圖源/企業）

硬氪：公開數據顯示，2024年中國具身智能市場規模已突破8000億元，近兩年具身領域涌入了數百家初創主體。在這一背景下，大曉機器人對自身在行業的生態位是怎么定義的？

王曉剛：大曉團隊的最終目標，是輸出軟硬一體的產品，能針對性解決各場景下的實際問題，而不是單純做模型的公司。

在這個過程中我們發現，現有硬件設計往往難以匹配場景需求，這也推動團隊走上聯合研發、定制化制造硬件的道路。

以機器狗產品為例，業內傳統機器狗的攝像頭視角窄、安裝位置低，導致其在路口無法精準識別行進方向，過馬路時難以捕捉紅綠燈信號。我們與Insta360合作了一款全景相機模組，能實現360度全視角覆蓋，解決視野局限問題。

此外，當前不少機器狗仍存在防水性能不足、算力平臺成本高、續航能力有限等痛點，均無法滿足實際場景的常態化使用需求。

硬氪：聯合開發的具體落地中，雙方的合作模式是怎樣的？

王曉剛：我們的強項在于大腦端的模型、導航能力、操作能力。過去，公司雖然有B端的軟件服務、大裝置提供底層設施，但在端側并未形成標準化的產品形態。

依托前兩年商湯投資布局的多家本體硬件及零部件企業，大曉團隊采用生態合作模式，提供硬件設計規范、跟伙伴聯合設計和開發硬件本體；同時，在模型端我們也保持開放態度，提供基礎模型和素材方案。

硬氪：商湯在安防、自動駕駛等領域有豐富的數據與技術沉淀，這些資源在向具身機器人領域遷移延伸時，哪些核心能力可以直接復用？

王曉剛：兩方面的核心能力。第一是研發體系與安全標準。自動駕駛與具身機器人均需依賴海量數據驅動技術迭代，其沉淀下來的研發體系、數據閉環、數據飛輪經過驗證，能有效提升機器人技術的迭代效率。同時，自動駕駛領域對安全性、數據質量的嚴苛標準，也可遷移至具身機器人的研發中，為產品可靠性提供保障。

第二，應用功能。我們在智慧城市中積累的方舟平臺擁有上百種不同應用功能，以前主要服務于固定攝像頭場景。如今，將其與具身機器人打通，當設備走到戶外時，借助平臺的后端分析能力就可以無縫遷移，拓展功能邊界。

“一兩年內，Human-centric將在機器狗中最先規模化”

硬氪：回顧商湯科技過去十一年，其恰好見證并參與了視覺AI大規模落地、到如今具身智能爆發的完整變遷。如何理解各階段技術迭代的差異化路徑及其背后的底層邏輯？

王曉剛：商湯的發展歷程，清晰地勾勒了AI技術從1.0到3.0形態的演進脈絡。

2014年公司成立之初，AI處于1.0時代，以人臉識別為代表實現技術超越肉眼的識別率。彼時的“智能”來源于人工標注，通過為圖像添加標簽，給原本無智能屬性的圖像注入 “認知能力”。

但由于標簽信息量少、針對性強等局限，不同任務需單獨標注對應的圖像與視頻，出現了“有多少人工就有多少智能”的情況。受限于數據維度，因此當時的模型不僅體量小，也很難實現跨場景、跨行業的泛化應用。

進入2.0大模型時代，情況發生根本性轉變，核心區別在于數據本身所含的智能變多了。我們使用互聯網上的文字和圖文數據，一首詩、一篇文章、一段代碼中，它記錄了人類數千年積累的大量行為智能，遠高于簡單標簽的智能含量。

大模型配合這些數據實現智能化爆發，使模型能夠跨越不同場景和行業，具備較強的通用性。

然而，互聯網數據的價值正逐漸被“榨干”，通用性的邊際效應也逐漸放緩。

進入我們正在邁向的3.0具身智能時代，將轉向與物理世界的直接交互。要構建理解世界物理規律、人類行為邏輯的“世界模型”，僅靠研讀文字和圖文數據遠遠不夠，必須深入物理世界展開實際交互。無論是收拾房間、提供服務等具體場景，都蘊含著復雜的實時智能。通過與世界的直接接觸與互動，AI將突破現有數據的局限，產生新的智能增長路徑。

硬氪：從行業趨勢觀察，具身智能賽道的研發熱度已從去年聚焦“具身大腦”，轉向如今對“小腦”運控能力的探索，這一方向轉變背后的本質原因是什么？

王曉剛：我認為核心原因是，大家的研究范式仍然是以機器為中心（Machine-centric）。

在這種范式下，機器的交互自然地變成了運控、即小腦，因為它與底層的硬件密切相關；然而，也正是由于不同的機器人本體采集的數據不同，導致無法形成通用的、統一的大腦。

其次是無法生成復雜活動。傳統依賴真機操控采集數據的模式存在明顯局限，只能生成拾取、移動、放置等十幾秒鐘就能完成的簡單動作數據，但像收拾房間、提供服務等復雜的、需要長時間驅動的活動，是無法完成的。

這也佐證了我們提出以人為中心（Human-centric）、通過環境式采集來訓練世界模型的必要性。

硬氪：與目前已有的世界模型相比，大曉機器人提出的“開悟”世界模型3.0 （Kairos 3.0），在底層的邏輯上有什么區別？它是如何解決物理世界幻覺問題的？

王曉剛：我們構建的世界模型與Sora、李飛飛World Labs團隊提出的Marble等現有基于合成數據的模型不同，區別在于，開悟3.0采用了“多模態理解融合 — 合成網絡 — 行為預測”三段式架構。

其模型統一了以相機為中心的多模態理解與生成，支持空間想象、并實現靈活的跨視角應用如世界探索（圖源/企業）

我們的模型分為三個部分。第一部分是多模態理解與融合；現有模型主要依賴圖像、視頻及文字描述作為輸入，而我們的輸入體系更豐富，涵蓋圖像、視頻、相機位姿、目標3D軌跡、觸覺力學等多模態信息，這使模型能夠更好地理解物理世界。

例如大曉與南洋理工的合作研究中，模型可通過單張照片反推攝像機位姿；當機械臂腕部攝像頭捕捉到圖像時，能精準定位機械臂位置，并根據圖像變化反向推導機械臂的運動軌跡，實現對物理世界交互邏輯的深度理解。

第二個是合成網絡；基于第一步的理解融合，開悟世界模型3.0可以合成各種視頻，包括能選擇不同類型的機器人進行操作任務的合成。

第三個是預測；接收指令后，模型能夠預測機械臂下一步應該如何操作，從而指導機器人去操作。這使得我們的模型可以模擬動態場景，將動態目標分開，并能靈活地替換場景中的各種元素，比如換瓶子、換手機、換桌面、甚至換房型等。

這些都是現有的世界模型做不到的，真正從“認知與模擬”延伸至“實際執行”，形成從理解到操作的完整閉環。

硬氪：這種“以人為中心（Human-centric）” 范式在數據效率提升、跨場景泛化能力突破及多模態融合落地層面，具體如何解決行業核心瓶頸？

王曉剛：具體表現為“環境式采集 + 世界模型”的組合模式。這里的“環境”，特指人類所處的生活與生產場景，“世界模型”也聚焦于人與周邊環境的交互規律，而非自動駕駛關注的道路場景或水下等特定領域。

Human-centric的優勢是數據采集效率高，且所有數據均源自真實場景。同時，除視覺數據外，還整合了力學、觸覺等多維度信息，人類多年積累的人體工程學成果，也能在此基礎上得以應用，這是實現快速增長的前提，也是此前Machine-centric研究路徑所不具備的。

硬氪：Human-centric有望在多長時間內，帶來類似自動駕駛領域技術范式確立后的爆發式價值增長？

王曉剛：短期內，Human-centric在四足機器人（機器狗）將最先實現規模化應用。

當前業界的機器狗普遍受限于自主導航與空間智能能力，多依賴人工遙控或固定路線作業，應用場景被嚴重束縛。大曉團隊的方案可以突破這一局限。

一方面，我們在設備上搭載了大曉機器人的自主導航技術，可通過機管平臺實現多機協同調度，接收百度地圖導航指令自主執行任務，還支持語言、多模態大模型等靈活交互方式；例如可根據指令識別特定人群提供幫助、拍攝違章車輛車牌號等。

另一方面，機器狗與商湯方舟視覺平臺深度打通，能借助方舟的視頻分析、目標檢測、異常事件處理能力，識別打架斗毆、垃圾堆積、未牽繩寵物、違規無人機等場景化問題，并將數據實時回傳后臺。

這種“自主導航 + 場景智能識別”的組合，配合云端管理平臺，可大幅增加其巡檢等應用規模。一兩年之內，我們能夠看到機器人進入部分工業場景。

硬氪：具身智能的商業化落地正遵循梯度推進邏輯，從中長期來看，還有哪些場景值得重點關注？

王曉剛：中期來看，商業服務場景的前置倉物流將成為規模化突破點。

相較于工業場景存在的跨產線復制難問題，前置倉物流的需求具有高度一致性，隨著線上購物的普及，各地閃購倉的分揀、打包等環節存在標準化的自動化需求。

目前行業的痛點是，前置倉內SKU數量多達上萬種，依賴真機采集數據的傳統模式難以覆蓋。而我們通過環境式采集積累的海量數據，能有效訓練通用模型，實現跨倉快速復制，滿足行業規模化落地的核心訴求。

從長期視角出發，家庭場景將是具身智能的重要方向，但落地周期相對更長，安全性問題是核心挑戰。機器人進入家庭后，需應對碰撞避讓、物品安全等多重風險，類似自動駕駛從L2到L4的責任界定與安全保障難題。

不過，當前行業也在進行積極探索，例如Figure AI基于視覺路線開展環境式采集，與擁有上百萬種戶型的房地產基金合作，積累家庭場景中的人類行為數據，逐步實現全場景滲透。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.