作者|黃楠
編輯|袁斯來
在AI行業,商湯科技已經是家成立11年的公司,早已習慣一次次浪起浪涌。
在視覺AI崛起的時代,它從港中文實驗室跑出、叩開規模化落地的大門。但To B業務從來不是一份輕松活,包括商湯在內、絕大部分公司不得不應對客戶長期定制化的開發需求。
直到ChatGPT橫空出世,所有公司集體轉向大模型。在算力層面先走一步的商湯,找到了施展空間。根據商湯年報,其生成式AI 2024年收入為24億元,占比由2023年的34.8%提升至63.7%,成為商湯科技最關鍵的業務。
但大模型狂飆3年后,一個實際的問題出現:“除了特定場景的單點突破,AI如何真正走進物理世界、成為改變生產生活的實用工具?”
這也是商湯在每一次技術迭代中都在追問的核心命題。
隨著具身智能成為下一代AI革命的主賽場,近日,大曉機器人公司成立,由商湯聯合創始人、執行董事王曉剛出任大曉機器人董事長,正式入局具身智能戰場。
王曉剛告訴硬氪,大曉機器人成立的初衷,并非是跟風“本體內卷” 或 “復雜技能炫技”,而是要回歸真正的痛點,并提出“以人為中心(Human-centric)”的全新研究范式。在提供專注于構建能理解物理世界規律的“大腦”基礎之上,最終輸出一個適配真實場景需求的軟硬一體產品。
這也是行業趨勢。去年尚在探索移動穩定性與適用場景的具身智能行業,短短一年,已是截然不同的景象。有公司拿下動輒數億元的訂單,走進深圳、上海、蘇州的機器人工廠車間,讓具身智能不再只是To VC的故事。
AI技術演進正在從“數字智能”走向“物理智能”。身處其中的老牌AI公司們,會發現自己身處又一次重要轉型中。
商湯2025年上半年凈虧損為11.62億元、同比下降50%,研發投入也還在增長,它需要找出更落地的方向。
通用智能的突破,不在于一步登天的AGI幻想,而是從真實交互中沉淀可復用的能力。機器人的終極價值不在于形態的酷炫,而在能否解決實際物理世界的難題。從視覺AI、大模型再到具身智能,商湯以大曉機器人為支點,正試圖撬動的,不僅是一個千億級的具身智能市場,還是AI與物理世界深度交互的可能。
以下是硬氪同王曉剛的對談實錄,內容經編輯:
不做單純的具身大腦公司
硬氪:今年被普遍認為是具身智能落地元年。為什么商湯會選擇在這個節點成立大曉機器人切入具身賽道?
王曉剛:主要基于產業化落地與技術范式兩個維度的考量。
在產業化方面,具身智能是一個規模達數十萬億級、乃至更大發展空間的廣闊賽道。正如英偉達創始人黃仁勛所言,未來每個人都可能會擁有一個或多個機器人,其數量有望超越手機,而單體價值可與汽車相媲美。
對商湯而言,過去我們聚焦To B軟件領域,若要進一步擴大企業規模,實現軟硬結合的業務升級,機器人賽道的垂直整合屬性是重要突破口。同時,基于此前在各垂直行業的積累,團隊理解用戶痛點與需求,相較于對場景理解不足、難以解決實際問題的具身企業,商湯的場景落地能力更受期待,產業化推進速度也有望更快。
從技術范式來看,傳統具身智能的發展存在明顯短板。
機器人本體硬件發展迅速,但 “大腦”端的智能能力相對欠缺,核心問題在于采用了 “以機器為中心(Machine-centric)” 的技術路線;即先設計形態、參數差異巨大的各類機器人本體,再通過本體采集數據訓練通用模型。這種思路并不成立,正如自然界中人與動物無法共享同一大腦,不同結構的機器人如靈巧手、夾爪、不同數量的機械臂等,也難以適配統一模型。
硬氪:大曉機器人團隊所采用的技術方案有何差異性?
王曉剛:我們提出的是 “以人為中心(Human-centric)” 的新的技術范式。先研究人類與物理世界的互動方式、運動規律,通過穿戴式設備、第三視角設備等多元工具,結合視覺、觸覺、力學等多維度數據,記錄人類在真實生產生活中的行為、尤其是復雜的常識性行為。
通過將上述數據輸入世界模型,讓模型深度理解物理世界規律與人類行為邏輯,從而構建出強大的機器人“大腦”。同時,成熟的世界模型反過來還能指導硬件設計,讓硬件形態更貼合實際應用需求。
今年八九月份,特斯拉、Figure AI等企業宣布摒棄真機路線,轉向基于第一視角攝像頭的視覺方案,但其本質僅是通過視覺記錄人類行為,并未涵蓋力、觸覺、摩擦等關鍵維度,但這些維度正是具身智能與物理世界發生三維接觸的核心需求。
僅靠視覺技術,機器人可實現跳舞、打拳等模仿類動作,但在挪瓶子、擰螺絲等需要與物理世界交互的場景中,難免面臨技術瓶頸。
目前,大曉機器人所提出的Human-centric范式已得到了實踐驗證。此前,大曉機器人核心教授成員劉子緯教授團隊合作構建了一個EGO life數據集,包含300小時第一視角與第三視角的人類真實行為數據;期間,基于該數據集研發的具身視覺模型,經實測,可以有效解決現有數據多為簡單無意義行為、難以支撐復雜運動學習的痛點。
![]()
大曉機器人團隊成員:一排從左往右依次為李鴻升、陶大程、王曉剛、潘新鋼;二排從左往右依次為呂健勤、趙恒爽、劉子緯、劉希慧(圖源/企業)
硬氪:公開數據顯示,2024年中國具身智能市場規模已突破8000億元,近兩年具身領域涌入了數百家初創主體。在這一背景下,大曉機器人對自身在行業的生態位是怎么定義的?
王曉剛:大曉團隊的最終目標,是輸出軟硬一體的產品,能針對性解決各場景下的實際問題,而不是單純做模型的公司。
在這個過程中我們發現,現有硬件設計往往難以匹配場景需求,這也推動團隊走上聯合研發、定制化制造硬件的道路。
以機器狗產品為例,業內傳統機器狗的攝像頭視角窄、安裝位置低,導致其在路口無法精準識別行進方向,過馬路時難以捕捉紅綠燈信號。我們與Insta360合作了一款全景相機模組,能實現360度全視角覆蓋,解決視野局限問題。
此外,當前不少機器狗仍存在防水性能不足、算力平臺成本高、續航能力有限等痛點,均無法滿足實際場景的常態化使用需求。
硬氪:聯合開發的具體落地中,雙方的合作模式是怎樣的?
王曉剛:我們的強項在于大腦端的模型、導航能力、操作能力。過去,公司雖然有B端的軟件服務、大裝置提供底層設施,但在端側并未形成標準化的產品形態。
依托前兩年商湯投資布局的多家本體硬件及零部件企業,大曉團隊采用生態合作模式,提供硬件設計規范、跟伙伴聯合設計和開發硬件本體;同時,在模型端我們也保持開放態度,提供基礎模型和素材方案。
硬氪:商湯在安防、自動駕駛等領域有豐富的數據與技術沉淀,這些資源在向具身機器人領域遷移延伸時,哪些核心能力可以直接復用?
王曉剛:兩方面的核心能力。第一是研發體系與安全標準。自動駕駛與具身機器人均需依賴海量數據驅動技術迭代,其沉淀下來的研發體系、數據閉環、數據飛輪經過驗證,能有效提升機器人技術的迭代效率。同時,自動駕駛領域對安全性、數據質量的嚴苛標準,也可遷移至具身機器人的研發中,為產品可靠性提供保障。
第二,應用功能。我們在智慧城市中積累的方舟平臺擁有上百種不同應用功能,以前主要服務于固定攝像頭場景。如今,將其與具身機器人打通,當設備走到戶外時,借助平臺的后端分析能力就可以無縫遷移,拓展功能邊界。
“一兩年內,Human-centric將在機器狗中最先規模化”
硬氪:回顧商湯科技過去十一年,其恰好見證并參與了視覺AI大規模落地、到如今具身智能爆發的完整變遷。如何理解各階段技術迭代的差異化路徑及其背后的底層邏輯?
王曉剛:商湯的發展歷程,清晰地勾勒了AI技術從1.0到3.0形態的演進脈絡。
2014年公司成立之初,AI處于1.0時代,以人臉識別為代表實現技術超越肉眼的識別率。彼時的“智能”來源于人工標注,通過為圖像添加標簽,給原本無智能屬性的圖像注入 “認知能力”。
但由于標簽信息量少、針對性強等局限,不同任務需單獨標注對應的圖像與視頻,出現了“有多少人工就有多少智能”的情況。受限于數據維度,因此當時的模型不僅體量小,也很難實現跨場景、跨行業的泛化應用。
進入2.0大模型時代,情況發生根本性轉變,核心區別在于數據本身所含的智能變多了。我們使用互聯網上的文字和圖文數據,一首詩、一篇文章、一段代碼中,它記錄了人類數千年積累的大量行為智能,遠高于簡單標簽的智能含量。
大模型配合這些數據實現智能化爆發,使模型能夠跨越不同場景和行業,具備較強的通用性。
然而,互聯網數據的價值正逐漸被“榨干”,通用性的邊際效應也逐漸放緩。
進入我們正在邁向的3.0具身智能時代,將轉向與物理世界的直接交互。要構建理解世界物理規律、人類行為邏輯的“世界模型”,僅靠研讀文字和圖文數據遠遠不夠,必須深入物理世界展開實際交互。無論是收拾房間、提供服務等具體場景,都蘊含著復雜的實時智能。通過與世界的直接接觸與互動,AI將突破現有數據的局限,產生新的智能增長路徑。
硬氪:從行業趨勢觀察,具身智能賽道的研發熱度已從去年聚焦“具身大腦”,轉向如今對“小腦”運控能力的探索,這一方向轉變背后的本質原因是什么?
王曉剛:我認為核心原因是,大家的研究范式仍然是以機器為中心(Machine-centric)。
在這種范式下,機器的交互自然地變成了運控、即小腦,因為它與底層的硬件密切相關;然而,也正是由于不同的機器人本體采集的數據不同,導致無法形成通用的、統一的大腦。
其次是無法生成復雜活動。傳統依賴真機操控采集數據的模式存在明顯局限,只能生成拾取、移動、放置等十幾秒鐘就能完成的簡單動作數據,但像收拾房間、提供服務等復雜的、需要長時間驅動的活動,是無法完成的。
這也佐證了我們提出以人為中心(Human-centric)、通過環境式采集來訓練世界模型的必要性。
硬氪:與目前已有的世界模型相比,大曉機器人提出的“開悟”世界模型3.0 (Kairos 3.0),在底層的邏輯上有什么區別?它是如何解決物理世界幻覺問題的?
王曉剛:我們構建的世界模型與Sora、李飛飛World Labs團隊提出的Marble等現有基于合成數據的模型不同,區別在于,開悟3.0采用了“多模態理解融合 — 合成網絡 — 行為預測”三段式架構。
![]()
其模型統一了以相機為中心的多模態理解與生成,支持空間想象、并實現靈活的跨視角應用如世界探索(圖源/企業)
我們的模型分為三個部分。第一部分是多模態理解與融合;現有模型主要依賴圖像、視頻及文字描述作為輸入,而我們的輸入體系更豐富,涵蓋圖像、視頻、相機位姿、目標3D軌跡、觸覺力學等多模態信息,這使模型能夠更好地理解物理世界。
例如大曉與南洋理工的合作研究中,模型可通過單張照片反推攝像機位姿;當機械臂腕部攝像頭捕捉到圖像時,能精準定位機械臂位置,并根據圖像變化反向推導機械臂的運動軌跡,實現對物理世界交互邏輯的深度理解。
第二個是合成網絡;基于第一步的理解融合,開悟世界模型3.0可以合成各種視頻,包括能選擇不同類型的機器人進行操作任務的合成。
第三個是預測;接收指令后,模型能夠預測機械臂下一步應該如何操作,從而指導機器人去操作。這使得我們的模型可以模擬動態場景,將動態目標分開,并能靈活地替換場景中的各種元素,比如換瓶子、換手機、換桌面、甚至換房型等。
這些都是現有的世界模型做不到的,真正從“認知與模擬”延伸至“實際執行”,形成從理解到操作的完整閉環。
硬氪:這種“以人為中心(Human-centric)” 范式在數據效率提升、跨場景泛化能力突破及多模態融合落地層面,具體如何解決行業核心瓶頸?
王曉剛:具體表現為“環境式采集 + 世界模型”的組合模式。這里的“環境”,特指人類所處的生活與生產場景,“世界模型”也聚焦于人與周邊環境的交互規律,而非自動駕駛關注的道路場景或水下等特定領域。
Human-centric的優勢是數據采集效率高,且所有數據均源自真實場景。同時,除視覺數據外,還整合了力學、觸覺等多維度信息,人類多年積累的人體工程學成果,也能在此基礎上得以應用,這是實現快速增長的前提,也是此前Machine-centric研究路徑所不具備的。
硬氪:Human-centric有望在多長時間內,帶來類似自動駕駛領域技術范式確立后的爆發式價值增長?
王曉剛:短期內,Human-centric在四足機器人(機器狗)將最先實現規模化應用。
當前業界的機器狗普遍受限于自主導航與空間智能能力,多依賴人工遙控或固定路線作業,應用場景被嚴重束縛。大曉團隊的方案可以突破這一局限。
一方面,我們在設備上搭載了大曉機器人的自主導航技術,可通過機管平臺實現多機協同調度,接收百度地圖導航指令自主執行任務,還支持語言、多模態大模型等靈活交互方式;例如可根據指令識別特定人群提供幫助、拍攝違章車輛車牌號等。
另一方面,機器狗與商湯方舟視覺平臺深度打通,能借助方舟的視頻分析、目標檢測、異常事件處理能力,識別打架斗毆、垃圾堆積、未牽繩寵物、違規無人機等場景化問題,并將數據實時回傳后臺。
這種“自主導航 + 場景智能識別”的組合,配合云端管理平臺,可大幅增加其巡檢等應用規模。一兩年之內,我們能夠看到機器人進入部分工業場景。
硬氪:具身智能的商業化落地正遵循梯度推進邏輯,從中長期來看,還有哪些場景值得重點關注?
王曉剛:中期來看,商業服務場景的前置倉物流將成為規模化突破點。
相較于工業場景存在的跨產線復制難問題,前置倉物流的需求具有高度一致性,隨著線上購物的普及,各地閃購倉的分揀、打包等環節存在標準化的自動化需求。
目前行業的痛點是,前置倉內SKU數量多達上萬種,依賴真機采集數據的傳統模式難以覆蓋。而我們通過環境式采集積累的海量數據,能有效訓練通用模型,實現跨倉快速復制,滿足行業規模化落地的核心訴求。
從長期視角出發,家庭場景將是具身智能的重要方向,但落地周期相對更長,安全性問題是核心挑戰。機器人進入家庭后,需應對碰撞避讓、物品安全等多重風險,類似自動駕駛從L2到L4的責任界定與安全保障難題。
不過,當前行業也在進行積極探索,例如Figure AI基于視覺路線開展環境式采集,與擁有上百萬種戶型的房地產基金合作,積累家庭場景中的人類行為數據,逐步實現全場景滲透。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.