![]()
![]()
當算力比數據更貴、商業場景率先閉環、Scaling Law在機器人領域被驗證,具身智能的ChatGPT時刻就會到來。
2025年12月3日,「甲?光年」在北京萬達文華酒店圓滿舉辦“轟然成勢,萬象歸?”2025甲子引力年終盛典。
在具?智能技術專場圓桌對話中,伯牙智能創始?兼CEO劉欣作為主持人,對話原力無限資深研究科學家陳佳玉、極佳科技聯合創始?兼首席科學家朱政、千尋智能聯席?席科學家解浚源、星源智聯合創始?何嘉偉,圍繞具?智能模型展開深入探討。
在當下具?智能?臨數據稀缺、模型不成熟、商業化場景待開發的三重挑戰下,ChatGPT時刻的定義、技術路線的選擇、數據?輪的建設成為行業關鍵議題。從VLA與世界模型的技術分歧,到軟硬解耦與?腦多型的實踐爭議,從商業服務、工業、家庭三大場景的落地優先級,到資本熱潮下的冷靜思考,嘉賓們?實戰案例揭示了具?智能產業的突破路徑。
對于未來的產業格局,嘉賓們普遍認為,無論是技術路線選擇、場景切入策略還是團隊建設模式,唯有具備長期技術積累、明確方向聚焦、構建完整數據閉環,才能真正迎來具?智能的ChatGPT時刻。
以下為本場圓桌的文字實錄,經「甲子光年」編輯,在不改變原意的基礎上略有刪改。
1.ChatGPT時刻的定義:
技術突破還是應用爆發?
劉欣(主持人):大家下午好,非常榮幸能夠作為這一場圓桌的主持。先有請各位嘉賓簡單的介紹一下自己所在的公司,以及自己所負責的業務。
![]()
伯牙智能創始?兼CEO 劉欣
陳佳玉:我是在原力無限機器人擔任資深研究科學家的陳佳玉,同時是香港大學數據系統工程系的助理教授。我所負責的內容是robotbrain的開發,具體路線就是VLA和世界模型。
![]()
原力無限資深研究科學家 陳佳玉
朱政:我們公司主要從事的是具身大腦以及世界模型的研發。最近推出的兩款產品,一款是GigaBrain,是具身VLA的大模型。一款是GigaWorld,是世界模型的平臺。我在公司主要負責基礎模型的開發,以及前瞻預研。
![]()
極佳科技聯合創始人兼?席科學家 朱政
解浚源:我是來自千尋智能的解浚源,在公司負責AI部門,我們是全棧自研的具身智能公司,做自研的輪式底盤的人形本體,還做VLA基礎模型。
![]()
千尋智能聯席?席科學家、具身智能部負責人 解浚源
何嘉偉:我是星源智機器人聯合創始人何嘉偉,負責靈巧操作大模型及大小腦聯合落地板塊。星源智聚焦具身大腦賽道,打造跨本體高泛化通用大腦,以全棧式具身技術 + 端側算力平臺實現軟硬一體交付,賦能千行百業智能化升級。
![]()
星源智聯合創始?、靈巧操作大模型負責人 何嘉偉
劉欣(主持人):今天的主題關鍵字叫ChatGPT時刻,對于語言模型來說,本身是技術突破、用戶體驗的躍遷,還有商業模式的驗證三重共振,對于各位嘉賓看來,具身智能的ChatGPT時刻,它應該具備哪些特征?到底是一些技術上的突破,還是某一個killerApp的到來?
陳佳玉:ChatGPT剛出來時服務器宕機、限制使?次數,說明具?智能的ChatGPT時刻?先要在真實世界中得到驗證且效果很好,達到供不應求的狀態。由于具?智能挑戰更?,發展會分三個階段:
1.單場景、單任務的穩定執?(如雙臂機器?疊?服)
2.單場景、多任務的穩定執?(可能是ChatGPT時刻)
3.多場景、多任務的穩定執?
朱政:具?智能與數字世界的語?模型打法不同,因為它要頻繁與物理世界交互。具?智能在談論三件事:
1.智能化?平(大腦、小腦)
2.場景(ToB的工廠、物流,ToC的家庭)
3.本體(物理載體)
距離ChatGPT時刻,最?瓶頸還是智能化?平。雖然通?性已經很好,但與專有模型相?還有很?差距。
解浚源:ChatGPT時刻需要破圈效果,讓外行人在頭15-30分鐘覺得“這東西真的快要有點用了"。比如機器?在開放場景??較泛化地完成初級體力勞動,不是擺拍?是真實隨機場景,速度不要比人慢太多。
何嘉偉:ChatGPT最讓人意外的是智能涌現和zero-shot能力。具身智能需解決用戶提出的未訓練/相近任務的零樣本問題,才能達到ChatGPT時刻。
2.世界模型與VLA:技術路線之爭
劉欣(主持人):下一個問題給到朱總,極佳科技全力押注世界模型,背后的理論是物理AI,世界模型是它的終極形態,現在有很多團隊,或者說從資本市場特別火,大家其實都在用VLA,直接端到端的訓練,請您闡述一下,世界模型比VLA本質的優勢到底在哪里?是不是真的能夠解決數據瓶頸和泛化難題?
朱政:世界模型分三個階段。
第?階段是為VLA提供訓練數據。VLA?語?作為媒介統?不同任務,解決了通?性問題,但還沒解決泛化性問題(對顏?、紋理、光照、視?、桌??度等的泛化)。泛化性主要靠數據解決,但真機數據很難涵蓋物理世界的各種變化。世界模型可以極?降低真機數據采集成本、解決泛化性問題;
第?階段是?持強化學習后訓練。有監督學習只能達到?類標注的平均?平,只有強化學習才能讓單?任務成功率達到99%以上。傳統的強化學習?法有兩種:
?在模擬器?做(但模擬器不夠真實)
?真機+人類在環強化學習(需要配?、很危險)
世界模型可以提供更接近真實世界的模擬環境,來訓練強化學習。
第三階段是VLA吸收世界模型理念,演進為WA模型(World-ActionModel),同時預測未來狀態(視頻、3D重建)和未來動作,這應該是VLA智能化模型的終極路線。
3.軟硬解耦:?腦多型的可能與挑戰
劉欣(主持人):另外一個話題是現在關于大腦,可以看到有兩派,一派想做“一腦多型”,一個大腦解決跨本體的問題,還有一種觀點是只有軟件硬件充分融合,才能發揮出硬件的最佳性能。原力無限也提出了“一腦多型”的戰略,想問陳總,你們在這方面是怎么考慮的?是不是會有硬件軟件解耦帶來的負面影響?
陳佳玉:需要澄清,軟硬解耦并不是完全解耦:
首先,在運控算法層,必須針對特定硬件做特定開發;
其次,在?腦層級,理解世界、形成泛化知識、場景規劃,不應該受本體限制;
關于部署性能也要分開看:是直接把通??腦部署到新場景,還是把通??腦作為預訓練模型,在特定場景做持續更新和適配。
因此,在大腦層級不區分本體,在運控層級做本體適配,這是?較好的范式。
劉欣(主持人):請星源智何總補充一下,咱們也是做通用的具身大腦,我們怎么去應答有一些人其實對泛化能力是持一個懷疑態度的?我們在做跨越本體的時候,本身對于硬件的一些選擇會有哪方面注意的點呢?
何嘉偉:星源智采用大小腦分層模式:
大腦層負責空間感知、上層任務規劃調度、對下層小腦監控與糾錯等,與本體相對?關,可以通過?規模視頻、圖像、?本訓練獲得泛化能?;
小腦層則與硬件相關:
大腦側的難點是對3D空間的理解,針對不同傳感器形態、內外參、激光雷達掃描模式等傳統3D感知模型難以全面適配。我們的大腦?模型結合本體感知、2D3D融合、世界模型等方式實現了跨本體3D空間的理解的泛化。
小腦側,我們在探索?規模跨本體數據集,實驗發現當任務、采集?式、機械臂和末端形態?夠豐富時,VLA模型也能實現?定的跨本體泛化能?。
4.數據飛輪:從稀缺到規模化
劉欣(主持人):今天數據是大家的高度共識,這個階段它非常重要,從需求量來說,它的供應嚴重不足,采集成本很高。前一場有嘉賓說如果給我100億我會構建最大的數據飛輪,謝博士也曾經講過一句話,說仿真數據是偽數據驅動,本身是研發人力驅動。我想請問一下解總,千尋找如何解決真實數據的獲取難題呢?
解浚源:?前數據規模?主要是因為以前沒有好好做過。涉及物理世界、制造業、組織?規模?員,有各種細節。但當你把細節打磨好、規模化后,成本可以急劇下降——就像?搓跑?要?百萬,但規模化?產?百萬輛后每輛只需??萬。
數據采集也?樣,數采設備、團隊組織形式打磨好后成本會?幅下降。我們認為到明年年底,頭部?家會有??萬到?百萬?時量級的數據,屆時算?會?數據貴。
劉欣(主持人):正好引入下一個想討論的話題,今天很多涌到具身賽道的都有汽車的背景,或者是自動駕駛的一些研發的經驗,我想請各位嘉賓來講一講,尤其是朱總,之前自動駕駛的哪些技術和方法今天是能夠復用的?又有哪些可能存在的陷阱呢?
朱政:?動駕駛與具?機器?有兩點類似首先是數據層?,都需要海量數據;
其次是模型層?,都在向VLA收斂,加?語?后可以做到通?。未來都可能演進到WA模型(預測未來動作+未來狀態)。學術界已有?作把?動駕駛導航、L4物流小車導航、機器?移動統?為Foundationmodel,?統?數據集訓練。
但是也有不同,不同點在于對物理規律的要求:
自動駕駛主要是交通流模型,很少發?接觸,物理規律由交通流和博弈模型建?;
具?智能對剛體、流體、柔體的物理規律要求更?,因為要頻繁與被接觸物體交互
雖然操作任務還沒統?進來,但未來隨著Foundationmodel出現,?動駕駛與具?智能在模型層?會越來越收斂。
5.商業化落地:場景選擇的優先級
劉欣(主持人):我們下來談一談應用場景,像原力無限選擇的是充電機器人做切入,千尋瞄準的是工業、商業等靈巧操作,星源智做的是通用場景。請各位來分享一下,你們覺得具身智能最快實現商業閉環的場景是哪些?我們第一個看到的這種10億級美金的應用可能會是什么樣的場景?你們的公司又為什么選擇了今天的這個細分的切入點呢?
陳佳玉:如果我們考慮三個場景,工業、家庭和商業,我認為最先會有新的商業閉環的應該是商業服務場景。
我們可以先做一下排除法,?業場景對效率要求?常?,替代?動化設備的效率?檻很硬;家庭場景涉及安全性和成本問題,挑戰很?;商業服務場景對安全性和效率的要求都不太?。
一個比較具體的例子就是美國的Robotics,他們做的是雙臂機器人去疊紙巾,由于他們這個可以長時間的運行,并且效率非常高,很多人愿意為他們買單,比如說美國很多飯店或者是洗衣房都會買他們的機器人,這就是很好的一個商業服務的范式。
另外,商業服務場景還有酒店用的清潔型的機器人,它雖然說也是類似家庭場景,但是它干活時沒有人,就不涉及到安全性的問題。而且由于酒店大部分房間也都是制式的、半結構化的,也有利于數據的規模化采集。
劉欣(主持人):解總,千尋這邊是怎么思考這個問題的?
解浚源:其實我比較同意他的觀點,家庭的話我覺得肯定是最后的,就是它有安全、隱私、場景過于靈活多變等各種各樣的問題。工業和商業,工業以現在的技術條件是有可行性的一個場景,但是它確實也面臨著效率、場景碎片化、數據采集難度大等問題。所以現在能實現一些小批量的落地,去驗證一下整個落地的流程和鏈路,但是比較難起量。
商業應該是在中期能真正起量、實現大批量落地的場景,包括剛才陳總提到的酒店的清潔場景。這些場景主要的好處就是效率不是最關鍵的,安全性也能保障。
劉欣(主持人):何總這邊是怎么考慮的?
何嘉偉:我們希望能夠把“大腦”部署到不同的場景里面去,我們當時發現物流?業有痛點——搬運和??物流較成熟,但裝卸環節(把貨物從地?搬到卡?或從卡?卸到地?)是傳統?動化叉?沒解決的場景。所以我們和中力發布了具身裝卸技術,9?中旬開始做,10?底實現了基礎Demo的具?裝卸場景,我們用RoboBrain Pro具??腦實現了對這個場景的較好覆蓋。
我們的邏輯是:根據“?腦”能?找到有商業潛?的場景去部署,通過這些數據迭代?腦模型,實現數據?輪。
6.資本熱潮下的冷思考:
Demo、泡沫與技術沉淀
劉欣(主持人):今年整個具身賽道確實非常火,一方面我們看到非常多酷炫的表演,大家所在的公司也都融到了非常多的錢,想請每個嘉賓都講一講,在今天這個熱潮中,如何避免為了資本、為了融資去把公司帶偏?
陳佳玉:要保持平衡,就選?個?較細分的賽道或?較確定的場景,圍繞場景做?量研發和深度?作——既能提?成功率,?保證技術真正有?,?不是跟著潮流?。
另?個重要點是對技術路線要有批判性態度。VLA和世界模型本質都是copy?語?模型的路?(數據+Transformer+算?)。???要快速驗證這個技術路線,另???要批判性地思考替代路線,同時做?些嘗試作為backup。深度嘗試+快速驗證兩??都得有。
朱政:我們2022年底融資時講世界模型故事,當時投資?都不懂世界模型,問“為什么要做物理AI?不做語?模型”。隨著這兩年的科普,今年年初已有投資?要求布局?家世界模型公司。很多時候我們做的事情和講的故事并不與資本市場?致。
業務層?,我們講三件事有排序:先智能化,再場景,最后本體。今年下半年很多投資者要求我們盡快開拓場景,但我們認為在智能化?平沒有明顯提升的情況下開拓場景,很難達到ROI平衡、商業化閉環。所以我們?前堅持做算法(智能化?平提升),準備明年晚些時候再考慮商業場景應?。
解浚源:今年?家主要展?Demo,Demo背后展?的是?類能?。?如我們疊?服場景體現的是:柔性可變形物體?程操作、動作流暢柔順、時事動作(?類似?的動作甩?下甩平,?不是慢慢在桌?上攤平的準靜態)。
但做完?個能?證明后,沒有必要在同?層級上橫向擴展好多Demo。有些?在同樣事情做了好多遍,有點低?平重復,這是被資本市場帶偏的現象,對本質猛烈進化沒有幫助。
我們疊?服Demo做完后(達到除π以外全世界最先進?平),就放著了,沒有?遍遍重新做。我們現在最主要做的是驗證ScalingLaw——深度學習發展反復證明,不能Scaling的?法沒有前途。VLA是機器?領域第?次驗證了ScalingLaw可?性的路線,所以我們現在最重要的事是在技術基礎上迅速Scaling,到年底要做到?現在多?兩個數量級的Scaling。
何嘉偉:對我們星源智來說,Show Demo和做產品不沖突。我們產品定義是帶有具??腦域控制器的整套解決?案。具??腦能不斷Show新能?,這種具身大腦進化能賦能下游落地。
同時我們發現具??腦域控制器的概念還是偏早期,現在很多公司還?主機+wifi與機器?通信,或?上?代JetsonOrin域控制器。在不斷迭代?腦和域控制器部署?態的過程中,實際能帶來很多商業化落地項?產出,包括具體可執?的Demo。
7.團隊建設:多學科協同與人才吸引
劉欣(主持人):大家都融到錢了,緊接著該搶人才了,請所有嘉賓分享一下,你們所在的公司,對于人才團隊的構建是怎么考慮的,機器人分為“軟”和“硬”,現在有很多來自偏科研背景的人進來,我們的人才比例里面,偏學術背景的和偏傳統工程背景的比重大概是怎么樣的?大家有沒有自己這方面的見解?
陳佳玉:我們公司大概有三個團隊的人,分別做本體、數據和算法,因為我們認為,這是物理AI的三個核心部分。我所帶領的是做大腦算法團隊,約為10個人,整體偏學術,就是要探索前沿技術,比如基于VLA的知識學習,以及能夠捕捉到因果的世界模型。
我們也有商業化團隊,探索出了已經商業化的產品,比如智能充電機器人、智能咖啡機器人等。因為數據團隊和本體團隊偏?程,要結合具體商業需求(場景需求+任務需求)來。
吸引?才最重要的是三個點:有共同的愿景、有?較清晰的路線、有很好的商業化成果。
朱政:公司現在大概有100人左右,因為是創業初期,絕大多數是研發人員,可能占到80%左右。
這些人里主要是兩塊背景:一塊是計算機視覺出身的背景;一塊是機器人robotics的背景,可能計算機視覺出身的背景會比較偏算法偏軟一些,Robotics可能會偏機械、工程本體一些。
但是內部并沒有劃分算法部門和硬件本體部門,我們是放在同一個研發部門里。其實大家會在一起工作,因為在大模型的背景下,不管robotics背景的人,還是計算機視覺出身背景的人,其實大家的目標是一致的:讓世界模型到VLA、到強化學習的整條鏈路在本體上打通。
同時,語?模型、具?智能是?前?才密度最?的兩個?業,這兩個領域本?對?才有天然吸引?。
解浚源:背景沒有那么重要,各?各業都有各種各樣的?。最重要的是找腳踏實地的、聰明并且愿意腳踏實地做事的?,從各個?業都能找到。
在公司發展早期,優秀的?會吸引優秀的人;在中后期,做出好的東西、好的技術會吸引優秀的?。
何嘉偉:公司是智能研究院孵化的,所以技術積累是依托于智源研究院的一些研究成果,包括北京大學的研究團隊,我們在研究方面還是非常前沿的。
在工程這一側我們也非常重視,因為整個產品包括域控和大腦,所以工程化主要就是做一些嵌入式開發,以及包括算法的研發,還有一些部署方面的工程化。
對于吸引人才,一是希望能夠吸引志同道合的人,二是因為我們的研究相對比較前沿,也希望有相關領域的科學家加入到團隊當中來。
劉欣(主持人):我們星源智是智源研究院孵化的具身智能企業,有一定的技術積累是依托于智源研究院及包括北京大學的研究團隊,所以我們在技術方面是非常前沿的。
在工程這一側我們也非常重視,因為整個產品包括域控和大腦,所以工程化主要就是做一些嵌入式開發,以及包括算法的研發,還有一些部署方面的工程化。
對于吸引人才,一是希望能夠吸引志同道合的人,二是希望有相關領域的科學家加入到團隊當中來。
陳佳玉:五年后希望機器?能:替代?類做擦玻璃、核設施及能源運維等的危險工作,同時也希望機器人能進?家庭,解放家務勞動時間,讓?們更好與家?相處。
我們算法團隊集中做家居場景,第?階段讓機器?在有?在的動態場景?很好完成多任務,形成多場景數據分類后再部署到更多場景。
我們公司扮演的角色,特別是我所在的算法團隊,首先集中做的場景就是家居,想讓機器人能在有人在的動態場景里,很好的完成多任務,可能第一階段就是讓他去完成一個固定家庭的多任務,形成多場景的數據分類之后,再把它的部署到場景里,大概的路線是這樣的。
如果用一個詞總結就是方向,具身智能很火,但具身智能的發展路線沒有收斂,也不知道什么方向會帶我們實現ChatGPT時刻;另外是應用方向,大家也存在爭執,大家也不知道到底是應用到工業、商業還是家庭,所以用方向這個詞比較貼切。
最后再補充一點,大家現在都認為VLA和世界模型是收斂的路線,但是我們認為VLA和世界模型只是Agent知識庫的一部分,如果用學術一點的話講,應該包含實體、實體間的relation,和持續抽象。持續抽象又包含“dynamics(動態)的實際抽象”和“策略的實際抽象”,世界模型可能只是dynamics的持續抽象,也就是它可能只是我們需要知識庫的一部分。
也就是說,我們的具身智能方向還沒有確定,技術還沒有收斂,還有更多需要做的事情。
朱政:?常贊同陳總觀點。?語?模型替代了很多重復的腦??作,主要是?領使?。具?智能最?的?處是把?類從危險、重復以及?苦的體?勞動中解放出來,讓?類有更多時間去休息、娛樂,追求??更多的價值,?不是限于重復的家庭勞動、危險的體?勞動、或不得不花費?量時間處理的事務。
這是具?智能在未來五年給我們最?的希望,與語?模型的側重點不?樣。當然也有可能是語?模型結合具?智能,會解決更多的事情。
如果用一個詞來總結,我認為是聚焦,因為語言模型能夠成功,是因為這些比較大的公司足夠聚焦。
解浚源:我的觀點可能跟前兩位差不多,在當今世界,AI在吟詩作畫、寫文章、寫代碼,人在洗碗、疊衣服,我們希望糾正這件事。
何嘉偉:我認為真正具身智能的ChatGPT時刻意味著,對?個家庭來說,能夠多?個家庭成員;對?個??或商業場景來說:就是多?份?產?。
用一個詞總結是閉環,包括從研究到工程,再到部署的整個鏈路閉環,也包括從軟件到硬件、從算法到算力,再到本體的整個閉環。
(封面圖及文中配圖來源:2025甲子引力年終盛典)
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.