12月2日,《咬文嚼字》編輯部發(fā)布2025年度十大流行語,“具身智能”以高票位列第二。這一結(jié)果恰與時代浪潮形成深刻呼應(yīng)——作為具有物理載體、能通過身體與環(huán)境交互實現(xiàn)感知決策行動一體化的智能形態(tài),它不僅重塑著漢語詞庫結(jié)構(gòu),更標志著人工智能從虛擬算法邁向?qū)嶓w智能的關(guān)鍵轉(zhuǎn)折。《咬文嚼字》主編黃安靖指出,這類智能相關(guān)語詞的涌現(xiàn),印證了人工智能對世界的深刻改造。
![]()
而在科技政策領(lǐng)域,2025年更迎來里程碑時刻:具身智能首次被寫入《政府工作報告》,與量子科技、6G等共同列為重點培育的未來產(chǎn)業(yè)。作為“十五五”規(guī)劃明確的新增長點,這一信號迅速激活全產(chǎn)業(yè)鏈活力,從國家實驗室的前沿攻關(guān)到智能制造的場景落地,具身智能正以政策為帆、技術(shù)為槳,駛?cè)胍?guī)模化發(fā)展的黃金航道。
從ChatGPT驚艷亮相到DeepSeek全球走紅,大語言模型的突破讓人們見證了離身智能的潛力;而2025蛇年春晚舞臺上,人形機器人扭秧歌的場景,則讓具身智能走進大眾視野。如今,人類已完成人工智能初級階段的積累,正式邁向更高階段——正如人工智能誕生之初的愿景,打造擁有物理形態(tài)、能與現(xiàn)實世界互動的智能體。
具身智能這條路徑,能通向通用人工智能(AGI)嗎?邏輯學、統(tǒng)計學、神經(jīng)科學和計算機科學等領(lǐng)域研究者分別從符號主義、聯(lián)結(jié)主義和行為主義三大綱領(lǐng)出發(fā)探索答案,那么,打造通用人工智能是否需要第四種綱領(lǐng),還是依靠這三者的融合就能解決?
深耕物聯(lián)網(wǎng)與智能系統(tǒng)研究數(shù)十年的清華大學教授、新晉中國科學院院士劉云浩,長期聚焦智能體與物理世界交互研究,在他所著的《具身智能:人工智能的下一個浪潮》中,我們能透過這一熱點話題,讀懂人工智能的過去、現(xiàn)在與未來。本書與當下政策導向、行業(yè)熱潮形成精準同頻,為這場科技革命注入了權(quán)威學術(shù)注腳。
![]()
何謂“具身智能”
說了這么多,到底什么是具身智能呢?
這一概念最先淵源于艾倫·圖靈,那位公認的“計算機科學之父”與“人工智能之父”。1950年,圖靈在他的經(jīng)典論文《計算機與智能》中就展望了人工智能可能的兩條發(fā)展道路:一條路徑是專注于抽象計算所需的智能,比如讓機器下國際象棋;另一條路徑則是為機器配備最佳的傳感器,教機器說話,使其可以與人類交流并像嬰兒一樣“成長”。
這兩條道路,分別對應(yīng)著“離身智能”與“具身智能”。不過,“具身”的含義并非指字面上的“身體”,而是指通過身體的感知來實現(xiàn)的智能。離身智能缺乏實體“軀體”,只能與預設(shè)的數(shù)據(jù)進行互動,無法從與環(huán)境的真實互動中獲得“常識”。只有賦予它能自主控制的軀體,并讓它像普通個體一樣融入物理世界和人類社會,它才能形成真正的自我感覺和意識。
![]()
在圖靈理論的基礎(chǔ)上,人工智能學界衍生出了三大學派。符號主義學派借助邏輯推理和算法操作,依據(jù)物理符號系統(tǒng)假說和啟發(fā)式搜索原則來解析智能。它關(guān)心的是智能的心理和邏輯結(jié)構(gòu),即心智的抽象和計算層面。聯(lián)結(jié)主義學派采用生物仿生學的方法,致力于通過模擬生物大腦的結(jié)構(gòu)來探索智能的秘密。它關(guān)注的是智能的生理承載,即大腦的實際組織結(jié)構(gòu)。而行為主義學派則通過研究“感知—行動”模式,強調(diào)環(huán)境反饋與智能行為之間的直接因果關(guān)系,從而揭示智能。這一學派并不關(guān)心智能的生理或邏輯結(jié)構(gòu),而是專注于智能的行為表現(xiàn)。
由于行為主義學派認為智能和認知不僅僅與大腦的功能有關(guān),而且與身體結(jié)構(gòu)和環(huán)境的互動密切相關(guān),因此,智能始終是具體的、身體化的,必須建立在與環(huán)境互動的具身智能身體的基礎(chǔ)上,而不是單純存在于抽象的思考之中。“具身智能”終于登上了歷史舞臺。
![]()
實現(xiàn)具身智能的五大步驟
那么,從當下主流的理論出發(fā),具身智能如何讓自己的“身體”與“智能”緊密聯(lián)結(jié)在一起呢?書中認為,這可以分為五個相互聯(lián)系的環(huán)節(jié):感知、認知、決策、行動、進化。這些環(huán)節(jié)真實模擬了人類與外部環(huán)境發(fā)生交互的過程。
感知:機器學習模型如何能夠更好地模擬人類的感知智能?關(guān)鍵在于整合具身經(jīng)驗,讓機器能夠在真實世界的復雜環(huán)境中學習和適應(yīng)。科學家們發(fā)現(xiàn),動物的物理身體,以及身體在與環(huán)境交互中的體驗,對感知的形成有著意想不到的重大影響。通過讓機器1∶1地進行生物學模仿,并在真實世界中實時互動和適應(yīng)復雜環(huán)境的變化,不僅能讓它學習特定的動作和模擬相應(yīng)的反應(yīng),而且能夠理解這些行為背后環(huán)境因素和上下文,從而真正實現(xiàn)高級的感知和認知功能。這種對復雜真實世界情境的模擬和交互,或許是實現(xiàn)真正智能機器的關(guān)鍵步驟。
認知:在探討機器認知時,一個至關(guān)重要的概念就是“世界模型”。它是智能體對外部環(huán)境的一種內(nèi)部表示,包括了智能體所掌握的關(guān)于世界的知識、規(guī)則以及預期。當前階段,機器學習世界模型的過程主要涉及兩個步驟:表征學習和預測。表征學習就像是機器的大腦進行初步加工處理,從原始的高維數(shù)據(jù)(如圖像、文本)中提取出更加簡潔和抽象的特征表示,而一旦學習到了這些抽象的表征,機器就能使用這些數(shù)據(jù)來建模和預測現(xiàn)實世界。
![]()
決策:機器在做決策的時候,需要“決策模型”的支持,它通常與以下三個方面緊密相關(guān):(1)任務(wù)目標:這是決策的出發(fā)點和歸宿,它定義了智能體要達成的最終目的。(2)環(huán)境狀態(tài):智能體需要理解當前所處的環(huán)境狀態(tài)以及自身的狀態(tài),這是決策的基礎(chǔ)。(3)自身能力:智能體需要清楚自身的能力范圍,包括能夠執(zhí)行哪些動作,以及這些動作可能帶來的效果。通過對這三個問題的回答,智能體就能夠構(gòu)建起一個決策模型,以指導自己在復雜多變的環(huán)境中做出最合適的行動選擇。
對于構(gòu)建決策模型,機器學習領(lǐng)域已經(jīng)發(fā)展出多種方法來模擬和優(yōu)化這一過程。其中,模仿學習和強化學習是兩種重要的方法。具體而言,模仿學習是指機器通過分析大量的人類決策數(shù)據(jù),學習如何在特定的情境下做出合適的選擇,而強化學習則是通過獎勵和懲罰來引導機器的行為,使機器能夠在不斷嘗試和犯錯誤中學習最優(yōu)的策略。
行動:在具身智能領(lǐng)域,如何借鑒人類神經(jīng)系統(tǒng)的“冗余自由度”,優(yōu)化機器人的運動控制,是一個待解決的關(guān)鍵挑戰(zhàn)。當前的研究正在嘗試通過各種算法模擬這一過程,例如通過機器學習算法來識別和模擬最有效的動作模式,從而在保證任務(wù)執(zhí)行效率的同時,減少能量消耗和提高控制的準確性。進一步地,研究者還探索使用模塊化的控制策略,將復雜動作分解為若干簡單模塊,每個模塊對應(yīng)特定的動作自由度。這種方法不僅可以簡化控制算法的設(shè)計,也有助于提高整體系統(tǒng)的適應(yīng)性和可靠性。
![]()
進化:人類研究者給具身智能體提供了進化的土壤——仿真人類的進化歷程環(huán)境。它們是一個理想的平臺,用以開發(fā)、測試和完善智能體的能力。如“互聯(lián)網(wǎng)之父”溫頓·瑟夫所言,仿真環(huán)境不僅允許研究人員在沒有物理限制的情況下探索與環(huán)境的復雜交互,最重要的是智能體可以在無風險的情況下進行大規(guī)模和重復的訓練,無須擔心設(shè)備破壞真實場景或產(chǎn)生高昂的維護費用。此外,仿真環(huán)境的一個關(guān)鍵優(yōu)勢是其能夠支持大規(guī)模并行處理,我們可以在成千上萬個線程中同時訓練多個智能體,顯著提高訓練效率和速度。
![]()
從理論到實踐的落地密碼
書中反復強調(diào)的一點是:具身智能的核心,是讓智能體和物理世界形成高效的交互閉環(huán)。2025年下半年的產(chǎn)業(yè)實踐,正好成了這個理論最生動的例子。
針對書中分析的大模型接地難題,有些團隊推出了混合推理體系:遇到工業(yè)診斷這類復雜邏輯,就用深度思考模式拆解開;要適配實體低延遲的需求,就切換到輕量響應(yīng)模式,這和書中推理深度需匹配落地場景的論斷完全吻合。而書中重點講解的VLA(視覺-語言-動作)融合技術(shù),已經(jīng)在智能座艙里實現(xiàn)突破——車載智能體不只能聽懂打開空調(diào)的指令,還會結(jié)合乘客體溫、室外環(huán)境自動調(diào)風速,這也印證了多模態(tài)協(xié)同是核心能力的判斷。
對于具身智能多路徑發(fā)展的預判,產(chǎn)業(yè)實踐也給出了呼應(yīng)。書中明確提到,人形機器人只是其中一條路,大模型+專用實體+強化學習、萬物智聯(lián)催生的智能涌現(xiàn),潛力其實更大。這個觀點在能源、制造領(lǐng)域得到了驗證:油田勘探時,傳感器陣列靠持續(xù)采集數(shù)據(jù)實現(xiàn)油藏動態(tài)預測,成了無實體機器人的典型案例;汽車行業(yè)則通過精簡模型,把決策響應(yīng)壓縮到秒級以內(nèi),踐行了實體特性決定模型形態(tài)的主張。
書中還列出了具身智能的三大瓶頸——從仿真環(huán)境到現(xiàn)實場景的遷移差距、多模態(tài)對齊的穩(wěn)定性、數(shù)據(jù)隱私安全,這些現(xiàn)在都是行業(yè)攻關(guān)的重點。有些團隊借鑒書中人類演示數(shù)據(jù)輔助對齊的方法,把機械臂失誤率降低了40%;基于聯(lián)邦學習的方案實現(xiàn)了工業(yè)數(shù)據(jù)可用不可見,這也回應(yīng)了書中技術(shù)進步需兼顧倫理的提醒。
![]()
當“具身智能”從年度熱詞生長為《政府工作報告》中的國家戰(zhàn)略,這本著作恰如一盞明燈:既為研究者撥開技術(shù)迷霧,指明從理論到落地的清晰路徑;也為實踐者提供底層邏輯,讓智能創(chuàng)新不再局限于實驗室的構(gòu)想。本書將搭建一座橋梁,讓研究者看到落地的可能,讓實踐者讀懂技術(shù)的本質(zhì)。
它記錄的不只是人工智能從虛擬走向?qū)嶓w的轉(zhuǎn)折,更在為人類定義智能時代的核心法則——當機器真正學會與物理世界對話、與人類需求同頻,這場技術(shù)革命便不再是冰冷的算法迭代,而是重塑生產(chǎn)方式、生活形態(tài)乃至文明邊界的全新開端。在具身智能的浪潮中,這本著作所點燃的理論與實踐共鳴,終將推動人類邁向更具溫度、更富效率的智能文明新圖景。
↓我們還有下面這些活動↓
-End-
2025.12.3
編輯:閃閃 | 審核:孫小悠
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.