2025 年,是人形機器人高歌猛進的一年。
從年初登上春晚舞臺,再到機器人馬拉松、運動會等賽事,以及各種家用和超越恐怖谷效應的機器人的出現……我們看到它越來越多的可能性。
同時,人形機器人產品價格也在不斷下探。從六位數到最近的四位數,人形機器人似乎開始變得觸手可及。行業吸引了大量資金涌入,投資界和消費者對未來充滿期待。
面對這股熱潮,趙明國保持著相對冷靜的態度。研究人形機器人領域二十余年,可以說,他完整見證了人形機器人從行走困難,到今日初具智能的歷程。
自 2000 年開始加入清華從事機器人研究,趙明國現為清華大學自動化系教授。2023 年,他和學生程昊一起創辦了“加速進化”。團隊以機器人足球比賽為場景,注重機器人的綜合運動、感知與決策能力,并在 2025 年的 Robocup 機器人世界杯中取得冠軍。
在這次和 DeepTech 訪談中,他沒有為了迎合市場期待而表現得“樂觀”,而是從技術本源出發,對行業的發展提出了自己的想法。
他認為對于真正的具身智能來說,當前熱門的 VLA 模型和世界模型等,本質上是過渡性的技術手段,而非解決問題的終極方案。智能的突破點不在于簡單地堆砌數據或將大語言模型邏輯復制到機器人上,而在于理解物理世界的非標準化以及構建合理的層級控制架構。
面對行業內急于追求量產的浮躁,他警告供應鏈和商業條件還不成熟,“iPhone 時刻”尚未到來,進入工業場景,或者盲目擴產無異于自戕。
“我的判斷是,2026 年也許會是應用場景的篩選年。”趙明國告訴 DeepTech,人形機器人淘汰賽即將來臨,而“只有深扎場景、傾聽市場的反饋才能活下去。”
以下是 DeepTech 和趙明國的對話,內容在未改變原意的情況下有所增刪。
二十多年,讓機器人從穩定行走到踢足球
DeepTech:你從 2000 年開始從事這個領域,至今已經二十多年了,見證了人形機器人學科的整個發展歷程。是什么讓你堅持了下來?
趙明國:其實談不上是“堅持”。這個學科并沒有所謂的“寒冬”,它一直都在發展,只不過節奏比較慢,屬于一個相對小眾的領域。對我來說,這更單純地是一種機遇。在這個過程中,很多人來了又走,而我比較幸運地留了下來。
DeepTech:那在這二十多年里,你和團隊對人形機器人的研究經歷了哪幾個階段?
趙明國:大致經歷了四個階段,每個階段的側重點都不同,復雜度也越來越高:
第一階段是“模仿與摸索”。起初我們什么都不懂,主要是照著日本的 ZMP(零力矩點)理論做。當時的理論很粗淺,硬件和算法也比較落后。
第二階段是“基于模型的控制”。這一時期出現了一些簡化的計算模型,比如 LIP(線性倒立擺)、DCM(動態捕獲點)等,雖然現在看難度不大,但當時需要很強的專業知識。與之并行的還有“被動行走”理論(2005 年左右)和“極限環”理論(持續到 2014、2015 年左右),這些都偏向于控制學,讓機器人能夠穩定行走。
第三階段是“優化控制”。這主要是受美國 DARPA 機器人挑戰賽(DRC)的影響。大家開始把機器人的運動問題定義為一個數學上的優化問題來求解。機器人的性能也因此提升了很多。
第四階段,也就是現在,進入了“學習與智能”階段。隨著人工智能的發展,強化學習開始占據主導地位。
總結來說,就是一個從偏力學、到偏控制、再到偏優化,最后到偏學習的過程。
DeepTech:團隊主要以 “機器人踢足球”為核心場景,市場上還有很多公司展示的是跑步、打拳,或者像疊衣服這樣的任務。你怎么看這種差異?
趙明國:踢足球這個方向比較特殊,它可以與“教育”場景深度結合。
我們將踢足球作為一個促進技術發展的平臺。這背后有一個不小的教育市場,通過建立標準平臺賣和高校或研究機構合作,既能獲得市場反饋,又能讓產品在特定的高難度任務上聚焦。所以,踢足球更像是一個帶動技術升級和教育市場的抓手。
DeepTech:相比于其他任務,讓人形機器人踢足球對核心能力有哪些不一樣的要求?
趙明國:踢足球對人形機器人的綜合能力要求極高,遠比確定場景的任務困難。
首先是綜合運動與感知。踢足球需要調動全身關節,不僅要跑得穩,還要實時感知環境。
其次是動態決策與對抗。對手是動態的,而且不會配合你。機器人需要在一個長序列中不斷做決策,還要涉及多智能體的團隊協作與對抗。
大家覺得機器人能疊衣服,就意味著可以完成家務工作了。但實際上現在的演示大多只能疊沒領子、沒扣子的 T 恤。一旦遇到有領子、有裝飾或材質復雜的女裝,它就很難處理。疊衣服更多是為了證明某個特定視覺或操作算法的提升,但目前還是一個靜態任務。
從技術維度排序的話,踢足球的技術維度多于打拳,自主打拳多于遙控馬拉松,最后才是疊衣服。
因為馬拉松主要考驗機器人的奔跑能力和可靠性,對環境感知的要求相對單一;而打拳涉及對抗,但通常是一對一,環境相對封閉;踢足球則是全方位的考驗:感知的面積大、動態博弈復雜、還需要多機協同。
所以我更傾向于通過踢足球這種高維度的任務來推動技術進步。
DeepTech:關于人形機器人踢足球這個能力,終極目標是什么?
趙明國:這個目標最早設定于 1997 年,當時計算機(深藍)戰勝了人類國際象棋冠軍。于是大家提出了一個新的挑戰:到 2050 年,我們要建立一支完全自主的人形機器人足球隊,并戰勝當年的人類世界杯冠軍。
何為真正的具身智能?
DeepTech:現在很火的 VLA(視覺-語言-動作)模型,有人質疑它是新瓶裝舊酒,用數據掩蓋了泛化能力的不足。你認同嗎?
趙明國:我基本認同。但它目前更多是過渡性的技術手段,而非終極方案
大語言模型(LLM)之所以能取得巨大成功,核心原因在于人類語言數據的特殊性。書籍、文章經過了幾千年的積累,人類語言是高度結構化、標準化且有共識的,因為數據規范且量大,模型才能從中學習并泛化。
但機器人的數據(視覺、觸覺、動作)完全不同。物理世界的數據是非常不規范的。視覺、聽覺、觸覺等感知信息本質上都是低層次、原始的信息,缺乏像語言那樣高度的結構化和共識性。
因此,很多人想把 LLM 的成功邏輯簡單復制到機器人上,這是行不通的。
DeepTech:那么世界模型呢?這也是行業近期的熱點。
趙明國:我覺得現在的很多宣傳把這些概念神化了。
我們不需要完全理解世界的物理規律(建立完美的世界模型)才能完成任務。例如燕子飛行能排成“人字形”省力,不是因為它懂空氣動力學,而是自然選擇和經驗的結果;人類用手機也不需要懂電路原理。
本質上智能是通過與環境交互、積累經驗而涌現的。科學理論往往是“后知后覺”的總結,而不是先有理論再有實踐。
DeepTech:程昊(加速進化 CEO)在接受采訪中提到,團隊訓練人形機器人主要用的是仿真數據。請問你們的數據策略具體是怎樣的?
趙明國:其實在我們的語境里,并沒有傳統意義上“數據”這個概念。
大家容易混淆兩種學習方式:
一個是監督學習(Supervised Learning):這確實需要海量數據來訓練網絡參數。你可以用真機數據、仿真數據或合成數據,但數據的數量并不直接決定結果的好壞。尤其是在機器人視覺領域,因為相機參數、光照、環境條件千差萬別,采集的一堆數據可能根本用不上,甚至大部分是無效的。
第二個是強化學習(Reinforcement Learning):這才是我們用的主要方法。強化學習的核心不是“喂數據”,而是“試錯”。所謂的仿真數據,本質上是機器人在仿真環境里進行交互和探索。在這個過程中,無論是仿真環境還是真實環境,本質區別不大,關鍵在于系統能否通過交互學到策略,而不可以單獨談論數據質量和數量。
DeepTech:在目前這個階段,硬件的重要程度是怎么樣的?
趙明國:我喜歡用“項鏈”來比喻:硬件就像項鏈上那一顆顆串起來的珠子,它是基礎,沒有硬件你就做不了機器人;但是,真正讓這條項鏈價值連城,是中間那顆寶石。在人形機器人里,這顆寶石就是具身智能。
商業化:工業場景是個“坑”
DeepTech:關于商業化落地,你對人形機器人在工業場景、ToC(消費者)和教育場景的發展前景怎么看?
趙明國: 第一,關于工業場景,我認為這是個“坑”,尤其是對初創公司而言。現在很多人認為機器人可以進工廠,但我認為工業里絕大部分需求已經被傳統的自動化(Automation)解決了。留給“人形機器人”的空間到底有多少?這很難講。
第二,關于上市公司與初創公司的不同邏輯。像已經有一定規模的上市公司,它們做機器人的邏輯和初創公司完全不同。
初創公司是一窮二白的,你不能只講故事,也不能像大廠那樣僅保持技術領先就行。如果你一頭扎進工業場景這個長周期、高門檻的領域,很容易因為造血能力不足而倒下。
第三,關于 ToC 和教育開發者市場。真正的 ToC(家庭消費級)短期內很難爆發,因為那需要單品銷量達到 10 萬臺以上的量級。
但我非常看好“開發者市場”和“教育市場”。三年前很多人認為這個市場很小,但事實證明它在快速增長。為什么?因為全世界都在開發“具身智能”,研究AI的人需要一個物理載體(身體)來驗證算法。
所以,這里說的“教育”不僅僅是學校里的教學設備,更多是面向廣大開發者和科研人員的“基礎設施”。隨著具身智能的火熱,這個群體對高性能機器人硬件的需求量是非常可觀的。這才是當前最務實的商業化路徑。
DeepTech:你覺得目前限制產能的最主要技術瓶頸是什么?
趙明國:我覺得核心原因不是單一的技術瓶頸,而是技術和商業的雙重不成熟。
現在大家都在等所謂的“GPT 時刻”或“iPhone 4 時刻”,但事實上這個爆發點還沒到。在市場沒爆發之前,盲目搞大規模生產是自戕行為。比如你覺得“唱歌機器人”火,你一口氣備貨 10 萬臺,結果市場風向一變,只需要 1 萬臺,那你剩下的庫存和產線投入就直接把你拖垮了。
一定要警惕用“互聯網思維”做硬件。軟件代碼寫錯了可以推倒重來,成本很低;但制造業是真刀真槍的重資產,廠房、設備、模具投進去就是沉沒成本,一旦方向錯了,很難回頭。所以成長曲線必須合理,不能幻想今天1臺,明天就 1 萬臺。
DeepTech:在這種模糊的探索期,你覺得行業最稀缺什么樣的人才?
趙明國:這個時代篩選人才的門檻非常高,需要的是“懂技術的生意人”,或者說“有商業頭腦的技術專家”。
回顧歷史,每個時代發財的人需要的核心能力不同:80 年代靠膽大和信息差(投機倒把);后來靠下海經商;再后來靠互聯網。而到了機器人這個硬科技時代,只懂一樣肯定不行:如果一個人只懂技術,那么他做不了大事,看不懂商業邏輯。要是只懂商業,聽不懂技術,在這個技術迭代極快的行業里會被繞暈,最后很可能被淘汰。
篩選年將至,場景是關鍵
DeepTech:在你看來,對你們而言下一階段有什么務實的技術或方向?
趙明國:真正的務實是你在某個細分領域(哪怕很小)做到了極致,比如占有率達到 99%,甚至因為你的存在,這個小領域本身在擴大,甚至帶動了整個行業的發展。
這就像 RoboCup(機器人足球世界杯),你得先把踢球這件事做好。如果大盤沒動,但你在這個細分領域帶著大家往前跑,這才是貢獻。
DeepTech:你對 2026 年的行業競爭格局有什么預測?
趙明國:我有個比較大膽的預測:2026 年也許會是應用場景的篩選年。可能會比拼誰能先找到有現金流的核心場景。找到了應用場景, 才會真正實現技術迭代。
DeepTech:你心中的終極機器人產品是怎樣的?
趙明國:關于機器人的外形無法確定,但機器人應該是一個“新物種”。它跟人有很多不同,但在某些特定能力上,它一定要比人強。
這就好比飛機和鳥。飛機沒有羽毛,也沒有鳥的很多生物特性,但它剔除了冗余,保留并放大了核心的空氣動力學原理,所以飛得比鳥更高、更遠。機器人也是同理,作為機器,它必然要在某些功能(如力量、效率、耐力)上超越人類,否則我們制造它就沒有意義了。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.