文|邱曉芬
編輯|蘇建勛
2026年,全球的具身智能機器人創業者不約而同將目光方向調轉向深水區:家庭。
點燃這份熱情的,是近期行業里閃爍著的一絲絲Scaling Law苗頭——
先是硅谷具身智能公司Generalist AI在GEN-1模型上驗證了確定性,當他們給機器人喂進海量數據后,精細操作任務成功率竟從64%提升到了驚人的99%;
隨后,硅谷當紅的具身智能獨角獸公司Sunday Robotics也試圖解決家庭場景數據難關,不僅推出Umi手套數據采集方案,還直接將機器人Memo送進家庭做家務(收拾餐做、沖咖啡、疊衣服),因此吸引了大量的資本押注。
在大洋彼岸的中國,近期闖入家庭機器人領域的創業者中,還有一個熟悉的身影——許華哲。
“兩年內,中國將會出現可用的家庭機器人”,他對于行業的判斷,同樣樂觀且激進。
作為“伯克利歸國四子之一”、清華大學交叉信息研究院助理教授,2023年,許華哲曾加入「星海圖」任前首席科學家兼聯合創始人,一起將這家公司打造成中國具身智能領域的明星公司。
不過,在這家公司估值沖破200億、融資近30億的巔峰時刻,許華哲又選擇“單飛”并創辦了全新的具身智能公司「破殼機器人」。
此次重新出發,他想做的是能在家庭場景干活的、真正有泛化性的具身智能機器人。
![]()
△ 許華哲
其實,想做一個家庭機器人公司并不是近期偶然的想法。初高中時的他讀完《喬布斯傳》后,內心便萌生創辦一家偉大To C公司的種子。此后,在清華、伯克利、斯坦福的一路升學中,他一直深耕機器人強化學習方向,夢想便是把機器人送入千萬家庭。
他理想中的家庭機器人,雖然不是無所不能,卻能完成上一代機器人(比如掃地機、洗地機)無法完成的復雜任務,比如能進行更精細的清潔工作、有條理的完成諸如洗衣收納的長序列、多步驟任務串聯。
在他看來,這種創業方向的選擇,也帶有強烈的審美潔癖。許華哲直言,泛化性的本質是一種“美與影響力”——用最簡潔優雅的模型,解決人類復雜的生活問題,并真正將AI轉化為生產力,而非僅僅替代低端勞動力。
從更理性的層面,切入To C家庭場景也包含著許華哲的商業判斷。在他看來,當前大量機器人廠商將人形機器人送進工廠,完成傳統機械臂就能完成的上下料、搬運箱的工作,本質上只是在用新的人性在做舊時代的事情,機器人沒有發揮出真正的通用性。
他認為,真正的AGI應該在家庭場景中誕生、運用,因為家庭場景任務比工廠場景更混亂隨機,且數據豐富,恰恰是訓練通用模型的最佳土壤。
因此,為了追趕時機,在創業的短短一個月內,新公司「破殼機器人」已經完成了融資、核心團隊組建、具身模型的訓練、以及硬件迭代工作。
《智能涌現》獨家獲悉,破殼機器人近期完成數千萬美元天使輪融資,由云啟資本領投,并獲得順為資本、弘暉基金等一線美元基金,小米戰投、星海圖等知名產業方,以及BV百度風投、英諾天使基金、水木清華校友種子基金、東方嘉富等一線市場化基金的支持。
快速得到資本押注,也因為許華哲在關鍵技術路線上有一些不同的選擇。
為了實現泛化,在關鍵技術路線方面,他的選擇也略顯反常識。他完全放棄了行業主流的VLA(視覺-語言-動作)基座模型方案,轉而構建一種能直接輸入和輸出“視頻-動作”的世界模型。
在模型結構上,他也提出了獨特的“UAG架構”,用并聯式預訓練替代過去的瀑布式級聯,并將強化學習貫穿預訓練與部署全過程,實現了訓練效率的五倍提升。
打好模型基礎之余,在數據與硬件層面,他也通過UMI、外骨骼和第一人稱視角三層方案采集高質量數據,形成從任務定義到數據、模型、本體的閉環迭代。
據許華哲透露,「破殼機器人」第一代32B參數規模的具身世界模型已完成首輪訓練,正處于數據迭代的關鍵爬坡期。在硬件層面,「破殼機器人」為數據采集量身定制的手套硬件已迭代了五六個版本。
近期,《智能涌現》與許華哲聊了聊,以下是交流實錄(略經摘編)
為何出走「星海圖」?
《智能涌現》:為什么選擇離開星海圖,創立一家新的機器人公司?
許華哲:這個想法其實醞釀了很久。在2023年8、9月份,我就開始和高繼揚聊,加入星海圖。但經過了兩年,到去年11、12月份,我已經基本決定要離開了,真正辦完手續是在今年,創立「破殼機器人」是最近一個月的事情。
離開的原因主要是因為我內心一直想做一些To C的、真正泛化的通用機器人。
《智能涌現》:既然一直想做To C,為什么一開始不直接做To C方向機器人的創業呢?
許華哲:原因是多方面的。2023年我加入星海圖時,也考慮過要不要自己創業,但那時我剛從美國讀完書回來,在叉院工作才一年左右,要自己開公司lead一攤事,還要兼顧教職,挑戰很大。
那時星海圖和其他一些具身智能公司也邀請我加入,我覺得先加入一個優秀的團隊做聯創,是一個更穩妥的選擇,而且當時星海圖的宣傳里也提到大概是“讓機器人服務千萬人類”的話語,這和我的一部分想法是吻合的。
《智能涌現》:您現在新公司雖然只成立一個月,都有哪些進展?
許華哲:團隊方面,目前有20人左右,AI側有一些天才少年,硬件側有很多做過To C量產交付的工程師。我們還在火熱招聘中。
在技術上,我們的AI模型在“動得快”、“泛化強”、“成功率高”三個維度都有較好的前期積累,能讓機器人完成某些復雜任務時達到接近100%的成功率。
我們第一代32B的模型已經完成了第一次訓練,但還需要數據量的迭代才能展現出更好能力。我們的硬件手套也已經迭代了五六個版本。
第一個月要處理公司注冊、選址、裝修等各種事務。能跑出這個速度,我覺得還是比較快的。
《智能涌現》:您這次創業,和第一次創業時心態有什么不同?
許華哲:最大的不同是心態上更踏實、也更敢了。第一次創業前,我會擔心,我沒上過班怎么給別人“班”上?我沒做過生意怎么辦,沒跟投資人、政府打過交道怎么辦?
在星海圖的兩年,我接觸過這些事,“沒打過就硬打,沒上過就硬來”,其實最終結果也挺順利的,太多的顧慮沒必要,出來混最重要是先出來。這次心理上更從容。
《智能涌現》:在2023年和2026年兩個節點創業做家庭機器人這件事,區別大嗎?
許華哲:區別挺大的。首先是硬件本體,這三年中國的硬件供應鏈打磨得更好了,有了更多能用的機器人,2023年時可能只能用工業臂;
第二是數據,2023年時機器人的數據幾乎是0,現在網上開源數據就有幾十萬小時,還出現了大量的數據供應商,雖然數據質量和跨本體適配還是問題,但豐富度已經不可同日而語。
第三是融資和市場認知,2023年要做To C機器人可能很難融資,大家給的時間緩沖也更少。今天起步比2023年更好。
AGI應用于家庭,工廠是上一代技術的領地
《智能涌現》:一直想做To C的機器人,背后的觸發點是什么?
許華哲:首先,一個核心思考是,我們做機器人到底在做什么?機器人是人類自古以來的追求,我們在海底撈、酒店、工廠都見過機器人,但如果我們只是用人形的外殼去工廠擰螺絲、搬箱子,那本質上還是在做舊時代的事情。
這一代機器人最核心的不同在于它的通用性。通用性該用在越混亂、越需要通用能力的地方。那答案就是家庭,或者廣義的服務場景。我認為,通用的AGI(通用人工智能)應該用在家里。
第二,從個人偏好來說,做有品牌的事情是可以做得足夠大、有夢想的。偉大的公司很多是To C的,比如蘋果、小米。
第三,從數據角度看,通用性需要有豐富的數據,混亂的家庭場景恰恰能提供豐富的數據。如果你的數據源頭錯了,就得不到正確的模型。
基于這三點,我覺得做To C機器人是一件正確的事,我自己也特別感興趣。
《智能涌現》:您認為AI模型什么時候可以支撐做家庭To C機器人?
許華哲:我的預測比較樂觀激進,我認為兩年內會出現可以用起來的機器人。它不是萬能的,但會是一個有完善產品定義、能做相當多通用事情的機器人,但它會有一些明確不做的事,比如抱嬰兒、燒熱水。
《智能涌現》:機器人進家庭能做的事情都包括哪些?能否舉一些例子?
許華哲:分兩類。一類是本身很難的任務,比如更精細的清潔,比如清潔墻角霉點、擦掉干涸的飯湯、剝橘子、剝蝦等等。
另一類是長序列、多步驟任務的串聯。舉個例子,一個完整的洗衣流程是——把臟衣服放進洗衣機、倒洗衣液、啟動,然后機器人可以去做別的事,它會在監聽到“洗完了”的聲音后,把衣服拿出來放進烘干機,啟動烘干,最后再把衣服拿出來疊好放進衣柜。
現在的機器人能做任何一個單一步驟,但沒有機器人能像人一樣,從頭到尾,帶著這些“任務間的縫隙”把它完成,我認為兩年后的機器人能有這個能力。
《智能涌現》:家庭和工廠場景,最大的區別是什么?
許華哲:家庭和工廠某種程度上都是“混亂”的,但是本質上不同。工廠的混亂更多是“管理混亂”,比如東西亂扔、人走來走去,但它具體干的活,比如上下料、裝配是高度確定性的。
家里的混亂是任務本身的混亂,比如衣服是團成一團的,杯盤狼藉需要收拾,這種混亂是需要通過工作去恢復秩序的。工廠的很多混亂并不需要去恢復。所以,這是兩種完全不同性質的“混亂”。
《智能涌現》:您認為當前做家庭To C機器人,最大挑戰是什么?
許華哲:機器人進家庭的邏輯和落地To B不同。To B的賬很難算,因為工廠給人形機器人干的活價值很低,一臺二三十萬的機器人可能相當于一個人三四年的工資,還要考慮可靠性、維護,很難回本。再加上工廠里采集的數據可能過于專化。
To C的賬不是簡單的“替代人力”計算。它更像科技潮品+家庭助手+管家的復合體。用戶買它,是購買一種先鋒的生活方式、極致的便利,就像二十年前大家買車一樣。我們考慮的是,當用戶有一筆預算時,是買輛車還是買個能改變生活的機器人。
所以,關鍵是產品體驗要足夠好,價值感知要足夠強。價格區間我們內部還在討論,但肯定會是五位數起步。
追求泛化,也是追求美和影響力
《智能涌現》:所以To C并不是您離開星海圖后才有的想法,而是一貫的想法?
許華哲:是的。我從小就想做To C,想創業。初高中的時候讀《喬布斯傳》、《迪士尼傳》,讀完了就很想創業,做一個像谷歌一樣的公司,后來選電子系也是想要做IT,大學還修了管理學雙學位,就是為了創業做鋪墊。
后面去了伯克利、斯坦福,也是一直在做強化學習和機器人,后來還做了一些觸覺相關的研究,也是在機器人大類里。
我博士畢業時(2021年),主要就是找教職還有找投資人聊,看看有沒有創業機會,當時普遍觀感是,下一代技術還遠,這一代技術就是做掃地機、餐館機器人,但是和AI關系不大,沒看到特別匹配我專業技能的創業機會。
《智能涌現》:你判斷一件事情做與不做,或者談論你對某件事是否感興趣時,你的標準是什么?
許華哲:一個是美,這件事要能給我帶來好的審美體驗。另一個是影響力,我們學術圈有一個詞叫impact追問。
美,更多是個人體驗,我做這件事創造出來的東西是優雅、簡潔的,就像簡單的公式能描述復雜的現象,泛化性的本質也是美;影響力意味著,我做的這件事要能對世界產生足夠大的影響,改變人們的生活方式。
現在我們被迫用巨大的參數量來描述世界,是因為我們還沒找到AI領域的牛頓定律,我相信大模型只是一個中間狀態。我的博士生涯是帶著“AI一定存在一個優美理論”的心理開始的,但后來發現理論越來越解釋不了AI,這是一個痛苦但必須接受的過程。
所以現在我的使命是追求簡潔和影響力,如果有另一個公式(而不是AI模型)能描述機器人與世界的所有交互,我會覺得它更好。
《智能涌現》:這次創業你希望找到什么樣的合作伙伴?你會更欣賞什么樣的公司文化?
許華哲:我對合作伙伴和團隊文化有三個核心要求——
極致:我很喜歡戴密斯·哈薩比斯那本傳記里的描述,里面說,一個人做事要做到什么程度,就像跑馬拉松撞線后,有個救護車把你拉走了,但是你最后沒死。雖然有點夸張,但是我覺得做事極致投入,永遠想更進一步,是很重要的。
坦誠:對自己、對同事、對事情絕對坦誠。不會因為不會而裝會,搞砸了就承認,不要為了面子影響效率。
利他:公司里有很多“縫隙”,如果每個人都只盯著自己的KPI,這些縫就沒人填。對于初創公司,需要每個人在有余力時主動填縫,這種利他性長期看對個人和團隊成長都有益。
(作者注:戴密斯·哈薩比斯(Demis Hassabis)是英國著名人工智能科學家、Google DeepMind 聯合創始人兼CEO、神經科學家,被譽為“AlphaGo之父”。)
我很欣賞段永平的“本分文化”,也欣賞前段時間一篇報道中提到的,Kimi“沒有部門墻”的協作模式,我傾向于彈性、扁平的組織,很贊同黃仁勛、亞馬遜那種鼓勵一線員工直接向老板直接發郵件反饋問題的文化。
做全新物種的家庭機器人
《智能涌現》:很多To C的機器人是曲線救國,先從陪伴場景切入,但是感覺你們的您的產品路徑和其他家很不一樣。
許華哲:完全不一樣。他們做的是陪伴,核心能力是大模型提供的對話能力和娛樂。我們追求的核心是物理世界的通用交互和干活能力。
我們的機器人是“家庭助理”,要能實際處理家務,所以在技術上,我們需要非常強的模型能力來保證通用性,但是很多家庭陪伴機器人是沒做基礎模型的。本質上,我們和他們是兩個不同的品類。
《智能涌現》:你們最主要的技術的差異點是在模型側嗎?
許華哲:我們的一大亮點我們的模型能用好強化學習。過去機器人對強化學習的使用一般停留在單機的后訓練上,但是其實強化學習上有很多自己獨特的東西。
第一個就是價值函數(value function)。價值函數可以對數據質量進行評估,讓模型知道哪些數據好、哪些次優、哪些失敗。數據帶著權重,去讓模型學習。
它帶來的好處有兩個,一是可以讓模型學得更精準,二是可以理解失敗的邊界,這樣模型就能夠知道緊鄰著成功的失敗長什么樣,讓強化學習去把這些失敗因素排除掉;
第二是,強化學習能同時在多個任務上保持高成功率高速度,而不過度擬合到單一任務。
第三是,強化學習也可以突破人類數據上限。以前我們用人采集的數據去做某件事,數據是什么樣的,機器人就能做到怎么樣的,甚至會更差,因為機器人是跟著數據學習的。但是強化學習就是根據數據以及后續的自我改進,持續突破自己的上限,最終可能做出比人類示范數據更好的表現,上限更高。
《智能涌現》:你們的強化學習只用在后訓練上嗎?
許華哲:我們的預訓練也會用離線的強化學習。預訓練現在還是有一些卡點的,比如說模型的選擇上有很多種,市面上有用VLA+VLM的,也有世界模型的,還有VLWAM,就是VLM后面再內嵌一個世界模型。
《智能涌現》:那你們還是用VLA的路線嗎?
許華哲:現在模型的路線還遠遠沒有收斂,我們的選擇是世界模型結合原生的機器人模型,不是用VLA的路線。
《智能涌現》:現在的世界模型有很多派別,有的人用的是偏3D視頻的方向,有的又是偏向于世界仿真,你們對世界模型的理解方式是什么?
許華哲:我們輸入的是視頻和動作,在訓練和推理的時候,輸出的也是視頻和動作。這些視頻和動作里面是遵循物理規律的真實世界的數據。
《智能涌現》:你們做這些事情的過程中,遇到的最大的挑戰是什么?
許華哲:要訓練大模型所需的Infra(基礎設施)是一個挺大的卡點,因為我們想做一個32B的大模型,要支撐比較大的數據量,GPU集群的并行效率、數據吞吐都是一個很大的挑戰和壁壘。
《智能涌現》:在模型側你們提到了一項“UAG”架構,這個怎么理解?
許華哲:UAG(Unconditioned Action Guidance)是我們的一種模型訓練架構。
相對于傳統的瀑布式級聯的模型訓練方式,我們采用的是一種并聯的方式,核心思想是先對動作進行預訓練,然后再對所有的動作做整體聯合的訓練,做一個動作預測器,然后再將動作預測器和視覺模型一起進行聯合訓練。
背后的原理是,一個小時的圖片、視頻是巨大的,但是一個小時的動作很少,可能就是一系列關節的運動,也就是一堆小的浮點數。這種方式可以最大程度保留基礎模型的泛化能力,同時大幅提升訓練效率,估計至少5倍以上。
《智能涌現》:數據也是你們新公司的亮點,你們大概有哪些方案?
許華哲:我們的數據方案主要分三層——
①外骨骼數據采集:提著機器人手臂直接操作,精度高,反饋更直接;
②UMI方案:讓人戴一個和機器人手部構型完全一樣的“硬手套”進行操作,好處是沒有機械臂的負擔,采集效率高,數據量大。手套做硬是為了保持和機器人手的一致性,確保人能做的動作機器人都能做;
③第一人稱視角人類數據:在頭上戴一個攝像頭,記錄人日常干活的視頻。這是從人的視角(Ego-centric)采集海量自然行為數據。
《智能涌現》:這些采集方式其他家也在探索,你們最大的不同點在哪?
許華哲:采集的數據,表層方法可能相似,但內核有本質不同。比如umi手套是否打磨得足夠好,足夠通用?采集的數據質量如何保證?以及如何清洗和處理這些數據,提升數據質量?
我們一個很大的不同是,我們會大量使用評估數據,就是機器人自己做測試和探索的時候,自己在動的數據。這樣的數據某種意義上是更“差”的數據,因為里面會有失敗、會有次優。但是這種“差”其實也是“好”,會讓模型更知道任務的目標是什么。
另外,手套的設計細節,比如攝像頭位置、佩戴舒適度、是否適應不同手型等等,都需要針對家庭任務精心打磨,我們手套的構型設計是面向家庭任務,追求通用性的。我們會在8月末左右給大家看到我們和現在所有的形態都不一樣的數采系統。
《智能涌現》:但是現在出來創業會不會太晚了?現在具身智能行業的融資環境怎么樣?
許華哲:市場熱度還可以,投資人還是比較有熱情的。和之前比,投資人更懂了,大家被市場教育過一輪,所以會問得更細。
關于創業出來是否太晚,我認為——在技術沒有收斂的今天,仍然有巨大的機會。同時,因為我們更晚,所以我們的時間壓力更小、負擔更小,但是各種基礎設施比如本體等也更加成熟了。另一方面,走向通用家庭機器人,其實才剛上半場。雖然后發,但是誰能先至,也未可知。
封面來源|企業官方
end
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.