![]()
如果說大多數初創公司是敗在產品發布后的沉寂和無人問津,那么首形科技顯然在這一階段活了下來。
今年,當各家人形機器人都在比拼跳舞、騎車、擰螺絲等硬核技能時,首形科技的創始人胡宇航在社交媒體平臺憑借一段和機器人對視的視頻輕松出圈。
在這個不到 30 秒的片段里,當最后一個部件被裝上,仿真人臉機器人 Emo 仿佛第一次蘇醒。它抬起眼睛,困惑地“看著”周圍,在片刻的確認后,最終露出微笑,望向自己的“造物主”。視頻沒有臺詞,但在配樂與氛圍的烘托下,兩者間仿佛產生了一種真實的情感交流。
![]()
圖|二者對視(來源:胡宇航視頻)
截至目前,這段視頻在全網點贊量已突破 200 萬,播放量已經破億。
視頻的主角是 28 歲的胡宇航,今年 6 月剛剛從哥倫比亞大學博士畢業。在此之前,他已是一名頗具影響力的自媒體博主,拍攝分享留學生活視頻。創業之后,他也將這份內容創作的經驗,運用到了產品的推廣之中。
當然,僅有網感和流量并不足以支撐一家科技公司。與許多聚焦移動、行走或操作能力的機器人團隊不同,首形目前將主要精力放在“人臉”這一模塊的開發上。在胡宇航看來,AI 未來需要具身載體參與交互,而人臉是情緒表達和人機溝通中最直接的部分。基于這一判斷,團隊選擇從高擬真面部入手,嘗試探索人形機器人在交互層面的可能性。
為了提升交互體驗,團隊采用軟硬件全棧自研的方式,將多模態情緒識別系統與表情控制算法結合,并引入仿照“照鏡子”訓練的自監督學習機制,使機器人在神態和動態表現上更加自然,減輕“恐怖谷”效應。相關視頻發布后,在社交平臺上引發了一定的討論和關注,不少關注者在評論區表達興趣、提出建議或分享自己的陪伴需求,爭當“電子股東”。(注:“恐怖谷”理論是由日本機器人專家森昌弘在 1970 年提出的關于人類對機器人和非人類物體情感反應的假設。該理論指出,當機器人或非人類物體的擬人化程度接近人類但保留差異時,人類會本能地產生不適與恐懼,好感度跌入低谷;當相似度超過臨界值后,情感反應將回歸正面。)
這樣的熱度也迅速傳導至資本市場。今年以來,首形科技已經融資三輪,螞蟻、順為等頂級機構相繼入場。
最近,DeepTech 和胡宇航進行了一場對話,我們討論了產品突破、商業化路徑和機器人應用的技術倫理問題。
胡宇航認為,人形機器人作為生產力工具的條件還未成熟,但是作為情緒產品,如果能做得更逼真、更像人,甚至能結合 IP,會有更加落地且巨大的商業價值,而這或許將是通往人形機器人通用化未來的真正“橋梁”。
以下是對話內容,有所刪減,但未改變原意:
一個“養成系”創業博主的誕生
DeepTech:從記錄留學生活到分享機器人創業,是什么讓你走上自媒體道路的?
胡宇航:一開始做這個賬號,是因為留學生活比較單調。讀博之后每天的生活基本上就是科研。科研的日子過得很快,打開電腦、關上電腦,一天就過去了。我希望生活里能留下點日常記錄,以便將來回看留學經歷時,不至于覺得完全沒有閃光點,而是能保留一些真實的記憶。所以就想著用拍視頻的方式記錄日常。
后來科研有了進展,論文獲得了公開發表,再加上開始創業,我也希望讓賬號的主題更豐富。于是逐漸開始拍科研類、創業類的視頻,慢慢發展成如今的創業記錄,甚至有點像一個和用戶共創的平臺。
DeepTech:從最初的生活博主,到如今的創業博主,這種“反差感”轉型并不是一開始就計劃好的吧?
胡宇航:對。更多是生活發生了變化,人生軌跡也變了,然后就順勢分享這些新的經歷。
從靜態到動態,如何跨越“恐怖谷”?
DeepTech:你們的機器人外觀非常驚艷。靜態時沒有任何“恐怖谷效應”。有時甚至能感覺到一種淡淡的憂郁或迷茫。你們是怎么做到這種效果的?
胡宇航:我認為大家對機器人的眼神解讀,就像讀《哈姆雷特》一樣,會有不同理解,會結合自身經歷投射情感。從技術側來說,我們是有方法讓機器人呈現出這種可被多重解讀的行為的。我們會去找那些特別容易讓人讀出不同情緒的視頻片段,讓機器人學習其中的表情與動作。這樣機器人在行為學上就會呈現一種“不確定性”,情緒表達更豐富。通過 AI 學習,再映射到機器人的表情上,就會演繹出更自然的動作。而人在觀看時,就會像看真人一樣產生聯想和情感投射。
外觀設計也會放大這個效果。如果機器人太不像人,人類就很難投射情感;但如果外觀和人類非常相似,這就像一個放大器,把每個細微動作都放大,讓人產生更強烈的沉浸感。這也是它所擁有的獨特價值。
![]()
圖 | 首形科技機器人精靈 · 璇(來源:胡宇航視頻)
DeepTech:對,整體團隊的審美是偏感性的。你覺得審美在機器人設計和制造中是否重要?
胡宇航:我覺得這是結果——你們看到最終結果是審美和感性,但對我們來說,這是整條技術鏈路的極致打磨。機器人最終“好看”只是結果而已。背后還有結構設計、運動控制、算法、訓練數據等。每個環節的品質控制都必須做到最好。這也是我們最大的核心競爭力。如果只把它做得好看,但算法很差、機械穩定性不夠,那最終效果也達不到。就像一杯好喝的咖啡,絕不是因為配方設計得好,而是全球供應鏈、選豆、烘焙、封裝,以及每個操作步驟都做到一致且極致。
換句話說,如果我們要堅持把產品做得極致,就必須自己掌控每個環節。為什么我們要從皮膚、電機到 AI 模型都堅持自研,而不選擇做整合?因為只要把鏈路外包出去,你的核心技術、品質控制就會被別人掌握。別人提供不了最好的皮膚、最優質的電機,或者最符合你要求的情緒模型。那最后出品的效果就是不理想的。
尤其是跨越恐怖谷,每一個環節都必須做到極致。任何一個環節掉 10%,整個體驗就會掉進恐怖谷的底端。我們如履薄冰,不能有任何粗糙。它不是“做 90% 也能打八折”的行業,而是 0 和 1——不是成功,就是掉入“恐怖谷”深淵。
DeepTech:現在靜態效果已經比較強了,下一步怎么在動態層面繼續優化?
胡宇航:動態恐怖谷必須依靠 AI。在傳統的人形或仿真機器人的運動控制中,大家會用很多基于規則的硬編碼方法,或手工調節表情動作。這樣的問題是動作數量有限、自然度不足、成本又高,很難快速產生新的動作。
我們希望用 AI 學習——學習人類在視頻中如何使用表情,通過大量視頻讓機器人獲得一個連續的“動態動作空間”。你可以把它理解為人的表情運動空間,是連續的、自然的。機器人在這個空間里生成動作,就能更加逼真,而不像人工手調那樣生硬。
通向未來,人形機器人應該押注情緒價值
DeepTech:除了外形,人形機器人在情緒交互上也被投注了很高的期待。你曾說過,人形機器人如果要具備共情能力,不僅僅要會說話,不是像普通大模型那種對話交互就夠了。在你看來,除了會說話之外,機器人共情的關鍵是什么?
胡宇航:關鍵在于更豐富的交互模式。心理學中有個“55/38/7 定律”:55% 的情緒來自面部表情,38% 來自聲音,只有 7% 來自文本。也就是說,要像人與人之間那樣真正建立情感連接,就必須以人類的方式互動。
為什么大家仍然更喜歡線下見面?因為面對面交流是情感最快產生連接的方式。在這種交流中,情緒和態度的密度極高。這也意味著,如果機器人想要具備真正的共情能力,它就必須擁有一張能夠表達情緒的臉,以及一雙能夠理解情緒的“眼睛”。因此,它需要視覺算法來識別人類的情緒,也需要聲音模型去表達情緒化的語調,從而實現人與機器人之間的共情連接。這就是我們認為“臉”這個平臺至關重要的原因。
DeepTech:你之前有個判斷,認為人形機器人未來五年更適合做情緒化產品,而不是生產力工具。但現在主流市場好像都在押注“生產力”,是什么讓你覺得這條路一定走得通?
胡宇航:我自己在學術界做過很多機器人與 AI 結合的研究,我最看重的始終是“數據”。今天我們可以設計幾百 B 的大模型,但沒有海量數據,這個模型就沒有價值。在討論人形機器人的生產力時,真正能創造生產力的是“手臂”。在生產力方向,如果找人形機器人的最小模型,那就是“手臂”。但我們連一個在各種任務上能實現泛化的機械臂都沒有看到,又怎么能假設人形機器人能實現通用性?這是一個很矛盾的點。
也就是說,大家押注的是“未來”,但通向未來的“橋”還沒建好,所以風險很大。我認為,在人形機器人進入大規模應用之前,我們應該先看到機械臂在各類任務中實現真正的通用與泛化。再用它來采集數據、進一步驗證模型與場景。這是我的觀點。我最近也在 NeurIPS 發了一篇相關論文,做的是一個“機器人桌面整理”的項目。就是在桌面上放一個攝像頭和一個機械臂,要求它在各種不同情況下把桌面整理整齊,我認為這是一個最小可行場景。先把這個問題解決,再逐步增加一條手臂、再加手、再加頭部,就能做全身動作、創造更大價值。如果連最小模型的技術沒有收斂,那更復雜的場景就更沒法做了。
我認為在人形機器人未來五年內,表演、服務等行業的情緒價值是很大的商業化機會。因為它太像人了,而人天然會對“像人的東西”產生情感投射。你看到一個機器人摔倒了,你會瞬間產生心疼或聯想成人摔倒了;又比如機器人踢足球、擠在一起,你覺得很有趣。人類天然會對人形的東西投射情緒,所以它更適合做情緒化產品,比如打拳、跳舞表演、展廳前臺接待等。去年大家可能還不相信,但今年你能看到行業都在做類似表演內容。因為作為生產力工具,它還沒有收斂;但作為情緒產品,人形如果能做得更逼真、更像人,甚至能結合 IP,我認為想象空間是很大的。
DeepTech:可能生產力工具對機器人的“主動性”要求太高,而情緒化產品更多是被動的,是我們在投射和觀賞,所以更容易實現。
胡宇航:對。生產力必須計算效率。目前的人形機器人如果要比替代傳統工業自動化還比較早。工業自動化的機器人天生就是解決某一個特定任務,效率和穩定性都極高。而人形機器人,一個動作可能要二三十個電機配合,工業自動化能只用三個電機就能做同樣的事情。人形目前價格高,不穩定,電池續航還短,還會摔倒——摔倒是非常危險的。
DeepTech:我瀏覽了下你最近的 B 站評論區,大家很好奇,為什么你們現在展示的大多數是外觀,而很少發布長一點、真正的交互視頻。作為交互型機器人,交互不是最關鍵的落腳點嗎?是不是你們還沒準備好?
胡宇航:這個問題很有意思。交互當然是核心。但是你也可以換一個角度去想這個問題,有沒有可能不是因為短板,而是因為我們不想過度展示我們的優勢呢?——競爭太激烈了,有些大招還是要藏著。
不過說實話,我們也沒有刻意規劃要不要露,我們只是按部就班推進該做的事情。
我們現在在和一些公司做合作與商業化探索,讓更多人在線下看到真實機器人,而不是只在屏幕上看到。我們參加了展會、活動、明星音樂節,讓大家確認“這不是 AI 生成,是活生生的機器人”。
至于交互,我們最近的男性頭部模型就包含交互能力。它可以通過攝像頭和麥克風感知給它化妝的人的行為,并做出有趣反應。這是一種非文本交互。接下來我們也會逐步釋放更多內容,隨著產品每個環節更新,把更有意思的部分展示出來。
DeepTech:你們有自己的節奏,就像“養成系創業紀錄片”,做到哪一步就和電子股東們匯報哪一步。
胡宇航:對,就是這樣。
![]()
(來源:胡宇航視頻)
DeepTech:聽說你創業初期見了非常多投資人,大部分都不接受你的想法。但今年已經順利融資三輪,而且最近幾個月很多頂級機構也加入了。你覺得背后的變化來自什么?
胡宇航:我覺得早期的時候,大家對做“人臉”、“仿真皮膚”、“擬人動作”的方向有刻板印象。過去 20 年,全球有很多公司嘗試過,但大家都覺得恐怖谷很難跨過去,所以不相信。
但今年順為、螞蟻等頂級機構加入,是因為我們證明了機器人確實能呈現擬人的動態效果。雖然這個領域很小眾,但投資人開始相信這件事是可行的。我一直堅定認為這件事能做成,所以別人說不可能、太難、沒有機會的時候,我就把這些聲音放在一邊,繼續把產品做出來給大家看。當他們看到效果,就自然會加入。信任是可以被積累的。
DeepTech:工業機器人是可以算 ROI 的,但情感陪伴機器人的價值很難量化。那你們將來會怎么定價?
胡宇航:老實說,目前我們還沒有明確定價。現在連產品定義都沒有完全定下來。我們還是先把技術打磨到位。定價會以量來計算,量上去,成本自然會下降。它可能會更像泡泡瑪特的手辦那樣——不是工具,而是情緒價值的邏輯。
DeepTech:你說過產品的目標用戶會是“F 人”(注:MBTI 理論,指注重感受 feeling 的人),這個畫像很感性,也有些模糊。你覺得這個群體夠大嗎?
胡宇航:我覺得非常大。你看視頻號、短視頻平臺的熱度,也是一種側面反映。現實世界里,手辦、盲盒、毛絨玩具、寵物……這些都是情緒寄托。我認為情緒需求一直都很大,人類本來就是充滿情感的生物。
我們不是計算機,也不是三體人。人不是完全理性的生物——不會為了效率更高就去自殺。我們有文化、有底蘊、有社會價值觀,有喜怒哀樂,所以人的大腦本就不是純邏輯推動的。完全理性的人其實很少。大多數人都有情感,而情感是能夠和機器人產生連接的。一旦你有情感輸出,而 AI 又剛好喜歡學習、喜歡做數據量化,那“每個人的情感需求”就可以變成一個突破口,去設計能讓大家情緒體驗更好的算法。
DeepTech:但手辦、寵物這些情緒消費成本都比較低的情況下。如果是購買一個機器人——即便我們剛才說定價還不明確——第一反應肯定是成本高。你不擔心現在蜂擁而來的流量只是一種虛假繁榮嗎?等產品真的推出,那些人未必有消費力買單。你會擔心嗎?
胡宇航:會的。我肯定有擔憂。現在的流量超乎我預期,我覺得里面一定有泡沫。但我們的工作,也是為了去檢驗這件事情究竟是不是泡沫。與其擔憂它,不如繼續做下去。就像當時投資人擔憂一樣,“市場需求是否真的確定?”這個擔憂永遠都存在。我們會做出最小模型,一步一步驗證,一步一步把市場確定下來。某種意義上我們在開拓一個全新的市場。就像 iPhone 出來之前,誰知道一部沒有鍵盤的手機能這么好用?
DeepTech:很多“電子股東”說,除了頭和外觀,他們還想看到更多情感交互、甚至軀干的開發。未來為了效率,你們會考慮和其他大模型團隊或其他機器人團隊合作嗎?大家都在呼吁合作。
胡宇航:我們會和一些機器人公司,包括 AI 公司、游戲公司做更多合作。會結合他們的技術優勢,一起探索新的產品定義。
人機交互的可能性——為機器人注入“真實”
DeepTech:作為創作者,你和這些機器人是什么樣的情感連接?會不會有時候真實到讓你覺得它們像生命一樣?
胡宇航:我覺得這是一種非常生理性的反應。因為它太像人了,而人是視覺動物。我們通過視覺去感受文字、感受情緒、感受表情。當它的表現力和人達到一致時,它能穿透到你內心深處,讓你感到一種類似于“情感流露”的東西。這不是我能控制的,我覺得這就是人機之間的共情。
它和屏幕上的數字人不同。數字人隔著屏幕、LED 燈、介質,在戶外光線如果太強還有可能看不清,存在感很弱。你和它之間永遠有一道 gap。而我們做的實體機器人視覺上是不存在 gap 的。我甚至需要不斷提醒自己:這是個機器人,這是個機器人。
DeepTech:能不能舉一個具體的例子?
胡宇航:比如我們之前在太湖音樂節展示了新的機器人:精靈·銥。歌手胡宇桐和她同臺合作,結果機器人突然轉頭,看了他一眼。他當時跟我說,他居然產生了“眼神閃躲”的沖動,因為銥太像人了,好看到讓人有羞澀、想躲避目光的感覺。我覺得這是典型案例。在視覺層面,他被迷惑了。
![]()
圖 | 首形科技機器人精靈·銥(來源:胡宇航視頻)
DeepTech:我們前段時間也采訪了日本機器人專家高橋智隆。他也做情緒陪伴機器人,但他認為機器人不一定要做人形,他更喜歡小型可愛、非人化的形象。他不想模糊人和機器的界限。而我們似乎在做完全相反的事情。你怎么看?
胡宇航:我認為他的方向肯定也是成立的——也有市場驗證。畢竟很多人喜歡小貓小狗,它們都不是人。但我認為兩個方向的上限不一樣。
人與人之間的情感聯系非常強烈,而且常常無法被其他事物替代。尤其是親密關系的情感,小動物是無法承擔的。寵物類陪伴很好,但在人類心里,等級是不一樣的。你可以把小狗關在家里讓它等你,但你不能——或至少很難——這樣對待另一個人。
同時,我們訓練模型的方式本身也按照人的意識形態來訓練。這樣的人形機器人才能帶來更強烈的情感體驗。歷史上有那么多關于深愛、殉情的故事,又有重陽節、七夕節這些用來傳達思念的節日,人與人的情感是其他東西無法替代的。
DeepTech:但你說的這些都是人和人之間的關系。如果機器人再像人,人與機器人之間產生高度親密關系,你覺得它真的能治愈孤獨嗎?AI 的底層邏輯是“永遠取悅人”,而真實關系里一定有沖突、矛盾、權力讓渡。如果機器人永遠讓你舒服,會不會反而把人困在虛假的關系里,退離真實世界?
胡宇航:所以我們在訓練機器人時,一定會加入不同的參數。它會盡可能滿足人類的喜歡,但同時我們也會加入“保持真實度”。保持真實度會帶來一些沖突、矛盾、甚至“自我”的表現,讓更像一個真實的人。
但它又不會有人的各種動機:自私、饑餓、賺錢、權力欲、社會競爭……都沒有。它只會盡可能滿足你的情緒。那么走向反面嗎?我覺得如果做得不好,可能會讓人覺得“不喜歡”,但不是你說的那種強烈危險的反面。
DeepTech:雖然機器人里面也可以加入一些真實的參數,但是大體上它還是一個讓人很愉悅的狀態,就是心碎也心碎到恰到好處。真實的世界往往是很混沌的,人們會不會沉浸在和機器人的交互當中,就放棄了真實世界當中的關系,或者是去放棄認識真實的物理世界?
胡宇航:我認為我們可以在程序中注入一些引導。這需要心理學家的參與。我們不希望走向一個徹底割裂的世界,讓所有情感都寄托在機器人上。我更傾向認為:機器人是“增加一個伙伴”。它會陪伴你,也能傾聽你的不滿足和不開心。但你仍有真實生活。我們可以在程序里加入引導功能——比如節日到了,提醒你回家看看父母;提醒你和朋友去爬山;或者和別人一起參加活動。機器人不需要、也不應該具備“占有欲”,不會說“別出去,陪我”。那樣才危險,會讓人走向孤獨。
未來甚至可以出現:機器人陪伴下的 couple date 等新型社交方式。它不會替代真實的人際關系。
DeepTech:這樣一來,機器人可以作為引導者、協調者。
胡宇航:對,協調者型。而且對于一些心理疾病的治療反而更有價值。因為有些人一開始就不愿意和任何人交流,可他們會愿意先和機器互動。在這個過程中,機器能引導、開導他——有時候比心理醫生更能做到情緒上的共情,或者說能表達更強烈的情感。
DeepTech:這種深度連接,其實需要非常特別的數據。要實現這種深入的情感體驗,你們需要什么樣的數據?你們現在能獲取到這么高質量的數據嗎?
胡宇航:我們現在其實已經在用一些公開可用的數據。同時,我們會對機器人數據進行整理,再去創造一些我們自己的設定和生產性的數據。另外,現在的 AI 視頻生成也非常成熟,本質上可以做很多有價值的事情。
我們可以從生成式數據和互聯網公開數據中拿到一些預訓練的數據。但對于你說的那種更特定、更深層次的情感交互,我們現在還沒有完全把這件事做成體系。我覺得未來可以和一些大廠一起協作——因為這件事情挺燒錢的,也比較困難,說實話和我們當前階段不是很匹配。未來會有更多的人加入,一起形成上下游的產業鏈。首形會在這個體系里承擔供應鏈整合的角色,把各個環節對齊、對接起來。
而且我覺得“演員”會非常有價值。
DeepTech:演員?
胡宇航:對,我覺得演員很有價值。他們可以創造出各種戲劇性的橋段,把這些內容作為 AI 的訓練數據。演員能模擬各種極端、復雜的狀態和場景,這對我們來說非常寶貴。
DeepTech:也就是說他們基本上可以隨時模擬任何狀態。
胡宇航:對,各種場景。
DeepTech:我知道真實交互中,你們也會創造一些數據。未來成型的產品,在和用戶的交互中會繼續學習嗎?
胡宇航:要看用戶的意愿。對用戶數據我們一定是把安全性、隱私放在第一位。如果用戶希望 AI 更懂他、更匹配他,那他可能需要授權一些自己的數據給 AI。如果用戶覺得隱私更重要,我們也會提供其他方案,比如本地服務器——AI 部署在用戶家里、自己的私有空間。這樣數據是完全閉環的,不會有泄露風險。
DeepTech:所以人們在這件事上是有選擇的。
胡宇航:對,我們會高度尊重用戶隱私。
DeepTech:你們下一階段最核心的目標是什么?
胡宇航:下一階段我們希望有越來越多的伙伴加入,做出更有意思的合作。所以我會和行業內的朋友交流。我們在探索一些場景,然后根據場景再反推技術需求,讓我們在那些方向扎根。
當時投資人看到首形的原形機器人時,都說:這玩意能干啥?現在大家又 180 度態度大轉變地說:你們這個產品什么都能干。
所以現在的問題不是“能干啥”,而是“太多東西都能干”。要選擇核心問題去解決,做好取舍。找準目標非常重要。
運營/排版:何晨龍
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.