從文字、圖片到視頻,AI的創(chuàng)造力在二維世界一路狂飆。我們驚嘆于ChatGPT的對答如流,也為Sora的超現(xiàn)實視頻而震撼。但這一切精彩,都被禁錮在冰冷的屏幕上,終究是一串流動的像素,無法用真實的肢體與我們交流。
真正的下一站,是讓AI走出平面,擁有一個可以在三維空間中表達和交互的身體。
在這樣背景下,硅星人發(fā)現(xiàn)了一個3D領域中最難實現(xiàn)的,3D數(shù)字人的生成平臺:魔琺科技旗下的星云平臺,覆蓋了從文本直接生成包含語音、動作、表情在內的完整3D表達的AI平臺。
魔琺CEO柴金祥對硅星人講到了他的判斷:“未來每個APP都會是一個‘人’。你不再需要點擊填表,只需對著屏幕上的‘她’說話,她會理解你的需求,用語言和肢體為你完成一切。”
從2D到3D,這不僅是維度的跨越,更是一場深刻的交互革命。當AI終于獲得身體,我們的數(shù)字生活將如何改變?帶著這個疑問,硅星人測試了星云平臺,試圖理解:當AI獲得“身體”后,技術實現(xiàn)是什么,應用場景會發(fā)生什么變化。
實測星云:秒回復、零卡頓、自然表達
星云平臺最顛覆的一點,是它把創(chuàng)造3D數(shù)字人的權力,交到了每個普通開發(fā)者手里。你不再需要專業(yè)的建模或動畫團隊,只需在網(wǎng)頁上動動手指,調整幾個參數(shù),一個專屬的數(shù)字人便誕生了。實時互動、語音播報、多語種切換,甚至直接生成視頻,所有你需要的功能,它都為你打包好了。
一開口,我就感覺到了不同。當我們報出5000元的預算和辦公需求,他幾乎是立刻就給出了三個最新的型號方案。從聯(lián)想、戴爾到華為,每一款的CPU、內存和續(xù)航,他都講得明明白白,就像一位真正懂行的朋友在幫你精心挑選。
當他正在介紹硬盤參數(shù)時,我們毫無征兆地打斷他,提出想看更便宜的機型。他只是停頓了大約一秒,就立刻領會了我們的新意圖,無縫切換到新的推薦了最新的款式。
為了探索更多的場景,我們又測試了兩個截然不同的角色:一個是一絲不茍的招聘面試官,另一個則是情感細膩的AI虛擬男友。
我們讓他用英文面試一個新的崗位。他的表現(xiàn)像個真正的HR:提問有邏輯,從項目經(jīng)驗—技術棧—解決方案,英文輸出很自然,還會根據(jù)回答追問細節(jié)。而AI虛擬男友的核心不是傳遞信息,而是提供陪伴感。最明顯的是肢體語言和情緒的匹配,會擺動雙臂配合撒嬌語氣,安慰的時候會做出輕拍肩膀的手勢,語氣溫柔時表情也會變柔和。
測試下來最大的感受是,你不再覺得是在跟一個機器人對話,而是在與一個“活生生”的虛擬角色交流。
無論是專業(yè)術語、情緒表達還是突然改變的需求,他總能精準捕捉到話語背后的意圖,不會答非所問。但更重要的是,他擁有自己的“身體語言”。他不再只是一個會動的嘴巴,推薦產(chǎn)品時的自信手勢、撒嬌時的俏皮擺臂、面試時的專注神情,都伴隨著對話實時生成。
破解數(shù)字人的“不可能三角”
在流暢的用戶體驗背后,是星云平臺的技術創(chuàng)新。
數(shù)字人行業(yè)存在一個長期未解決的“不可能三角”:要質量加低延時,成本會激增,無法規(guī)模化;要高并發(fā)加低成本,必須犧牲質量;要質量加高并發(fā),延時就會上升,無法實時交互。星云平臺通過模型層面的技術突破和系統(tǒng)層面的架構創(chuàng)新,來解決這個“不可能三角”。
星云的核心技術是由LAM(Language Action Model)驅動數(shù)字人,這是一個文本生成多模態(tài)3D的大模型。LAM的輸出不是文本或圖像,而是“身體語言”。這個差異決定了數(shù)字人的能力邊界。傳統(tǒng)數(shù)字人處理的是“說什么”的問題,而LAM要解決的是“怎么說”,同樣一句話在不同場景下,語調、節(jié)奏、表情、手勢會完全不同,這些細節(jié)才是讓數(shù)字人顯得自然的關鍵。
具體來說,當輸入文本或語音后,模型需要理解的不僅是字面意思,還包括情緒基調、場景語境、表達意圖。比如同樣是“好的”這兩個字,在客服場景是確認語氣,在虛擬陪伴場景可能是撒嬌語氣,在招聘場景則是正式禮貌的回應。
理解語義之后,模型會同時生成四種模態(tài)的3D表達信號:
- 語音層面包括語調、節(jié)奏、情緒的變化:推薦產(chǎn)品時語速快、語氣熱情,安慰時語速慢、語氣溫柔;
- 動作層面包括姿態(tài)、手勢、身體語言:介紹產(chǎn)品參數(shù)時的指向手勢、強調重點時的手部動作、撒嬌時的身體搖擺;
- 表情層面包括情緒、眼神、眉目動態(tài):微笑的程度、眼神的方向、眉毛的起伏都會根據(jù)對話內容調整;
- 手勢層面是與語義同步的肢體動作:說“這個”時手指會指向某個方向,說“大概這么長”時手勢會比劃距離。
這四種模態(tài)是同步生成的,不是分開處理再拼接。模型輸出的是對“這句話應該怎么說”的完整理解。
但光有LAM模型還不夠。如何讓它快速運行、低成本部署、支持大規(guī)模并發(fā)?這需要從系統(tǒng)架構層面重新設計。傳統(tǒng)數(shù)字人方案的流程是:云端渲染完整視頻,傳輸?shù)接脩粼O備,然后播放。這個流程存在幾個問題:渲染3D畫面需要高性能GPU,云端成本極高;傳輸視頻流需要大帶寬,每路用戶每秒占用數(shù)十MB;視頻生成和傳輸都有延時,難以做到實時交互;用戶量上升后,云端壓力呈指數(shù)增長,難以規(guī)模化。
星云改變了這個流程。云端只負責生成參數(shù),不渲染畫面。LAM模型接收文本后,生成語音參數(shù)(音頻波形特征)和動作參數(shù)(3D骨骼、表情、手勢等控制信號),這些參數(shù)的數(shù)據(jù)量很小,只有幾KB到幾十KB。然后將這些參數(shù)傳輸?shù)接脩粼O備,這里傳輸?shù)牟皇且曨l流,而是“如何渲染”的指令。
![]()
用戶設備接收參數(shù)后,通過端側AI渲染模塊將參數(shù)實時轉化為畫面。這個模塊可以運行在RK3566/RK3588等百元級國產(chǎn)芯片上,不需要高端顯卡。整個鏈路的延遲在1秒左右,云端生成參數(shù)、端側渲染畫面、用戶看到數(shù)字人說話,這個過程是實時的。
這種架構帶來的變化是:延時從秒級降到毫秒級、帶寬從每秒數(shù)十MB降到KB級、云端可以支持千路以上同時在線,同時云端不需要配備大量GPU,端側可以用百元級芯片,整體成本據(jù)稱下降到傳統(tǒng)方案的幾十分之一;端側AI渲染模塊可以運行在手機、平板、智能屏、車機等各種設備上。
技術方案背后,還有一個關鍵問題:LAM模型從哪里學會“說這句話應該配什么動作”?魔琺創(chuàng)始人柴金祥告訴我們:“3D數(shù)字人領域最大的壁壘不是算法,是數(shù)據(jù)。文本、圖片在互聯(lián)網(wǎng)隨處可見,但高質量的3D動作、表情數(shù)據(jù)幾乎不存在。”
魔琺從2018年起就開始積累這些數(shù)據(jù)。早期為游戲公司、影視動畫公司制作3D內容時,這些商業(yè)項目產(chǎn)生的動畫數(shù)據(jù)經(jīng)過脫敏處理后成為訓練數(shù)據(jù)的一部分;后期則完全自研和制作動畫數(shù)據(jù),專門組建動畫團隊,針對LAM模型的訓練需求制作各種場景、各種情緒、各種表達方式的3D動畫。目前累計了數(shù)千小時的高質量3D動畫數(shù)據(jù),涵蓋人臉表情、手部動作、身體姿態(tài)、多人互動等完整數(shù)據(jù)集。
這些數(shù)據(jù)的積累周期和成本投入,構成了星云平臺難以復制的護城河。
從數(shù)字人到Embodied Agent
如果只把星云理解為“做3D數(shù)字人的平臺”,會錯過它真正的技術定位。
星云將自己定義為語言驅動身體的具身智能平臺:不是內容生產(chǎn)工具,而是面向開發(fā)者的基礎設施。它輸出的不是渲染好的視頻或動畫,而是“動作參數(shù)”,這些參數(shù)可以驅動虛擬世界的3D數(shù)字人,也可以驅動物理世界的人形機器人。
我們首先要區(qū)分清楚兩個概念:Embodied AI(具身智能)指的是讓AI具備“身體感知與行動能力”的智能形式:AI不只思考,還能通過身體與環(huán)境交互。Embodied Agent(具身智能體)是這種智能的具體載體:擁有“身體”的智能體,可以在虛擬或現(xiàn)實空間中感知、表達、行動和交互。區(qū)別在于:具身智能是能力,具身智能體是擁有這種能力的載體。
星云定義自己為“具身智能3D數(shù)字人平臺”,聚焦的是Embodied Agent層,提供“身體”,作為承載智能的容器。大模型已經(jīng)提供了“大腦”,現(xiàn)在缺的是讓這個“大腦”可見、可交互的“身體”。一個AI客服可以用文字回答問題,也可以用語音回答問題,但這些形式都是“無形”的。星云的功能是給這個AI添加一個“身體”:3D數(shù)字人形象,讓它能通過表情、手勢、肢體語言表達情緒和意圖。這個“身體”不只是視覺呈現(xiàn),而是完整的表達系統(tǒng)。
開發(fā)者通過SDK或API接入星云,就能讓自己的AI應用具備數(shù)字人形態(tài)。這個邏輯類似于AWS不做具體應用,但提供計算、存儲、網(wǎng)絡的基礎能力,開發(fā)者基于這些能力構建應用。
更進一步的技術規(guī)劃在于:從虛擬到物理的統(tǒng)一輸出格式。星云的底層是LAM模型,輸入文本或語音,輸出語義一致的三維動作、表情和手勢。這意味著星云的功能不限于讓AI在屏幕上可見,它可能成為連接虛擬智能與物理智能的接口。
據(jù)硅星人了解,魔琺目前正在與多家人形機器人公司合作,驗證這條技術路徑。他們提供的不是完整的機器人方案,而是“語言→動作”的轉化層:機器人廠商負責硬件和控制系統(tǒng),星云負責讓機器人理解對話內容并生成對應的肢體表達。
結尾:
從Embodied AI到Embodied Agent,星云平臺開放的不只是API接口,而是通往“每個APP都是一個人”時代的入口。
這個判斷聽起來激進,但邏輯清晰。過去十年,AI的進化路徑是從“專用工具”到“通用助手”:從只能識別圖片的算法,到能對話、能寫作、能推理的大模型。但這些AI仍然是“看不見”的,用戶通過文字框或語音交互,感受到的是智能,看不到“人”。
星云要做的是給這些AI加上“身體”,不只是視覺形象,而是完整的表達系統(tǒng)。當AI真正擁有“身體”,從“看不見的算法”變成“站在你面前的伙伴”,人機交互方式將被重新定義。
這種重新定義不只發(fā)生在虛擬世界。從屏幕里的3D數(shù)字人到物理世界的人形機器人,星云正在打通的是同一條技術鏈路:語言驅動身體。LAM模型輸出的動作參數(shù),既可以渲染成虛擬形象,也可以控制物理機器人。這意味著未來的AI應用,可能同時存在于兩個世界:線上是數(shù)字人客服,線下是機器人接待員;線上是虛擬健身教練,線下是陪伴型機器人,它們使用同一套“大腦”,只是“身體”形態(tài)不同。
具身智能時代的全貌我們尚難預見,但可以確定的是,我們正在經(jīng)歷的不只是技術升級,而是交互范式的轉變:從人適應機器,到機器理解人。星云提供的是這個轉變的基礎設施,一切才剛剛開
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.