網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

從對話框到數(shù)字人：魔琺星云如何讓每個AI都擁有"身體"？

2025-11-03 18:05:14　來源: 硅星人

北京舉報

分享至

從文字、圖片到視頻，AI的創(chuàng)造力在二維世界一路狂飆。我們驚嘆于ChatGPT的對答如流，也為Sora的超現(xiàn)實視頻而震撼。但這一切精彩，都被禁錮在冰冷的屏幕上，終究是一串流動的像素，無法用真實的肢體與我們交流。

真正的下一站，是讓AI走出平面，擁有一個可以在三維空間中表達和交互的身體。

在這樣背景下，硅星人發(fā)現(xiàn)了一個3D領域中最難實現(xiàn)的，3D數(shù)字人的生成平臺：魔琺科技旗下的星云平臺，覆蓋了從文本直接生成包含語音、動作、表情在內的完整3D表達的AI平臺。

魔琺CEO柴金祥對硅星人講到了他的判斷：“未來每個APP都會是一個‘人’。你不再需要點擊填表，只需對著屏幕上的‘她’說話，她會理解你的需求，用語言和肢體為你完成一切。”

從2D到3D，這不僅是維度的跨越，更是一場深刻的交互革命。當AI終于獲得身體，我們的數(shù)字生活將如何改變？帶著這個疑問，硅星人測試了星云平臺，試圖理解：當AI獲得“身體”后，技術實現(xiàn)是什么，應用場景會發(fā)生什么變化。

實測星云：秒回復、零卡頓、自然表達

星云平臺最顛覆的一點，是它把創(chuàng)造3D數(shù)字人的權力，交到了每個普通開發(fā)者手里。你不再需要專業(yè)的建模或動畫團隊，只需在網(wǎng)頁上動動手指，調整幾個參數(shù)，一個專屬的數(shù)字人便誕生了。實時互動、語音播報、多語種切換，甚至直接生成視頻，所有你需要的功能，它都為你打包好了。

一開口，我就感覺到了不同。當我們報出5000元的預算和辦公需求，他幾乎是立刻就給出了三個最新的型號方案。從聯(lián)想、戴爾到華為，每一款的CPU、內存和續(xù)航，他都講得明明白白，就像一位真正懂行的朋友在幫你精心挑選。

當他正在介紹硬盤參數(shù)時，我們毫無征兆地打斷他，提出想看更便宜的機型。他只是停頓了大約一秒，就立刻領會了我們的新意圖，無縫切換到新的推薦了最新的款式。

為了探索更多的場景，我們又測試了兩個截然不同的角色：一個是一絲不茍的招聘面試官，另一個則是情感細膩的AI虛擬男友。

我們讓他用英文面試一個新的崗位。他的表現(xiàn)像個真正的HR：提問有邏輯，從項目經(jīng)驗—技術棧—解決方案，英文輸出很自然，還會根據(jù)回答追問細節(jié)。而AI虛擬男友的核心不是傳遞信息，而是提供陪伴感。最明顯的是肢體語言和情緒的匹配，會擺動雙臂配合撒嬌語氣，安慰的時候會做出輕拍肩膀的手勢，語氣溫柔時表情也會變柔和。

測試下來最大的感受是，你不再覺得是在跟一個機器人對話，而是在與一個“活生生”的虛擬角色交流。

無論是專業(yè)術語、情緒表達還是突然改變的需求，他總能精準捕捉到話語背后的意圖，不會答非所問。但更重要的是，他擁有自己的“身體語言”。他不再只是一個會動的嘴巴，推薦產(chǎn)品時的自信手勢、撒嬌時的俏皮擺臂、面試時的專注神情，都伴隨著對話實時生成。

破解數(shù)字人的“不可能三角”

在流暢的用戶體驗背后，是星云平臺的技術創(chuàng)新。

數(shù)字人行業(yè)存在一個長期未解決的“不可能三角”：要質量加低延時，成本會激增，無法規(guī)模化；要高并發(fā)加低成本，必須犧牲質量；要質量加高并發(fā)，延時就會上升，無法實時交互。星云平臺通過模型層面的技術突破和系統(tǒng)層面的架構創(chuàng)新，來解決這個“不可能三角”。

星云的核心技術是由LAM（Language Action Model）驅動數(shù)字人，這是一個文本生成多模態(tài)3D的大模型。LAM的輸出不是文本或圖像，而是“身體語言”。這個差異決定了數(shù)字人的能力邊界。傳統(tǒng)數(shù)字人處理的是“說什么”的問題，而LAM要解決的是“怎么說”，同樣一句話在不同場景下，語調、節(jié)奏、表情、手勢會完全不同，這些細節(jié)才是讓數(shù)字人顯得自然的關鍵。

具體來說，當輸入文本或語音后，模型需要理解的不僅是字面意思，還包括情緒基調、場景語境、表達意圖。比如同樣是“好的”這兩個字，在客服場景是確認語氣，在虛擬陪伴場景可能是撒嬌語氣，在招聘場景則是正式禮貌的回應。

理解語義之后，模型會同時生成四種模態(tài)的3D表達信號：

語音層面包括語調、節(jié)奏、情緒的變化：推薦產(chǎn)品時語速快、語氣熱情，安慰時語速慢、語氣溫柔；
動作層面包括姿態(tài)、手勢、身體語言：介紹產(chǎn)品參數(shù)時的指向手勢、強調重點時的手部動作、撒嬌時的身體搖擺；
表情層面包括情緒、眼神、眉目動態(tài)：微笑的程度、眼神的方向、眉毛的起伏都會根據(jù)對話內容調整；
手勢層面是與語義同步的肢體動作：說“這個”時手指會指向某個方向，說“大概這么長”時手勢會比劃距離。

這四種模態(tài)是同步生成的，不是分開處理再拼接。模型輸出的是對“這句話應該怎么說”的完整理解。

但光有LAM模型還不夠。如何讓它快速運行、低成本部署、支持大規(guī)模并發(fā)？這需要從系統(tǒng)架構層面重新設計。傳統(tǒng)數(shù)字人方案的流程是：云端渲染完整視頻，傳輸?shù)接脩粼O備，然后播放。這個流程存在幾個問題：渲染3D畫面需要高性能GPU，云端成本極高；傳輸視頻流需要大帶寬，每路用戶每秒占用數(shù)十MB；視頻生成和傳輸都有延時，難以做到實時交互；用戶量上升后，云端壓力呈指數(shù)增長，難以規(guī)模化。

星云改變了這個流程。云端只負責生成參數(shù)，不渲染畫面。LAM模型接收文本后，生成語音參數(shù)（音頻波形特征）和動作參數(shù)（3D骨骼、表情、手勢等控制信號），這些參數(shù)的數(shù)據(jù)量很小，只有幾KB到幾十KB。然后將這些參數(shù)傳輸?shù)接脩粼O備，這里傳輸?shù)牟皇且曨l流，而是“如何渲染”的指令。

用戶設備接收參數(shù)后，通過端側AI渲染模塊將參數(shù)實時轉化為畫面。這個模塊可以運行在RK3566/RK3588等百元級國產(chǎn)芯片上，不需要高端顯卡。整個鏈路的延遲在1秒左右，云端生成參數(shù)、端側渲染畫面、用戶看到數(shù)字人說話，這個過程是實時的。

這種架構帶來的變化是：延時從秒級降到毫秒級、帶寬從每秒數(shù)十MB降到KB級、云端可以支持千路以上同時在線，同時云端不需要配備大量GPU，端側可以用百元級芯片，整體成本據(jù)稱下降到傳統(tǒng)方案的幾十分之一；端側AI渲染模塊可以運行在手機、平板、智能屏、車機等各種設備上。

技術方案背后，還有一個關鍵問題：LAM模型從哪里學會“說這句話應該配什么動作”？魔琺創(chuàng)始人柴金祥告訴我們：“3D數(shù)字人領域最大的壁壘不是算法，是數(shù)據(jù)。文本、圖片在互聯(lián)網(wǎng)隨處可見，但高質量的3D動作、表情數(shù)據(jù)幾乎不存在。”

魔琺從2018年起就開始積累這些數(shù)據(jù)。早期為游戲公司、影視動畫公司制作3D內容時，這些商業(yè)項目產(chǎn)生的動畫數(shù)據(jù)經(jīng)過脫敏處理后成為訓練數(shù)據(jù)的一部分；后期則完全自研和制作動畫數(shù)據(jù)，專門組建動畫團隊，針對LAM模型的訓練需求制作各種場景、各種情緒、各種表達方式的3D動畫。目前累計了數(shù)千小時的高質量3D動畫數(shù)據(jù)，涵蓋人臉表情、手部動作、身體姿態(tài)、多人互動等完整數(shù)據(jù)集。

這些數(shù)據(jù)的積累周期和成本投入，構成了星云平臺難以復制的護城河。

從數(shù)字人到Embodied Agent

如果只把星云理解為“做3D數(shù)字人的平臺”，會錯過它真正的技術定位。

星云將自己定義為語言驅動身體的具身智能平臺：不是內容生產(chǎn)工具，而是面向開發(fā)者的基礎設施。它輸出的不是渲染好的視頻或動畫，而是“動作參數(shù)”，這些參數(shù)可以驅動虛擬世界的3D數(shù)字人，也可以驅動物理世界的人形機器人。

我們首先要區(qū)分清楚兩個概念：Embodied AI（具身智能）指的是讓AI具備“身體感知與行動能力”的智能形式：AI不只思考，還能通過身體與環(huán)境交互。Embodied Agent（具身智能體）是這種智能的具體載體：擁有“身體”的智能體，可以在虛擬或現(xiàn)實空間中感知、表達、行動和交互。區(qū)別在于:具身智能是能力，具身智能體是擁有這種能力的載體。

星云定義自己為“具身智能3D數(shù)字人平臺”，聚焦的是Embodied Agent層，提供“身體”，作為承載智能的容器。大模型已經(jīng)提供了“大腦”，現(xiàn)在缺的是讓這個“大腦”可見、可交互的“身體”。一個AI客服可以用文字回答問題，也可以用語音回答問題，但這些形式都是“無形”的。星云的功能是給這個AI添加一個“身體”：3D數(shù)字人形象，讓它能通過表情、手勢、肢體語言表達情緒和意圖。這個“身體”不只是視覺呈現(xiàn)，而是完整的表達系統(tǒng)。

開發(fā)者通過SDK或API接入星云，就能讓自己的AI應用具備數(shù)字人形態(tài)。這個邏輯類似于AWS不做具體應用，但提供計算、存儲、網(wǎng)絡的基礎能力，開發(fā)者基于這些能力構建應用。

更進一步的技術規(guī)劃在于:從虛擬到物理的統(tǒng)一輸出格式。星云的底層是LAM模型，輸入文本或語音，輸出語義一致的三維動作、表情和手勢。這意味著星云的功能不限于讓AI在屏幕上可見，它可能成為連接虛擬智能與物理智能的接口。

據(jù)硅星人了解，魔琺目前正在與多家人形機器人公司合作，驗證這條技術路徑。他們提供的不是完整的機器人方案，而是“語言→動作”的轉化層：機器人廠商負責硬件和控制系統(tǒng)，星云負責讓機器人理解對話內容并生成對應的肢體表達。

結尾：

從Embodied AI到Embodied Agent，星云平臺開放的不只是API接口，而是通往“每個APP都是一個人”時代的入口。

這個判斷聽起來激進，但邏輯清晰。過去十年，AI的進化路徑是從“專用工具”到“通用助手”：從只能識別圖片的算法，到能對話、能寫作、能推理的大模型。但這些AI仍然是“看不見”的，用戶通過文字框或語音交互，感受到的是智能，看不到“人”。

星云要做的是給這些AI加上“身體”，不只是視覺形象，而是完整的表達系統(tǒng)。當AI真正擁有“身體”，從“看不見的算法”變成“站在你面前的伙伴”，人機交互方式將被重新定義。

這種重新定義不只發(fā)生在虛擬世界。從屏幕里的3D數(shù)字人到物理世界的人形機器人，星云正在打通的是同一條技術鏈路：語言驅動身體。LAM模型輸出的動作參數(shù)，既可以渲染成虛擬形象，也可以控制物理機器人。這意味著未來的AI應用，可能同時存在于兩個世界：線上是數(shù)字人客服，線下是機器人接待員；線上是虛擬健身教練，線下是陪伴型機器人，它們使用同一套“大腦”，只是“身體”形態(tài)不同。

具身智能時代的全貌我們尚難預見，但可以確定的是，我們正在經(jīng)歷的不只是技術升級，而是交互范式的轉變：從人適應機器，到機器理解人。星云提供的是這個轉變的基礎設施，一切才剛剛開

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.