網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

「數(shù)字人超真人」：百度不是池中物，AI應(yīng)用見功夫

2025-07-26 20:34:24　來源: 數(shù)字力場(chǎng)

北京舉報(bào)

分享至

AI的價(jià)值錨點(diǎn)是「超級(jí)有用」。

文 | 佘宗明

「在25年內(nèi)，每個(gè)人都可以以自己為模板創(chuàng)造出逼真的數(shù)字虛擬人。」在新著《2049》中，凱文·凱利做出了這番預(yù)言。他斷言：數(shù)字人將在未來迎來大爆發(fā)。

端倪早已顯現(xiàn)：過去幾年，涌入直播間的數(shù)字人主播越來越多，數(shù)字人直播也被視作AI的下個(gè)規(guī)模化落地場(chǎng)景。

只不過，之前的很多數(shù)字人表情呆板、反應(yīng)機(jī)械、互動(dòng)匱乏，連仿真都談不上，遑論逼真。因而，以往如果有人說「數(shù)字人可以超越真人主播」，大概率會(huì)被回上一句「呵呵」。

但羅永浩數(shù)字人在今年618期間的首秀，改變了不少人的既有看法：原來數(shù)字人還能突破照本宣科桎梏、打破隨機(jī)應(yīng)變困局，解鎖根據(jù)場(chǎng)景做出反應(yīng)、雙數(shù)字人默契互動(dòng)、超長(zhǎng)時(shí)間穩(wěn)定輸出等技能包。單從神情看，羅永浩數(shù)字人跟羅永浩不能說毫無關(guān)系，只能說一模一樣。

目前看，凱文·凱利說的「逼真」二字正愈發(fā)具象化：7月26日，在2025年世界??智能?會(huì)（WAIC 2025）上，作為業(yè)界?個(gè)AI全棧式數(shù)字?直播解決?案的百度慧播星又發(fā)布了新一代數(shù)字?技術(shù)NOVA，該技術(shù)曾支撐羅永浩數(shù)字人直播間創(chuàng)下5500萬GMV，預(yù)計(jì)將于10月向全行業(yè)開放。

到那時(shí)，普通用戶也可獲得媲美頭部主播的專業(yè)帶貨能力，這標(biāo)志著，超頭主播能力復(fù)刻進(jìn)入規(guī)模化量產(chǎn)時(shí)代。

想讓數(shù)字人直播時(shí)隨性秀花活，跟網(wǎng)友靈活玩梗？沒問題。想讓他舉杯時(shí)手腕微顫，調(diào)侃時(shí)眉梢輕挑？也OK。當(dāng)數(shù)字人帶來的不是出戲而是入戲，隨之而來的便是數(shù)字人從「仿真」邁入「超真」時(shí)代。

值得注意的是，此次大會(huì)上，蘿?快跑、飛槳深度學(xué)習(xí)平臺(tái)、百度智算集群共同入選中國(guó)人工智能產(chǎn)業(yè)創(chuàng)新成果展，再加上NOVA數(shù)字?技術(shù)，百度無疑是用AI全棧布局的代表性成果秀出了AI實(shí)力的「肌肉密度」。

從底層設(shè)施搭建到上層應(yīng)用落地的完整生態(tài)閉環(huán)，托起了百度在AI能力值上的六邊形戰(zhàn)士形象，也注解了「百度不是池中物，AI應(yīng)用見功夫」。

說是數(shù)字人，其實(shí)是數(shù)字播報(bào)員、文字復(fù)讀機(jī)，這是許多人對(duì)數(shù)字人的固有印象。看著數(shù)字人直播時(shí)那唱獨(dú)角戲的尷尬情景、「幀漂移」的卡頓畫面、臺(tái)詞跟表情錯(cuò)位的游離畫風(fēng)，很多人會(huì)忍不住將數(shù)字人跟「五毛特效」畫等號(hào)。

數(shù)字人「一眼假」，不是廠商不想避免，而是他們無可避免：傳統(tǒng)的數(shù)字人技術(shù)就是語言、語音、視覺三條線各自生成內(nèi)容后再拼接，出現(xiàn)音畫不同步、表情僵硬、言語乏味等問題在所難免。

技術(shù)瓶頸，使得數(shù)字人的作用始終停留在「基礎(chǔ)講解工具」層面。你想要他在預(yù)設(shè)腳本外，來些即興發(fā)揮？想要他在機(jī)械播報(bào)外，多些實(shí)時(shí)互動(dòng)？不好意思，超綱了。

這很難激發(fā)用戶信任感、激起用戶購(gòu)買欲。用戶想要看到的，是「主播」聲音上能抑揚(yáng)頓挫、表情上能靈活變化、動(dòng)作上能精準(zhǔn)表達(dá)，是聽得懂包袱、開得了玩笑、答得了問題，誰想看那些沒有靈魂的2D紙片人在那念稿呢？

但要讓數(shù)字人體現(xiàn)出活人感、避免假人感，并非易事。它涉及跨模態(tài)融合和協(xié)同、自然語言理解跟應(yīng)用、動(dòng)作捕捉與生成、實(shí)時(shí)交互和延遲優(yōu)化等，整個(gè)技術(shù)鏈路十分復(fù)雜。

就拿互動(dòng)來說，網(wǎng)友在直播間評(píng)論區(qū)的提問可能多元無序，真人主播互動(dòng)時(shí)不會(huì)簡(jiǎn)單地「一問一答」和「即問即答」，而要對(duì)評(píng)論內(nèi)容進(jìn)行意圖分析、提煉歸并，根據(jù)講解節(jié)奏選擇合適時(shí)機(jī)、給出合宜回答。這就很考驗(yàn)數(shù)字人的智能化分析能力。

而NOVA不只是讓數(shù)字人看起來像人，更讓數(shù)字人擁有會(huì)思考和能協(xié)同的能力。利用劇本驅(qū)動(dòng)的數(shù)字人多模協(xié)同、融合多模規(guī)劃與深度思考的劇本生成、動(dòng)態(tài)決策的實(shí)時(shí)交互、文本自控的語音合成、高一致性超擬真數(shù)字人長(zhǎng)視頻生成等創(chuàng)新技術(shù)，它實(shí)現(xiàn)了數(shù)字人「神、形、音、容、話」的全模態(tài)高度統(tǒng)一。

數(shù)字人表情呆板？NOVA數(shù)字人技術(shù)支持多模協(xié)同，根據(jù)劇本要素實(shí)時(shí)調(diào)整語調(diào)、表情和動(dòng)作，手指該指向產(chǎn)品細(xì)節(jié)時(shí)就指過去，語氣該強(qiáng)調(diào)某個(gè)功能時(shí)就強(qiáng)化突出。

數(shù)字人反應(yīng)機(jī)械？NOVA數(shù)字人技術(shù)具備高表現(xiàn)力特點(diǎn)，能自動(dòng)完成眼神交流后遞話筒、討論產(chǎn)品時(shí)親身演示、二人搭檔時(shí)表情配合等操作。

數(shù)字人互動(dòng)匱乏？NOVA數(shù)字人技術(shù)接受復(fù)雜交互，當(dāng)觀眾在直播間提問「這款手機(jī)續(xù)航怎樣」時(shí)，他會(huì)迅速完成調(diào)用產(chǎn)品數(shù)據(jù)庫(kù)提取續(xù)航參數(shù)、生成「可出差三天不插電」的口語化回答、同步調(diào)出電量測(cè)試視頻佐證；當(dāng)直播熱度下降時(shí)，他還能自動(dòng)調(diào)度場(chǎng)控?cái)?shù)字人發(fā)起抽獎(jiǎng)，助播數(shù)字人補(bǔ)充產(chǎn)品細(xì)節(jié)，形成「主播講解+專家答疑+福利刺激」的立體互動(dòng)鏈。

既能理解商品賣點(diǎn)，又能生成自然語言，還能匹配肢體動(dòng)作，很明顯，NOVA跳出了面相復(fù)刻的層次，拓展了數(shù)字人能力的邊界。隨之而來的，是「數(shù)字?可以超越真?，可以?專業(yè)主播更會(huì)播」的數(shù)字?直播前景的近在眼前。

某種程度上，數(shù)字人就是大模型多模整合能力的觀察切口。NOVA能變成數(shù)字人維度的「全能ACE」，就是百度多模態(tài)?模型能?（語?、視覺、語?深度融合）的展示——NOVA數(shù)字人具備的多模協(xié)同、?表現(xiàn)?、復(fù)雜交互等特點(diǎn)，本就是對(duì)?模型的「集?成使?」。

數(shù)字人直播的本質(zhì)是「長(zhǎng)視頻生成」任務(wù)，需要同時(shí)處理文本（腳本）、語音（解說）、視覺（動(dòng)作）、情緒（情感）、知識(shí)（產(chǎn)品信息）等多維度數(shù)據(jù)。

NOVA數(shù)字人技術(shù)就是讓懂商品、懂用戶、懂人設(shè)的「劇本」模型充當(dāng)總導(dǎo)演，統(tǒng)籌文本、語音、視覺等各個(gè)「演員」配合，協(xié)力完成以「數(shù)」亂真的演出。

在此過程中，大模型會(huì)將文本、語音等轉(zhuǎn)化為多維度向量，通過MoE（混合專家）架構(gòu)分配給不同「AI專家」處理：語言專家負(fù)責(zé)文案生成，視覺專家處理動(dòng)作協(xié)同，知識(shí)專家管理產(chǎn)品數(shù)據(jù)庫(kù)，最終由中樞系統(tǒng)整合輸出。如此一來，數(shù)字人既能「像作家一樣組織語言」，又能「像演員一樣控制表情」，還能「像操盤手一樣進(jìn)行控場(chǎng)」。

IDC今年上半年發(fā)布的行業(yè)首份電商直播數(shù)字人報(bào)告顯示，百度慧播星綜合實(shí)?排名?業(yè)第?，五項(xiàng)測(cè)評(píng)指標(biāo)中，它在技術(shù)能?、產(chǎn)品表現(xiàn)、平臺(tái)合規(guī)與穩(wěn)定性、客戶服務(wù)四項(xiàng)上均居首位。接下來，NOVA可以繼續(xù)強(qiáng)化其既有優(yōu)勢(shì)。

NOVA數(shù)字人技術(shù)可同時(shí)驅(qū)動(dòng)「語言腦」「運(yùn)動(dòng)腦」「邏輯腦」高效協(xié)作，離不開百度大模型全棧布局的支撐。

如果沒有文心大模型4.5Turbo賦予的內(nèi)容創(chuàng)作能力，NOVA數(shù)字人就沒法根據(jù)商品賣點(diǎn)自動(dòng)生成有梗有料的文案；如果沒有飛槳提供的多模態(tài)訓(xùn)練能力，NOVA數(shù)字人也就沒法實(shí)現(xiàn)神、形、音、容、話同步；如果沒有百度打造的「全息聲場(chǎng)系統(tǒng)」和聲紋克隆技術(shù)，NOVA的「形似聲更似」也就無從談起。

長(zhǎng)視頻生成終究是高耗時(shí)任務(wù)，伴生的延遲卡點(diǎn)問題必然會(huì)影響實(shí)時(shí)生成效果。百度就在昆侖芯三萬卡集群的加持下，通過「流式生成」工程化設(shè)計(jì)（語言、語音、視覺三個(gè)模態(tài)不是串行等待，而是并行工作）和「離在線統(tǒng)一」辦法（可預(yù)見交互內(nèi)容提前處理，需即時(shí)反應(yīng)部分則在線動(dòng)態(tài)生成），讓體驗(yàn)變得絲滑。

羅永浩數(shù)字人首播創(chuàng)下5500萬GMV的背后，就是直播調(diào)用了1.3萬次知識(shí)庫(kù)，生成9.7萬字講解內(nèi)容，雙數(shù)字人做出8300個(gè)動(dòng)作，卻沒有出現(xiàn)一次表情崩壞或邏輯斷層，6小時(shí)直播的視頻生成零卡頓。擱以前，這幾乎不可想象。

數(shù)字人技術(shù)突破，是百度AI全棧自研能力在應(yīng)用上的輻射。在此次WAIC上亮相的另一個(gè)百度標(biāo)桿級(jí)AI應(yīng)用——蘿卜快跑，同樣彰顯了這點(diǎn)。

如果說NOVA數(shù)字人展現(xiàn)了百度AI在數(shù)字空間的「柔性滲透」，那蘿卜快跑就體現(xiàn)了它在物理世界的「硬核落地」。

跟蘿卜快跑這次亮相世界級(jí)展會(huì)舞臺(tái)相對(duì)應(yīng)的，是它作為中國(guó)領(lǐng)先科技出海的代表在海外已遍地開花：繼獲得中國(guó)香港首個(gè)自動(dòng)駕駛車輛先導(dǎo)牌照、打造阿布扎比最大規(guī)模無人車隊(duì)后，蘿卜快跑又跟全球最大移動(dòng)出行服務(wù)平臺(tái)Uber開啟了全球戰(zhàn)略合作——這意味著，數(shù)千輛百度無人駕駛車將接入全球最大出行網(wǎng)絡(luò)。

跟蘿卜快跑入選WAIC2025「國(guó)家展」相對(duì)應(yīng)的，還是它作為高階自動(dòng)駕駛領(lǐng)域的頭部玩家率先實(shí)現(xiàn)規(guī)模化落地：深耕無人駕駛12年來，蘿卜快跑?級(jí)別?動(dòng)駕駛專利數(shù)全球第? ，截至今年7月，它已在全球提供超1100萬次出行服務(wù)，L4級(jí)?動(dòng)駕駛安全測(cè)試?程累計(jì)已超1.7億公?，出險(xiǎn)率僅為人類駕駛員的1/14。

成為本屆WAIC?會(huì)的接駁車，就是蘿卜快跑跑得最「快」的直觀印證。

就像運(yùn)動(dòng)員的爆發(fā)力有賴于肌肉力量，更離不開神經(jīng)反應(yīng)、心肺功能、骨骼強(qiáng)度的協(xié)同支撐那樣，NOVA數(shù)字人跟蘿卜快跑的底部支撐都是百度的全棧自研體系。

蘿卜快跑能實(shí)現(xiàn)城市級(jí)全域復(fù)雜場(chǎng)景覆蓋，在全球多地千差萬別的路況中快速落地，背靠的就是百度大模型的「感知-決策-控制」全鏈路能力——這是基于大模型重構(gòu)自動(dòng)駕駛的結(jié)果。

搭載了全球首個(gè)支持L4級(jí)大模型Apollo ADFM的蘿卜快跑第六代無人車，就實(shí)現(xiàn)了技術(shù)安全性與適應(yīng)性的大幅提升：3D環(huán)境模型，能幫著車輛在雨天、夜間精準(zhǔn)避障；雙計(jì)算中樞，能憑著「雙腦協(xié)同」讓車輛0.01秒內(nèi)完成異常接管；多模態(tài)融合技術(shù)，則能讓智能座艙理解方言指令、識(shí)別手勢(shì)動(dòng)作……

這些依托的，正是百度「算力-框架-模型-應(yīng)用」四層一體的全棧布局。

作為《時(shí)代》周刊口中「全球少有的在AI上實(shí)現(xiàn)全棧布局的公司」，百度的AI四層架構(gòu)每一層都像「肌肉纖維」般緊密配合，所以才有NOVA數(shù)字人的突圍，才有蘿卜快跑的突破——全棧自研能力的肌肉足夠健碩，最上層才能長(zhǎng)出覆蓋C端、B端的豐富應(yīng)用。

無論是NOVA數(shù)字人，還是蘿卜快跑，都是百度用全棧式技術(shù)能力解決不同場(chǎng)景核心問題的系統(tǒng)性方案。

?直以來，百度的AI戰(zhàn)略都是「?向應(yīng)?發(fā)展」。百度創(chuàng)始人李彥宏也多次強(qiáng)調(diào)，應(yīng)?才是?模型的真正價(jià)值所在。這跟數(shù)字化時(shí)代的「價(jià)值鏈金字塔」結(jié)構(gòu)契合。由此順推出的結(jié)論就是：AI，有用才是硬道理。

就AI數(shù)字人而言，衡量其價(jià)值的關(guān)鍵標(biāo)尺就在于產(chǎn)業(yè)側(cè)應(yīng)用效果，簡(jiǎn)單說就是能不能順應(yīng)直播電商領(lǐng)域?qū)Φ统杀靖咝蔬\(yùn)營(yíng)的需求。

多年來，直播中的兩大痛點(diǎn)困擾著不少企業(yè)：一是真人主播用人成本高昂，還有塌房風(fēng)險(xiǎn)；二是運(yùn)營(yíng)效率低下，搭建團(tuán)隊(duì)、反復(fù)彩排、實(shí)時(shí)場(chǎng)控等環(huán)節(jié)耗時(shí)耗力。

數(shù)字人直播就為此而生。但跟之前的數(shù)字人技術(shù)只解決了「有沒有」的問題相比，NOVA著力解決的是「好不好」的問題。

今年4月，百度方面透露，慧播星數(shù)字人主播累計(jì)已超10萬，涉及電商、教育、醫(yī)生、法律等幾十個(gè)行業(yè)。從大盤平均值看，數(shù)字人直播轉(zhuǎn)化率提升了31%，還降低了商家80%的開播成本。

當(dāng)NOVA的腳本生成系統(tǒng)可實(shí)現(xiàn)「千人千面」的精準(zhǔn)適配，會(huì)針對(duì)食品品類自動(dòng)加入「會(huì)爆汁」「有回甘」的場(chǎng)景化描述，推廣3C產(chǎn)品時(shí)會(huì)側(cè)重「參數(shù)對(duì)比+使用場(chǎng)景」的專業(yè)分析；當(dāng)NOVA的AI大腦可通過實(shí)時(shí)監(jiān)測(cè)彈幕關(guān)鍵詞、商品點(diǎn)擊量、停留時(shí)長(zhǎng)等數(shù)據(jù)動(dòng)態(tài)調(diào)整直播策略，發(fā)現(xiàn)用戶關(guān)注價(jià)格就主動(dòng)發(fā)起「扣1了解專屬優(yōu)惠」的互動(dòng)……對(duì)商家的賦能可想而知。

而讓店播「輕資產(chǎn)化」的無代碼生成功能——商家上傳產(chǎn)品參數(shù)、優(yōu)惠幅度等基礎(chǔ)信息，就能自動(dòng)生成直播腳本、匹配虛擬場(chǎng)景、定制數(shù)字人形象，更是能推動(dòng)商家在直播維度的平權(quán)。

對(duì)蘿卜快跑來講，評(píng)判其價(jià)值的核心依據(jù)，就在于能否給?們出?帶來安全、便捷、舒適的出行體驗(yàn)。

蘿卜快跑的自動(dòng)感應(yīng)尋車、自動(dòng)開關(guān)車門、語音安全播報(bào)等功能得到視障人群好評(píng)，全無人空間的靜謐感頗顯「i人友好」……就成了其加分項(xiàng)。

為產(chǎn)業(yè)側(cè)和用戶端提供實(shí)用價(jià)值，成了百度對(duì)AI「超級(jí)好用」的注解。

凱文·凱利說：讓更通人性的AI成為人類的朋友，這是我們的終極目標(biāo)。言下之意是，AI非但要更聰明，還要更好用。

去年11月，李彥宏在百度世界2024大會(huì)上說，百度不是要推出?個(gè)「超級(jí)應(yīng)?」，是要打造數(shù)百萬級(jí)「超級(jí)有?」的應(yīng)?，就與之呼應(yīng)。

WAIC 2025上，百度展臺(tái)Show出了秒噠、??快碼、?庫(kù)、?盤等一系列AI應(yīng)?，就體現(xiàn)出了鮮明的「有用至上」導(dǎo)向。如秒噠，就在用「?句話做應(yīng)?+多智能體協(xié)作+多?具調(diào)?」的技術(shù)組合，帶來「3分鐘?成+1?時(shí)迭代」的極致開發(fā)體驗(yàn)，加速「人人都是程序員」的愿景落地。

NOVA數(shù)字人跟蘿卜快跑，更是百度將AI從炫技手段變成生產(chǎn)力工具與普惠方式的典型注腳：NOVA數(shù)字人提供「腳本-直播-復(fù)盤」全鏈路服務(wù)，可幫企業(yè)24小時(shí)不間斷帶貨，蘿卜快跑將把L4級(jí)自動(dòng)駕駛規(guī)模化落地，都是百度將AI全棧式能力用于反哺現(xiàn)實(shí)場(chǎng)景的投射。

這反映了百度在AI上的鮮明價(jià)值主張：執(zhí)著于「超級(jí)有用」的路徑，而不追逐「超級(jí)應(yīng)用」的概念。比起追求單點(diǎn)爆款，它更希望用全棧自研能力打造數(shù)百萬個(gè)「超級(jí)有用」的應(yīng)用矩陣，將大模型技術(shù)真正轉(zhuǎn)化為生產(chǎn)力。

可以看到，從搜索、網(wǎng)盤、文庫(kù)等存量業(yè)務(wù)的AI重構(gòu)，到蘿卜快跑、NOVA數(shù)字人等增量賽道的積極開拓，百度都在將「超級(jí)有用」烙進(jìn)AI應(yīng)用掌心；從研發(fā)???模型，到打造云平臺(tái)，百度也是立足需求、著眼應(yīng)用，讓模型使用成本更低、底座端到端性能更強(qiáng)。這些都是用行動(dòng)表明：大模型不是用來「炫」的玩具，而是用來驅(qū)動(dòng)產(chǎn)業(yè)革命的引擎。

隨著AI競(jìng)爭(zhēng)進(jìn)入拼落地階段，時(shí)間也在證明：AI的價(jià)值錨點(diǎn)確實(shí)是「超級(jí)有用」。誰能更多地把AI技術(shù)轉(zhuǎn)化為真切可感的價(jià)值，誰就能走得更遠(yuǎn)。

?作者 | 佘宗明

?運(yùn)營(yíng) | 李玩

轉(zhuǎn)載須經(jīng)許可

廣告合作請(qǐng)聯(lián)系微信號(hào)：rabgogo88

或手機(jī)號(hào)：18810070968

敬請(qǐng)關(guān)注

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.