![]()
AI的價值錨點是「超級有用」。
文 | 佘宗明
「在25年內,每個人都可以以自己為模板創造出逼真的數字虛擬人。」在新著《2049》中,凱文·凱利做出了這番預言。他斷言:數字人將在未來迎來大爆發。
端倪早已顯現:過去幾年,涌入直播間的數字人主播越來越多,數字人直播也被視作AI的下個規模化落地場景。
只不過,之前的很多數字人表情呆板、反應機械、互動匱乏,連仿真都談不上,遑論逼真。因而,以往如果有人說「數字人可以超越真人主播」,大概率會被回上一句「呵呵」。
但羅永浩數字人在今年618期間的首秀,改變了不少人的既有看法:原來數字人還能突破照本宣科桎梏、打破隨機應變困局,解鎖根據場景做出反應、雙數字人默契互動、超長時間穩定輸出等技能包。單從神情看,羅永浩數字人跟羅永浩不能說毫無關系,只能說一模一樣。
目前看,凱文·凱利說的「逼真」二字正愈發具象化:7月26日,在2025年世界??智能?會(WAIC 2025)上,作為業界?個AI全棧式數字?直播解決?案的百度慧播星又發布了新一代數字?技術NOVA,該技術曾支撐羅永浩數字人直播間創下5500萬GMV,預計將于10月向全行業開放。
到那時,普通用戶也可獲得媲美頭部主播的專業帶貨能力,這標志著,超頭主播能力復刻進入規模化量產時代。
想讓數字人直播時隨性秀花活,跟網友靈活玩梗?沒問題。想讓他舉杯時手腕微顫,調侃時眉梢輕挑?也OK。當數字人帶來的不是出戲而是入戲,隨之而來的便是數字人從「仿真」邁入「超真」時代。
值得注意的是,此次大會上,蘿?快跑、飛槳深度學習平臺、百度智算集群共同入選中國人工智能產業創新成果展,再加上NOVA數字?技術,百度無疑是用AI全棧布局的代表性成果秀出了AI實力的「肌肉密度」。
![]()
從底層設施搭建到上層應用落地的完整生態閉環,托起了百度在AI能力值上的六邊形戰士形象,也注解了「百度不是池中物,AI應用見功夫」。
01
說是數字人,其實是數字播報員、文字復讀機,這是許多人對數字人的固有印象。看著數字人直播時那唱獨角戲的尷尬情景、「幀漂移」的卡頓畫面、臺詞跟表情錯位的游離畫風,很多人會忍不住將數字人跟「五毛特效」畫等號。
數字人「一眼假」,不是廠商不想避免,而是他們無可避免:傳統的數字人技術就是語言、語音、視覺三條線各自生成內容后再拼接,出現音畫不同步、表情僵硬、言語乏味等問題在所難免。
技術瓶頸,使得數字人的作用始終停留在「基礎講解工具」層面。你想要他在預設腳本外,來些即興發揮?想要他在機械播報外,多些實時互動?不好意思,超綱了。
這很難激發用戶信任感、激起用戶購買欲。用戶想要看到的,是「主播」聲音上能抑揚頓挫、表情上能靈活變化、動作上能精準表達,是聽得懂包袱、開得了玩笑、答得了問題,誰想看那些沒有靈魂的2D紙片人在那念稿呢?
但要讓數字人體現出活人感、避免假人感,并非易事。它涉及跨模態融合和協同、自然語言理解跟應用、動作捕捉與生成、實時交互和延遲優化等,整個技術鏈路十分復雜。
就拿互動來說,網友在直播間評論區的提問可能多元無序,真人主播互動時不會簡單地「一問一答」和「即問即答」,而要對評論內容進行意圖分析、提煉歸并,根據講解節奏選擇合適時機、給出合宜回答。這就很考驗數字人的智能化分析能力。
而NOVA不只是讓數字人看起來像人,更讓數字人擁有會思考和能協同的能力。利用劇本驅動的數字人多模協同、融合多模規劃與深度思考的劇本生成、動態決策的實時交互、文本自控的語音合成、高一致性超擬真數字人長視頻生成等創新技術,它實現了數字人「神、形、音、容、話」的全模態高度統一。
![]()
數字人表情呆板?NOVA數字人技術支持多模協同,根據劇本要素實時調整語調、表情和動作,手指該指向產品細節時就指過去,語氣該強調某個功能時就強化突出。
數字人反應機械?NOVA數字人技術具備高表現力特點,能自動完成眼神交流后遞話筒、討論產品時親身演示、二人搭檔時表情配合等操作。
數字人互動匱乏?NOVA數字人技術接受復雜交互,當觀眾在直播間提問「這款手機續航怎樣」時,他會迅速完成調用產品數據庫提取續航參數、生成「可出差三天不插電」的口語化回答、同步調出電量測試視頻佐證;當直播熱度下降時,他還能自動調度場控數字人發起抽獎,助播數字人補充產品細節,形成「主播講解+專家答疑+福利刺激」的立體互動鏈。
既能理解商品賣點,又能生成自然語言,還能匹配肢體動作,很明顯,NOVA跳出了面相復刻的層次,拓展了數字人能力的邊界。隨之而來的,是「數字?可以超越真?,可以?專業主播更會播」的數字?直播前景的近在眼前。
02
某種程度上,數字人就是大模型多模整合能力的觀察切口。NOVA能變成數字人維度的「全能ACE」,就是百度多模態?模型能?(語?、視覺、語?深度融合)的展示——NOVA數字人具備的多模協同、?表現?、復雜交互等特點,本就是對?模型的「集?成使?」。
數字人直播的本質是「長視頻生成」任務,需要同時處理文本(腳本)、語音(解說)、視覺(動作)、情緒(情感)、知識(產品信息)等多維度數據。
NOVA數字人技術就是讓懂商品、懂用戶、懂人設的「劇本」模型充當總導演,統籌文本、語音、視覺等各個「演員」配合,協力完成以「數」亂真的演出。
在此過程中,大模型會將文本、語音等轉化為多維度向量,通過MoE(混合專家)架構分配給不同「AI專家」處理:語言專家負責文案生成,視覺專家處理動作協同,知識專家管理產品數據庫,最終由中樞系統整合輸出。如此一來,數字人既能「像作家一樣組織語言」,又能「像演員一樣控制表情」,還能「像操盤手一樣進行控場」。
IDC今年上半年發布的行業首份電商直播數字人報告顯示,百度慧播星綜合實?排名?業第?,五項測評指標中,它在技術能?、產品表現、平臺合規與穩定性、客戶服務四項上均居首位。接下來,NOVA可以繼續強化其既有優勢。
NOVA數字人技術可同時驅動「語言腦」「運動腦」「邏輯腦」高效協作,離不開百度大模型全棧布局的支撐。
如果沒有文心大模型4.5Turbo賦予的內容創作能力,NOVA數字人就沒法根據商品賣點自動生成有梗有料的文案;如果沒有飛槳提供的多模態訓練能力,NOVA數字人也就沒法實現神、形、音、容、話同步;如果沒有百度打造的「全息聲場系統」和聲紋克隆技術,NOVA的「形似聲更似」也就無從談起。
長視頻生成終究是高耗時任務,伴生的延遲卡點問題必然會影響實時生成效果。百度就在昆侖芯三萬卡集群的加持下,通過「流式生成」工程化設計(語言、語音、視覺三個模態不是串行等待,而是并行工作)和「離在線統一」辦法(可預見交互內容提前處理,需即時反應部分則在線動態生成),讓體驗變得絲滑。
羅永浩數字人首播創下5500萬GMV的背后,就是直播調用了1.3萬次知識庫,生成9.7萬字講解內容,雙數字人做出8300個動作,卻沒有出現一次表情崩壞或邏輯斷層,6小時直播的視頻生成零卡頓。擱以前,這幾乎不可想象。
03
數字人技術突破,是百度AI全棧自研能力在應用上的輻射。在此次WAIC上亮相的另一個百度標桿級AI應用——蘿卜快跑,同樣彰顯了這點。
如果說NOVA數字人展現了百度AI在數字空間的「柔性滲透」,那蘿卜快跑就體現了它在物理世界的「硬核落地」。
跟蘿卜快跑這次亮相世界級展會舞臺相對應的,是它作為中國領先科技出海的代表在海外已遍地開花:繼獲得中國香港首個自動駕駛車輛先導牌照、打造阿布扎比最大規模無人車隊后,蘿卜快跑又跟全球最大移動出行服務平臺Uber開啟了全球戰略合作——這意味著,數千輛百度無人駕駛車將接入全球最大出行網絡。
跟蘿卜快跑入選WAIC2025「國家展」相對應的,還是它作為高階自動駕駛領域的頭部玩家率先實現規模化落地:深耕無人駕駛12年來,蘿卜快跑?級別?動駕駛專利數全球第? , 截至今年7月,它已在全球提供超1100萬次出行服務,L4級?動駕駛安全測試?程累計已超1.7億公?,出險率僅為人類駕駛員的1/14。
成為本屆WAIC?會的接駁車,就是蘿卜快跑跑得最「快」的直觀印證。
![]()
就像運動員的爆發力有賴于肌肉力量,更離不開神經反應、心肺功能、骨骼強度的協同支撐那樣,NOVA數字人跟蘿卜快跑的底部支撐都是百度的全棧自研體系。
蘿卜快跑能實現城市級全域復雜場景覆蓋,在全球多地千差萬別的路況中快速落地,背靠的就是百度大模型的「感知-決策-控制」全鏈路能力——這是基于大模型重構自動駕駛的結果。
搭載了全球首個支持L4級大模型Apollo ADFM的蘿卜快跑第六代無人車,就實現了技術安全性與適應性的大幅提升:3D環境模型,能幫著車輛在雨天、夜間精準避障;雙計算中樞,能憑著「雙腦協同」讓車輛0.01秒內完成異常接管;多模態融合技術,則能讓智能座艙理解方言指令、識別手勢動作……
這些依托的,正是百度「算力-框架-模型-應用」四層一體的全棧布局。
作為《時代》周刊口中「全球少有的在AI上實現全棧布局的公司」,百度的AI四層架構每一層都像「肌肉纖維」般緊密配合,所以才有NOVA數字人的突圍,才有蘿卜快跑的突破——全棧自研能力的肌肉足夠健碩,最上層才能長出覆蓋C端、B端的豐富應用。
04
無論是NOVA數字人,還是蘿卜快跑,都是百度用全棧式技術能力解決不同場景核心問題的系統性方案。
?直以來,百度的AI戰略都是「?向應?發展」。百度創始人李彥宏也多次強調,應?才是?模型的真正價值所在。這跟數字化時代的「價值鏈金字塔」結構契合。由此順推出的結論就是:AI,有用才是硬道理。
就AI數字人而言,衡量其價值的關鍵標尺就在于產業側應用效果,簡單說就是能不能順應直播電商領域對低成本高效率運營的需求。
多年來,直播中的兩大痛點困擾著不少企業:一是真人主播用人成本高昂,還有塌房風險;二是運營效率低下,搭建團隊、反復彩排、實時場控等環節耗時耗力。
數字人直播就為此而生。但跟之前的數字人技術只解決了「有沒有」的問題相比,NOVA著力解決的是「好不好」的問題。
今年4月,百度方面透露,慧播星數字人主播累計已超10萬,涉及電商、教育、醫生、法律等幾十個行業。從大盤平均值看,數字人直播轉化率提升了31%,還降低了商家80%的開播成本。
當NOVA的腳本生成系統可實現「千人千面」的精準適配,會針對食品品類自動加入「會爆汁」「有回甘」的場景化描述,推廣3C產品時會側重「參數對比+使用場景」的專業分析;當NOVA的AI大腦可通過實時監測彈幕關鍵詞、商品點擊量、停留時長等數據動態調整直播策略,發現用戶關注價格就主動發起「扣1了解專屬優惠」的互動……對商家的賦能可想而知。
而讓店播「輕資產化」的無代碼生成功能——商家上傳產品參數、優惠幅度等基礎信息,就能自動生成直播腳本、匹配虛擬場景、定制數字人形象,更是能推動商家在直播維度的平權。
對蘿卜快跑來講,評判其價值的核心依據,就在于能否給?們出?帶來安全、便捷、舒適的出行體驗。
蘿卜快跑的自動感應尋車、自動開關車門、語音安全播報等功能得到視障人群好評,全無人空間的靜謐感頗顯「i人友好」……就成了其加分項。
為產業側和用戶端提供實用價值,成了百度對AI「超級好用」的注解。
05
凱文·凱利說:讓更通人性的AI成為人類的朋友,這是我們的終極目標。言下之意是,AI非但要更聰明,還要更好用。
去年11月,李彥宏在百度世界2024大會上說,百度不是要推出?個「超級應?」,是要打造數百萬級「超級有?」的應?,就與之呼應。
WAIC 2025上,百度展臺Show出了秒噠、??快碼、?庫、?盤等一系列AI應?,就體現出了鮮明的「有用至上」導向。如秒噠,就在用「?句話做應?+多智能體協作+多?具調?」的技術組合,帶來「3分鐘?成+1?時迭代」的極致開發體驗,加速「人人都是程序員」的愿景落地。
![]()
NOVA數字人跟蘿卜快跑,更是百度將AI從炫技手段變成生產力工具與普惠方式的典型注腳:NOVA數字人提供「腳本-直播-復盤」全鏈路服務,可幫企業24小時不間斷帶貨,蘿卜快跑將把L4級自動駕駛規模化落地,都是百度將AI全棧式能力用于反哺現實場景的投射。
這反映了百度在AI上的鮮明價值主張:執著于「超級有用」的路徑,而不追逐「超級應用」的概念。比起追求單點爆款,它更希望用全棧自研能力打造數百萬個「超級有用」的應用矩陣,將大模型技術真正轉化為生產力。
可以看到,從搜索、網盤、文庫等存量業務的AI重構,到蘿卜快跑、NOVA數字人等增量賽道的積極開拓,百度都在將「超級有用」烙進AI應用掌心;從研發???模型,到打造云平臺,百度也是立足需求、著眼應用,讓模型使用成本更低、底座端到端性能更強。這些都是用行動表明:大模型不是用來「炫」的玩具,而是用來驅動產業革命的引擎。
隨著AI競爭進入拼落地階段,時間也在證明:AI的價值錨點確實是「超級有用」。誰能更多地把AI技術轉化為真切可感的價值,誰就能走得更遠。
?作者 | 佘宗明
?運營 | 李玩
轉載須經許可
廣告合作請聯系微信號:rabgogo88
或手機號:18810070968
敬請關注
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.