![]()
2月17日晚8點,馬年春晚準時開場,火山引擎數據中心進入了最為緊張的時刻。
與往年不同,這一次服務器面臨的挑戰不僅僅是視頻流的分發,根據春晚后公布的數據,除夕當天,豆包AI互動總數高達19億次,直播的某一秒,當舞臺上的水墨畫隨風而動時,或許正有一個觀眾在豆包上輸入了生成一張賽博風格全家福的指令。
算力服務器集群必須在毫秒級內完成數千萬億次浮點運算,確保用戶手機上的圖片在數秒內生成。
所以,在2026年馬年春晚的舞臺上,“豆包們”都在做什么?又是怎么做到的?
在節目《馭風歌》中,導演組要求背景中的水墨畫必須動態化,畫中的馬匹不僅要跑起來,且數量、形態不能有任何偏差。
這創意難就難在審美,市面上的海外視頻生成模型大多基于寫實風格訓練,無法理解中國水墨畫的留白與暈染邏輯。
直接生成的視頻往往像生硬的3D貼圖,破壞了原作的二維質感。
豆包Seedance 2.0團隊在訓練階段輸入了大量中國傳統文化語料,模型因此建立了對水墨筆觸的理解。
最終呈現在舞臺背景上的畫面,馬匹在奔跑時保留了墨色暈染的動態變化,畫面沒有出現常見的結構崩壞。
![]()
在視頻生成之前,豆包圖像創作模型Seedream 5.0 Lite還承擔了關鍵幀的設計工作。
它根據導演的草圖布局,生成了兼具原畫神韻與新構圖的靜態圖像,為后續的視頻生成提供了符合邏輯的藍本。
除了風格遷移,視頻生成技術面臨的另一個通病是違反物理規律。在以往的AI視頻中,人物或動物在運動時常出現滑步、肢體扭曲或穿模現象,而在《馭風歌》的奔跑畫面中,馬匹的四肢關節運動、受力反饋十分符合生物學結構。
![]()
這種對物理規律的控制力延續到了《快樂小馬》這一節目中。
這一節目把真人的街舞動作安在四足卡通形象上,站在技術角度來看,核心難點在于兩者的拓撲結構截然不同,一個是雙足直立,一個是四足著地。
傳統的動畫制作流程需要為每個舞蹈動作進行3D骨骼綁定和手動K幀,工作量以周計算。Seedance 2.0通過對骨架結構的智能匹配,理解了動作背后的運動邏輯,直接讓四足卡通形象模仿了雙足真人的舞蹈動作,且保持了卡通形象的材質和外觀細節不發生劣化。
![]()
這種對動作的理解力同樣體現在節目《賀花神》中。
在舞臺上,《賀花神》展現了植物緩慢綻放的微觀細節,鏡頭伴隨復雜的光影變化,Seedance 2.0很好地執行了這些復雜的視覺指令,畫面沒有出現噪點和抖動。
![]()
在節目《夢底》中,舞臺上出現了數個和主演一模一樣的數字分身。
這些分身擁有真實的立體結構,當現場攝像機進行推拉搖移時,觀眾可以看到分身的側臉輪廓和光影變化符合透視規律。
![]()
為了實現多人同臺渲染的性能優化,技術團隊利用字節Seed3D模型提前生成了影子的幾何外殼,大幅降低了實時計算量,同時,通過字節DA3模型提供的深度信息,系統實現了虛擬燈光與現場物理燈光的毫秒級同步,確保了數字分身的影子能隨現場燈光變化而變化。
![]()
如果說舞臺背景的視頻生成是事前制作,那么直播期間的AI互動則是對算力基礎設施的一場大考。
傳統的春晚互動,無論是搖一搖還是搶紅包,在技術上屬于IO密集型任務,其本質是數據庫的讀寫操作,系統發放的是預設好的庫存金額。
今年的AI互動形式發生了質變。
數據顯示,僅在除夕當天,豆包面向全國觀眾送出了10萬份科技好禮,“豆包過年”活動幫助用戶生成了超過5000萬張新春主題頭像和超過1億條新春祝福。
用戶在豆包App中上傳圖片、生成拜年圖或祝福語,屬于計算密集型任務。這是一條實時創作的鏈路,先感知用戶的開放式指令,再規劃執行鏈路,最后調用多個模型實時生成內容。
面對這種級別的吞吐,火山引擎方舟平臺采用了集群聯邦技術,將物理隔離的數十個機房打通,在調度系統中,不同機房的資源水位被實時監控。系統感知底層異構硬件的拓撲結構,利用親和性裝箱算法,將任務分配給最合適的芯片,即便在流量波動劇烈時,聯邦調度器也能實現秒級跨機房資源平移。
即使模型生成了視頻,距離春晚大屏的播出標準仍有差距。目前Seedance 2.0的原生輸出規格為720P分辨率和24幀率,而春晚大屏的播出標準是8K分辨率和50幀率。
補齊這一規格差距的是火山引擎視頻云技術,基于火山引擎 MIPP 多維度智能畫質增強框架,技術團隊利用超分算法,在不改變畫面內容的情況下提升分辨率,通過插幀服務,將視頻幀率提升至50幀。
具身智能是馬年春晚的絕對主角,相比起蛇年春晚,馬年舞臺上出現的機器人展示了更自然的交互能力,以往的機器人語音交互常帶有明顯的機械感,語氣平淡,缺乏情感起伏,而此次登臺的機器人接入了豆包語音合成模型2.0。
![]()
該模型具備深度語義理解能力,能夠根據文本內容自動調整語氣和停頓,機器人在講笑話和講故事時,聲音的情緒表達截然不同,交互體驗接近真實的人際溝通,結合豆包模型的視覺理解能力,馬年春晚上的機器人能夠實時識別前方人員的衣著顏色并進行避障決策,實現了眼、腦、口的協同。
![]()
在這個除夕夜,舞臺上的機器人在表演,它們遵循著既定的程序,為觀眾提供娛樂,而在看不見的后臺,豆包大模型在工作,它處理著數億萬用戶實時的請求,支撐著創意的落地。
相比于臺前的表演,這種在幕后的實戰,或許才是AI技術真正成熟的開始。
(作者 鄭晨燁)
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.