網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

從“抖音同款”到“豆包同款”：AI時代，視頻云正在有了新表達

2025-12-26 11:13:09　來源: 產(chǎn)業(yè)家

北京舉報

分享至

伴隨著AI云原生時代的來臨，視頻這種介質(zhì)正在有全新的演繹，不論是內(nèi)容效率的提升、媒體價值的放大，還是基于實時互動的更新交互形態(tài)，其全新的生產(chǎn)力價值也更在出現(xiàn)。

火山引擎，通過“路+車+人+海”的智能視頻云體系，構建的恰是基于這種新介質(zhì)的規(guī)范化操作界面。

作者|皮爺

出品|產(chǎn)業(yè)家

1895年，巴黎卡普辛大道14號，盧米埃爾兄弟的《火車進站》讓觀眾驚慌四散——一束穿透黑暗的光影，第一次讓靜態(tài)圖像擁有了流動的生命，但同時也留下了時代局限：單鏡頭、無剪輯、僅50秒時長，更遑論對內(nèi)容的精細操控。

以視頻為介質(zhì)的表達，由此而始。

但在AI時代的2025年，人們對這個以盧米埃爾兄弟為起點的表達體系有了新“質(zhì)疑”。在最近的3年時間里，關于音視頻，一些更新的標簽也在悄然出現(xiàn)。

比如在今年下半年大火的AI漫劇，比如游戲圈中頻繁破圈的豆包視頻指導策略陪玩，再比如在今年釜山電影節(jié)上出現(xiàn)的一系列AI短片等等。

這些新熱議的話題主題仍然是視頻，但對這個形態(tài)恒定超100年的介質(zhì)而言，它的新使用方式卻不是傳統(tǒng)的“拍攝-制作-發(fā)布”管道體系，在這些新表達里，“Agent智能體”、“可交互對話”、“可編輯二創(chuàng)”、“一句話/一段話生成”在成為新的標簽，這些標簽在給C端創(chuàng)作人群帶來不同以往的創(chuàng)作方式之外，也更在給一眾產(chǎn)業(yè)帶來看得見的生產(chǎn)力增量。

AI時代，視頻到底在經(jīng)歷怎樣的變化？以及在視頻這個介質(zhì)的主陣地上，全新的管道到底應該是怎樣的？又或者說，被重新定義的“視頻”應該具備怎樣的工程化加持，才能實現(xiàn)它新形態(tài)下的更好表達？

今年的冬季FORCE原動力大會上，火山引擎交出了一張新答卷。這個答卷的主題是音視頻的AI進化，也更是一個全新的、從實踐里趟出來的AI音視頻價值新思考。

AI云原生的視頻時代，正在到來。

一、“AI+視頻”，被重構的三年

今年9月，韓國釜山電影節(jié)現(xiàn)場，幾部由火山引擎和即夢AI共同帶來的特殊參展短片引起了現(xiàn)場觀眾和行業(yè)大咖們的注意，它們中有面向心理學主題的《小怪物》，也更有取材古典志怪、以黑白版畫格調(diào)呈現(xiàn)的《一目五先生》，同時還有一眾來自中國香港和韓國本土的影片。

這些短片有一個共同的標簽：AI電影。影視圈對于AI技術的應用不單純是C端人群感知的AI視頻生成，其對應是基于AI對視頻的更深度改造，比如工業(yè)級影視制作，比如基于IP的視頻二次創(chuàng)作，再比如從劇本小樣到微型影片demo的生成。

如果把視角放大，則是不難發(fā)現(xiàn)，AI帶給視頻的變化不僅在產(chǎn)出流程本身，更在視頻這個介質(zhì)的更大價值表達，比如視頻的“屬性定位”不僅是內(nèi)容的表達者，在游戲陪玩等場景中，它也更在成為一個工具的前端入口，完成從被動呈現(xiàn)到主動表達甚至交互的角色變遷，同樣的現(xiàn)象也更出現(xiàn)在教育場景，如視頻開始成為“學習交互”的新載體等等。

“過去三年，我們見證了一個歷史性時刻。當大模型技術遇上視頻技術，我們熟悉的那個「視頻視界」正在被重構。”火山引擎視頻與邊緣產(chǎn)品負責人杜佑在這次大會現(xiàn)場這樣表示。

誠然如此。如果從產(chǎn)業(yè)視角來看，伴隨著AI浪潮的來襲，視頻正在迎來“路、車、人、海”四個層面的立體式變化，這四個變化正在推動視頻從靜態(tài)走向動態(tài)，從表達走向新交互，也更推動其從云原生真正邁進AI云原生。

首先是“路”的變化，其對應的是底層基建側(cè)的變化，即AI時代信息交互方式正在發(fā)生改變，從單純的文字交互變成自然語言、音頻、視頻等多模態(tài)交互，以及交互對象也從固定的人與人交互變成人和智能體（或包含智能體的終端）交互，信息的形態(tài)、密度等都在發(fā)生變化，與之對應的則是對傳輸系統(tǒng)有了更高要求。

其次是“車”，即在新的基建道路之上，如何保證視頻能夠完成新形態(tài)下的價值表達，“車”恰是其中的關鍵，比如不論是對于多模態(tài)數(shù)據(jù)的AI理解，還是一系列基于多模態(tài)理解后高效率的視頻生成、加工、二創(chuàng)、搜索等等更大程度、更多維度的媒體價值釋放，這些都需要專業(yè)的“車”來保證整個流程的通暢。

以及“人”和“海”。前者對應的是視頻的新式價值屬性，即交互——和之前視頻僅有的內(nèi)容表達屬性不同，基于AI的加持，音視頻智能體可以具備主動交互的屬性，讓音視頻成為應用和人建立連接的第一道工序。

“海“則對應的是基于這些全新的視頻介質(zhì)表達，不論是電影制作，還是游戲動漫，以及跨境電商、陪伴應用等等，肉眼可見的是，在過去一兩年時間里，以新式AI音視頻為陣地的一眾中國AI產(chǎn)品和企業(yè)在出海已經(jīng)嶄露頭角。

從更大的視角來看，大模型為以視頻為形態(tài)的產(chǎn)品或者產(chǎn)業(yè)帶來的是一輪全新重構，這種重構不單純基于視頻更低門檻生成鏈所對應的效率本身，也更在于視頻開始從靜態(tài)內(nèi)容價值的基礎上新增了“能聽會說可理解”的新價值形態(tài)。

豆包就是一個最鮮明的例子。

從當下來看，過去3年時間里，豆包有兩次“破圈”事件尤為引發(fā)行業(yè)矚目。一次為2024年9月，豆包視頻生成模型（Seedance系列模型）首次亮相火山AI創(chuàng)新巡展，4個月后，AI視頻功能全量上線豆包；另一次為2025年1月20日，豆包App升級至7.2.0新春版，全量上線實時語音通話。

前者對應的價值是，豆包在行業(yè)內(nèi)掀起一個AI生成視頻的熱潮，其本身從一個AIGC產(chǎn)品正式升級為一個集合音視頻能力的綜合AIGC產(chǎn)品。

而后者帶來的正向反饋著力點也恰是豆包自身。即在語音交互和對話功能發(fā)布后，不論是國內(nèi)的媒體平臺還是國外等平臺，“用豆包當家庭教師”、“用豆包實時指導做菜”等等熱門AI產(chǎn)品交互視頻開始不斷破圈，這個新的交互形式也恰悄然轉(zhuǎn)化為豆包用戶增長的更進一步飛輪。

那么，到底應該如何打造一個豆包同款的應用呢？又或者說，不論是對電影、動漫等內(nèi)容產(chǎn)業(yè)的低成本、強智能的AI視頻需求而言，還是對如游戲玩具、社交應用以及陪伴類產(chǎn)品等視頻交互屬性的需求來說，怎樣的智能視頻云基礎設施才能保證視頻生產(chǎn)力的足夠可控、可用？

二、火山引擎，搭建了一個新的智能視頻云“骨架”

在這次大會上，一份AI音視頻的答卷被火山引擎正式放到臺前。或者更可以說，火山引擎把“支撐豆包的核心智能視頻能力”整合成全新的方案，正式推向市場。

首先是最底層，也就是“路”的層面，一個必須要知道的事實是，相較于人和AI的文字交互方式，不論是多模態(tài)數(shù)據(jù)的理解、傳輸、生成，還是人和智能體基于音頻/視頻等形態(tài)的交互，其中對應的都是有足夠差異化的底層環(huán)境，比如大并發(fā)的數(shù)據(jù)計算量，比如更高的網(wǎng)絡帶寬、比如交互中需要做到的實時響應。

火山引擎的做法是，把保障豆包信息傳遞和交互通暢底層關鍵能力之一的「AIGC傳輸」正式放到臺前，即基于AIGC傳輸系統(tǒng)，其可以和豆包一樣，做到為智能體應用提供穩(wěn)定、實時、可擴展的多模態(tài)數(shù)據(jù)傳輸能力，同時也更可以覆蓋足夠多樣化的實時交互場景，強化前端用戶體驗。

其次是中間層，火山引擎把既有的音視頻經(jīng)典能力進行了AI化升級，也就是被放到臺前的AI MediaKit。

從能力來看，AI MediaKit更等同于為企業(yè)提供了一套完備的媒體處理原子能力“工具箱”，即從視頻內(nèi)容的生產(chǎn)端，到內(nèi)容的分析端，再到最終的消費端，基于AI MediaKit企業(yè)可以獲得全鏈條的流程加持。

比如在生產(chǎn)端，從之前的純?nèi)斯ぶ鲗Э梢赃M化到“人機協(xié)同”，將內(nèi)容生產(chǎn)效率提高至原來的5-10倍；在消費端，基于AI MediaKit，在單一的視頻內(nèi)容表達基礎上，一系列視頻AI搜推、內(nèi)容二創(chuàng)（如短劇高光生成、AI漫劇）、多模態(tài)翻譯（文字轉(zhuǎn)化為視頻）等等方式可以為其賦予更多元的內(nèi)容生產(chǎn)加持，進而讓其實現(xiàn)“一魚多吃”的價值最大化；以及在消費端，相較于傳統(tǒng)的音視頻模式，AI MediaKit可以幫助媒體實現(xiàn)更細顆粒度的數(shù)據(jù)結果分析，進而幫助其優(yōu)化前端策略。

從更大的角度來看，和固有音視頻原子交付、工作流交付不同的是，AI MediaKit將更新的AI視頻編輯范式（生成、編輯、分析、多模態(tài)轉(zhuǎn)化）封裝成一個豐富的AI視頻工具箱，基于這個工具箱的一系列工具，一方面媒體可以構建新的視頻表達形態(tài)，實現(xiàn)從生產(chǎn)端到消費端的每個環(huán)節(jié)的效率提升，另一方面也更可以基于其中的大模型降低內(nèi)容思想表達的工程操作門檻，進而更輕松、更豐富地表達傳遞自身思考。

此外，也更值得一提的是，相較于直接調(diào)用大模型能力，AI MediaKit中預設的是一系列可配置的AI工作流，這些來自最佳實踐的場景化工作流編排，可以幫助企業(yè)做到更好地落地效果；同時，最上層的Agent也更可以通過配置直接調(diào)用AI MediaKit的一系列能力，幫助企業(yè)更好地構建上層智能體應用。

如果說AI MediaKit的著力點更多是視頻固有產(chǎn)業(yè)鏈的AI進化，幫助媒體做到更大的價值表達，那么音視頻互動智能體則可以賦能企業(yè)做到基于音視頻介質(zhì)的新交互形態(tài)。

“在支持各行各業(yè)那么多客戶需求的過程中，我們發(fā)現(xiàn)傳統(tǒng)的音視頻對話式AI方案越來越不足以滿足業(yè)務上飛速增長的需求。一方面大家希望對面的AI在各種感官的表現(xiàn)上更大程度的趨近于真人的感覺，另一方面大家也希望對面的AI能夠擁有自己各行各業(yè)一些更加專業(yè)的知識和特定的業(yè)務功能。”火山引擎智能互動產(chǎn)品負責人楊若揚表示。

誠然如此。即在過去的幾年時間里，一系列AI實時互動的場景如火如荼出現(xiàn)，但盡管各家都在宣稱自身實現(xiàn)了基于大模型的升級，但其中的兩個核心問題仍然存在——一個是真人感，一個是“產(chǎn)業(yè)know-how”能力。

這也恰是火山引擎音視頻互動智能體的核心著力點所在。首先來看真人感，即在火山引擎音視頻互動智能體的設定里，一系列如“口語感對話”、“情緒與聲線”設定、感知與承接等特點都經(jīng)過特殊的設計，這種從音色到音質(zhì)，再到情緒的工程設定一定程度上會強化產(chǎn)品真人感的屬性。

而另一方面，通過多類型的視覺理解、長期記憶、知識庫等工程強化，可以保證音視頻互動智能體能識別多種場景并且基于長期數(shù)據(jù)形成穩(wěn)定的技能，如游戲陪玩、工業(yè)質(zhì)檢、AI教學、陪伴類場景等等。

這種“真人感+場景技能”的設定同時配合AIGC傳輸系統(tǒng)的低時延，也恰可以為企業(yè)提供一眾AI音視頻實時活動的能力加持。

從整體視角來看，在火山引擎智能視頻云的方案中，其一方面通過AIGC傳輸系統(tǒng)完成AI時代音視頻流通的底層“路”的建設，如帶寬、時延等等，保障信息傳遞的通暢，另一方面通過AI MediaKit這個“車”的角色完成內(nèi)容的AI表達和更新的AI內(nèi)容生產(chǎn)，最后基于音視頻互動智能體完成“人”層面交互的重塑。

即通過“路+車+人”的復合體系，其可以幫助企業(yè)以足夠立體且體系化的模式，把“豆包同款”的音視頻能力真實嵌入到企業(yè)的相關業(yè)務中，幫助企業(yè)構建出適配自身的視頻應用或智能體。

三、大模型時代，我們需要怎樣的AI音視頻基建？

實際上，從另一個角度來看，在火山引擎智能視頻云的方案背后，其對應的也恰是中國當下的最佳的AI音視頻實踐產(chǎn)品樣本——豆包。

根據(jù)三方統(tǒng)計顯示，截止11月，豆包國內(nèi)DAU約5670萬、MAU約1.76億，到年底其MAU預計接近1.9億，用戶量和使用頻次均位列中國AI應用市場第一。在這些日活和月活用戶中，有一大批使用者調(diào)用的是豆包的AI視頻功能和AI實時語音通話等能力。

而保障這些能力被順利調(diào)用和使用的，正是如今被火山引擎放到臺前的智能云視頻解決方案。實際上，不論是AIGC傳輸系統(tǒng)，還是AI MediaKit，抑或是音視頻互動智能體，在一眾企業(yè)案例的落地中，豆包自身恰可以看作是“難度和復雜度最大的標桿客戶”。

比如AIGC傳輸系統(tǒng)，其本身支撐的就是豆包這類大規(guī)模AI應用的數(shù)據(jù)傳輸；再比如音視頻互動智能體，其對應的是把豆包每天數(shù)以億次被調(diào)用的絲滑AI音視頻互動能力封裝成一個完備的智能體方案，賦能給一眾游戲、陪伴應用、工業(yè)質(zhì)檢以及需要強RTC能力的企業(yè)，幫助其實現(xiàn)真正的音視頻實時互動。

以及出海場景的全套體系加持，在本次大會上，火山引擎智能視頻云也更發(fā)布了面向海外場景的方案全景圖，其以智能媒體處理平臺、AIGC傳輸系統(tǒng)、全球?qū)崟r傳輸分發(fā)等技術為底座，同時Conversational AI、AI Media Studio（一站式AI視頻處理方案）分別面向海外實時互動場景（如陪伴類應用）、本地化內(nèi)容生產(chǎn)等需求，同時結合對應的營銷方案，共同服務出海企業(yè)。

實際上，這個“路+車+人”的智能視頻云體系如今已經(jīng)有所落地。以短劇賽道的麥芽傳媒為例，如今不論是基于本土劇的海外翻譯，還是基于每個IP劇的高光片段自動生成，都已經(jīng)跑在火山引擎上，基于智能視頻云的AI MediaKit組件能力進行更高效地推進，極大提高企業(yè)效率。

據(jù)了解，后續(xù)雙方還將就AI漫劇和AI審片等場景進行更為深入的合作。

以及在音視頻交互場景，以TapTap游戲平臺為例，作為定位游戲分發(fā)平臺和玩家社區(qū)的企業(yè)，如今基于火山的音視頻互動智能體等能力，其專門構建了一系列AI能力，以為專門適配游戲場景的AI游戲助手，后者通過對火山引擎RTC的能力的調(diào)用，集合自身在大模型上“大模型+小模型”的探索，進而為玩家構建出真正的AI游戲陪玩，其可以識別玩家的具體動作并實時交互給出策略。

從某種程度來看，伴隨著AI云原生時代的來臨，視頻這種介質(zhì)正在有全新的演繹，不論是內(nèi)容效率的提升、媒體價值的放大，還是基于實時互動的更新交互形態(tài)，其全新的生產(chǎn)力價值也更在出現(xiàn)。

火山引擎，通過“路+車+人+海”的智能視頻云體系，構建的恰是基于這種新介質(zhì)的規(guī)范化操作界面。

也更可以說，從抖音同款到豆包同款背后，火山引擎智能視頻云對應交付的不僅是能夠幫助企業(yè)構建Agent和視頻應用的底層視頻云技術和工具，從更大角度來看，其賦能企業(yè)的也更是一個被清晰界定的新生產(chǎn)力形態(tài)和擁有AI云原生視頻工程實踐的體系模型。

有理由相信，未來的幾年時間里，無數(shù)個豆包或?qū)⒃谇邪贅I(yè)里出現(xiàn)，帶給人們不一樣的AI新世界。到時候或許可以真的說：AGI時代，真的來了。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.