![]()
伴隨著AI云原生時代的來臨,視頻這種介質正在有全新的演繹,不論是內容效率的提升、媒體價值的放大,還是基于實時互動的更新交互形態,其全新的生產力價值也更在出現。
火山引擎,通過“路+車+人+海”的智能視頻云體系,構建的恰是基于這種新介質的規范化操作界面。
作者|皮爺
出品|產業家
1895年,巴黎卡普辛大道14號,盧米埃爾兄弟的《火車進站》讓觀眾驚慌四散——一束穿透黑暗的光影,第一次讓靜態圖像擁有了流動的生命,但同時也留下了時代局限:單鏡頭、無剪輯、僅50秒時長,更遑論對內容的精細操控。
以視頻為介質的表達,由此而始。
![]()
但在AI時代的2025年,人們對這個以盧米埃爾兄弟為起點的表達體系有了新“質疑”。在最近的3年時間里,關于音視頻,一些更新的標簽也在悄然出現。
比如在今年下半年大火的AI漫劇,比如游戲圈中頻繁破圈的豆包視頻指導策略陪玩,再比如在今年釜山電影節上出現的一系列AI短片等等。
這些新熱議的話題主題仍然是視頻,但對這個形態恒定超100年的介質而言,它的新使用方式卻不是傳統的“拍攝-制作-發布”管道體系,在這些新表達里,“Agent智能體”、“可交互對話”、“可編輯二創”、“一句話/一段話生成”在成為新的標簽,這些標簽在給C端創作人群帶來不同以往的創作方式之外,也更在給一眾產業帶來看得見的生產力增量。
AI時代,視頻到底在經歷怎樣的變化?以及在視頻這個介質的主陣地上,全新的管道到底應該是怎樣的?又或者說,被重新定義的“視頻”應該具備怎樣的工程化加持,才能實現它新形態下的更好表達?
今年的冬季FORCE原動力大會上,火山引擎交出了一張新答卷。這個答卷的主題是音視頻的AI進化,也更是一個全新的、從實踐里趟出來的AI音視頻價值新思考。
AI云原生的視頻時代,正在到來。
一、“AI+視頻”,被重構的三年
今年9月,韓國釜山電影節現場,幾部由火山引擎和即夢AI共同帶來的特殊參展短片引起了現場觀眾和行業大咖們的注意,它們中有面向心理學主題的《小怪物》,也更有取材古典志怪、以黑白版畫格調呈現的《一目五先生》,同時還有一眾來自中國香港和韓國本土的影片。
這些短片有一個共同的標簽:AI電影。影視圈對于AI技術的應用不單純是C端人群感知的AI視頻生成,其對應是基于AI對視頻的更深度改造,比如工業級影視制作,比如基于IP的視頻二次創作,再比如從劇本小樣到微型影片demo的生成。
如果把視角放大,則是不難發現,AI帶給視頻的變化不僅在產出流程本身,更在視頻這個介質的更大價值表達,比如視頻的“屬性定位”不僅是內容的表達者,在游戲陪玩等場景中,它也更在成為一個工具的前端入口,完成從被動呈現到主動表達甚至交互的角色變遷,同樣的現象也更出現在教育場景,如視頻開始成為“學習交互”的新載體等等。
“過去三年,我們見證了一個歷史性時刻。當大模型技術遇上視頻技術,我們熟悉的那個「視頻視界」正在被重構。”火山引擎視頻與邊緣產品負責人杜佑在這次大會現場這樣表示。
誠然如此。如果從產業視角來看,伴隨著AI浪潮的來襲,視頻正在迎來“路、車、人、海”四個層面的立體式變化,這四個變化正在推動視頻從靜態走向動態,從表達走向新交互,也更推動其從云原生真正邁進AI云原生。
首先是“路”的變化,其對應的是底層基建側的變化,即AI時代信息交互方式正在發生改變,從單純的文字交互變成自然語言、音頻、視頻等多模態交互,以及交互對象也從固定的人與人交互變成人和智能體(或包含智能體的終端)交互,信息的形態、密度等都在發生變化,與之對應的則是對傳輸系統有了更高要求。
其次是“車”,即在新的基建道路之上,如何保證視頻能夠完成新形態下的價值表達,“車”恰是其中的關鍵,比如不論是對于多模態數據的AI理解,還是一系列基于多模態理解后高效率的視頻生成、加工、二創、搜索等等更大程度、更多維度的媒體價值釋放,這些都需要專業的“車”來保證整個流程的通暢。
以及“人”和“海”。前者對應的是視頻的新式價值屬性,即交互——和之前視頻僅有的內容表達屬性不同,基于AI的加持,音視頻智能體可以具備主動交互的屬性,讓音視頻成為應用和人建立連接的第一道工序。
“海“則對應的是基于這些全新的視頻介質表達,不論是電影制作,還是游戲動漫,以及跨境電商、陪伴應用等等,肉眼可見的是,在過去一兩年時間里,以新式AI音視頻為陣地的一眾中國AI產品和企業在出海已經嶄露頭角。
![]()
從更大的視角來看,大模型為以視頻為形態的產品或者產業帶來的是一輪全新重構,這種重構不單純基于視頻更低門檻生成鏈所對應的效率本身,也更在于視頻開始從靜態內容價值的基礎上新增了“能聽會說可理解”的新價值形態。
豆包就是一個最鮮明的例子。
從當下來看,過去3年時間里,豆包有兩次“破圈”事件尤為引發行業矚目。一次為2024年9月,豆包視頻生成模型(Seedance系列模型)首次亮相火山AI創新巡展,4個月后,AI視頻功能全量上線豆包;另一次為2025年1月20日,豆包App升級至7.2.0新春版,全量上線實時語音通話。
前者對應的價值是,豆包在行業內掀起一個AI生成視頻的熱潮,其本身從一個AIGC產品正式升級為一個集合音視頻能力的綜合AIGC產品。
而后者帶來的正向反饋著力點也恰是豆包自身。即在語音交互和對話功能發布后,不論是國內的媒體平臺還是國外等平臺,“用豆包當家庭教師”、“用豆包實時指導做菜”等等熱門AI產品交互視頻開始不斷破圈,這個新的交互形式也恰悄然轉化為豆包用戶增長的更進一步飛輪。
那么,到底應該如何打造一個豆包同款的應用呢?又或者說,不論是對電影、動漫等內容產業的低成本、強智能的AI視頻需求而言,還是對如游戲玩具、社交應用以及陪伴類產品等視頻交互屬性的需求來說,怎樣的智能視頻云基礎設施才能保證視頻生產力的足夠可控、可用?
二、火山引擎,搭建了一個新的智能視頻云“骨架”
在這次大會上,一份AI音視頻的答卷被火山引擎正式放到臺前。或者更可以說,火山引擎把“支撐豆包的核心智能視頻能力”整合成全新的方案,正式推向市場。
首先是最底層,也就是“路”的層面,一個必須要知道的事實是,相較于人和AI的文字交互方式,不論是多模態數據的理解、傳輸、生成,還是人和智能體基于音頻/視頻等形態的交互,其中對應的都是有足夠差異化的底層環境,比如大并發的數據計算量,比如更高的網絡帶寬、比如交互中需要做到的實時響應。
火山引擎的做法是,把保障豆包信息傳遞和交互通暢底層關鍵能力之一的「AIGC傳輸」正式放到臺前,即基于AIGC傳輸系統,其可以和豆包一樣,做到為智能體應用提供穩定、實時、可擴展的多模態數據傳輸能力,同時也更可以覆蓋足夠多樣化的實時交互場景,強化前端用戶體驗。
![]()
其次是中間層,火山引擎把既有的音視頻經典能力進行了AI化升級,也就是被放到臺前的AI MediaKit。
從能力來看,AI MediaKit更等同于為企業提供了一套完備的媒體處理原子能力“工具箱”,即從視頻內容的生產端,到內容的分析端,再到最終的消費端,基于AI MediaKit企業可以獲得全鏈條的流程加持。
比如在生產端,從之前的純人工主導可以進化到“人機協同”,將內容生產效率提高至原來的5-10倍;在消費端,基于AI MediaKit,在單一的視頻內容表達基礎上,一系列視頻AI搜推、內容二創(如短劇高光生成、AI漫劇)、多模態翻譯(文字轉化為視頻)等等方式可以為其賦予更多元的內容生產加持,進而讓其實現“一魚多吃”的價值最大化;以及在消費端,相較于傳統的音視頻模式,AI MediaKit可以幫助媒體實現更細顆粒度的數據結果分析,進而幫助其優化前端策略。
從更大的角度來看,和固有音視頻原子交付、工作流交付不同的是,AI MediaKit將更新的AI視頻編輯范式(生成、編輯、分析、多模態轉化)封裝成一個豐富的AI視頻工具箱,基于這個工具箱的一系列工具,一方面媒體可以構建新的視頻表達形態,實現從生產端到消費端的每個環節的效率提升,另一方面也更可以基于其中的大模型降低內容思想表達的工程操作門檻,進而更輕松、更豐富地表達傳遞自身思考。
此外,也更值得一提的是,相較于直接調用大模型能力,AI MediaKit中預設的是一系列可配置的AI工作流,這些來自最佳實踐的場景化工作流編排,可以幫助企業做到更好地落地效果;同時,最上層的Agent也更可以通過配置直接調用AI MediaKit的一系列能力,幫助企業更好地構建上層智能體應用。
![]()
如果說AI MediaKit的著力點更多是視頻固有產業鏈的AI進化,幫助媒體做到更大的價值表達,那么音視頻互動智能體則可以賦能企業做到基于音視頻介質的新交互形態。
“在支持各行各業那么多客戶需求的過程中,我們發現傳統的音視頻對話式AI方案越來越不足以滿足業務上飛速增長的需求。一方面大家希望對面的AI在各種感官的表現上更大程度的趨近于真人的感覺,另一方面大家也希望對面的AI能夠擁有自己各行各業一些更加專業的知識和特定的業務功能。”火山引擎智能互動產品負責人楊若揚表示。
誠然如此。即在過去的幾年時間里,一系列AI實時互動的場景如火如荼出現,但盡管各家都在宣稱自身實現了基于大模型的升級,但其中的兩個核心問題仍然存在——一個是真人感,一個是“產業know-how”能力。
這也恰是火山引擎音視頻互動智能體的核心著力點所在。首先來看真人感,即在火山引擎音視頻互動智能體的設定里,一系列如“口語感對話”、“情緒與聲線”設定、感知與承接等特點都經過特殊的設計,這種從音色到音質,再到情緒的工程設定一定程度上會強化產品真人感的屬性。
而另一方面,通過多類型的視覺理解、長期記憶、知識庫等工程強化,可以保證音視頻互動智能體能識別多種場景并且基于長期數據形成穩定的技能,如游戲陪玩、工業質檢、AI教學、陪伴類場景等等。
這種“真人感+場景技能”的設定同時配合AIGC傳輸系統的低時延,也恰可以為企業提供一眾AI音視頻實時活動的能力加持。
從整體視角來看,在火山引擎智能視頻云的方案中,其一方面通過AIGC傳輸系統完成AI時代音視頻流通的底層“路”的建設,如帶寬、時延等等,保障信息傳遞的通暢,另一方面通過AI MediaKit這個“車”的角色完成內容的AI表達和更新的AI內容生產,最后基于音視頻互動智能體完成“人”層面交互的重塑。
即通過“路+車+人”的復合體系,其可以幫助企業以足夠立體且體系化的模式,把“豆包同款”的音視頻能力真實嵌入到企業的相關業務中,幫助企業構建出適配自身的視頻應用或智能體。
三、大模型時代,我們需要怎樣的AI音視頻基建?
實際上,從另一個角度來看,在火山引擎智能視頻云的方案背后,其對應的也恰是中國當下的最佳的AI音視頻實踐產品樣本——豆包。
根據三方統計顯示,截止11月,豆包國內DAU約5670萬、MAU約1.76億,到年底其MAU預計接近1.9億,用戶量和使用頻次均位列中國AI應用市場第一。在這些日活和月活用戶中,有一大批使用者調用的是豆包的AI視頻功能和AI實時語音通話等能力。
而保障這些能力被順利調用和使用的,正是如今被火山引擎放到臺前的智能云視頻解決方案。實際上,不論是AIGC傳輸系統,還是AI MediaKit,抑或是音視頻互動智能體,在一眾企業案例的落地中,豆包自身恰可以看作是“難度和復雜度最大的標桿客戶”。
比如AIGC傳輸系統,其本身支撐的就是豆包這類大規模AI應用的數據傳輸;再比如音視頻互動智能體,其對應的是把豆包每天數以億次被調用的絲滑AI音視頻互動能力封裝成一個完備的智能體方案,賦能給一眾游戲、陪伴應用、工業質檢以及需要強RTC能力的企業,幫助其實現真正的音視頻實時互動。
以及出海場景的全套體系加持,在本次大會上,火山引擎智能視頻云也更發布了面向海外場景的方案全景圖,其以智能媒體處理平臺、AIGC傳輸系統、全球實時傳輸分發等技術為底座,同時Conversational AI、AI Media Studio(一站式AI視頻處理方案)分別面向海外實時互動場景(如陪伴類應用)、本地化內容生產等需求,同時結合對應的營銷方案,共同服務出海企業。
實際上,這個“路+車+人”的智能視頻云體系如今已經有所落地。以短劇賽道的麥芽傳媒為例,如今不論是基于本土劇的海外翻譯,還是基于每個IP劇的高光片段自動生成,都已經跑在火山引擎上,基于智能視頻云的AI MediaKit組件能力進行更高效地推進,極大提高企業效率。
據了解,后續雙方還將就AI漫劇和AI審片等場景進行更為深入的合作。
以及在音視頻交互場景,以TapTap游戲平臺為例,作為定位游戲分發平臺和玩家社區的企業,如今基于火山的音視頻互動智能體等能力,其專門構建了一系列AI能力,以為專門適配游戲場景的AI游戲助手,后者通過對火山引擎RTC的能力的調用,集合自身在大模型上“大模型+小模型”的探索,進而為玩家構建出真正的AI游戲陪玩,其可以識別玩家的具體動作并實時交互給出策略。
從某種程度來看,伴隨著AI云原生時代的來臨,視頻這種介質正在有全新的演繹,不論是內容效率的提升、媒體價值的放大,還是基于實時互動的更新交互形態,其全新的生產力價值也更在出現。
火山引擎,通過“路+車+人+海”的智能視頻云體系,構建的恰是基于這種新介質的規范化操作界面。
也更可以說,從抖音同款到豆包同款背后,火山引擎智能視頻云對應交付的不僅是能夠幫助企業構建Agent和視頻應用的底層視頻云技術和工具,從更大角度來看,其賦能企業的也更是一個被清晰界定的新生產力形態和擁有AI云原生視頻工程實踐的體系模型。
有理由相信,未來的幾年時間里,無數個豆包或將在千行百業里出現,帶給人們不一樣的AI新世界。到時候或許可以真的說:AGI時代,真的來了。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.