<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      讓 AI 視頻學會配音,學術界花了十年|Vidu Q3 發布的背后

      0
      分享至

      先看這個,一起背背單詞,Ambition,俺必勝

      俺必勝 = Ambition

      prompt

      趣味單詞助記視頻,中國古代戰爭大片風格(類似《三國演義》),千軍萬馬的戰場,陰沉的天空,戰旗飄揚

      一位身穿重甲、滿臉胡渣的將軍緩緩拔出寶劍,舉劍指天,眼神狂熱,嘶吼:「俺!必!勝!!」

      天空一道閃電劈下,畫面驟暗。黑幕中金色火焰字體燃燒而出:AMBITION,下方浮現中文「雄心」。渾厚男聲旁白同步朗讀:「Ambition,雄心」

      Vidu 剛剛發布了 Q3,支持上了聲畫同出文字渲染自動切鏡

      官網在這:https://www.vidu.cn/

      開發者平臺在這:https://platform.vidu.cn/


      而諧音記單詞,也是把 Vidu Q3 的能力全用上了,再來一個

      拍死它 = Pest

      prompt

      趣味單詞助記視頻,4K高清美食紀錄片風格,極度清晰的微距鏡頭,明亮的米其林餐廳后廚 ,古典音樂舒緩

      蒼蠅嗡嗡聲漸近,音樂戛然而止,蒼蠅飛入畫面降落在食物最頂端,大廚舉起巴掌,用中文大吼:「拍死它!」 手掌即將拍下瞬間,畫面定格震動

      紅色印章風格猛然蓋上:PEST,下方顯示中文「害蟲」

      清脆女聲同步朗讀:「Pest,害蟲」

      Vidu Q3 是生數科技 1 月 30 日發布的視頻生成模型,全球首個支持 16 秒音視頻直出

      在 Artificial Analysis 最新榜單中,Vidu Q3 排名中國第一,全球第二,超過 Runway Gen-4.5、Google Veo 3.1 和 OpenAI Sora 2


      AA text to video 榜單:2月3日截圖 拍短劇視角

      以前用 AI 做短劇的流程是這樣的:生成畫面,配音,配音效,剪輯

      Q3 把這幾步合成一步:一次生成出視頻 + 對話 + 音效 + 背景音樂,口型自動對上

      讓我們先來看看這個搞砸了的廚師

      搞砸了的廚師

      prompt


      Static camera from inside the oven, looking outward through the slightly fogged glass door. Warm golden light glows around freshly baked cookies. The baker’s face fills the frame, eyes wide with focus, his breath fogging the glass as he leans in. Subtle reflections move across the glass as steam rises.
      Baker (whispering dramatically): “Today… I achieve perfection.”
      He leans even closer, nose nearly touching the glass.
      “Golden edges. Soft center...”
      Baker: “Wait—”
      (beat)
      “Did I… forget the chocolate chips?”
      Cut to side view — coworker pops into frame, chewing casually.
      Coworker (mouth full): “Nope. You forgot the sugar.”
      Quick zoom back to the baker’s horrified face, pressed against the oven door, as cookies deflate behind the glass. Steam drifts upward in slow motion.
      pixar style acting and timing

      Pixar 風格,烤箱內視角,兩個人一來一回的對話,表情、節奏、喜劇 timing 全在里面

      一次生成,裝下一個完整的戲劇沖突

      再看這個父子棒球場的案例,4 個鏡頭自動切換

      父子棒球場

      prompt

      Shot 1 (Establishing wide shot, 3s): The baseball field, crowd cheering, scoreboard in the distance.

      Shot 2 (Medium shot, 5s): Father leans closer to his son. Father: "Which team do you think will win today?"

      Shot 3 (Close-up on son, 4s): The son watches the field seriously. Son: "I think the new team they just brought in will surprise everyone."

      Shot 4 (Cut back to two-shot, 3s): The father smiles and nods.

      全景、中景、特寫、雙人鏡頭,一段提示詞搞定

      圖生音視頻

      不只文生視頻,圖生也能聲畫同出

      上傳一張圖,寫上提示詞,完整視頻就有了,嘴型對得上,語氣也對,還有運鏡

      比如,讓我們先看看下面的這個

      所給到的參考圖,就是下面這個


      臺詞、動作、特效、運鏡、配樂,一次出完

      說到配樂...沒錯,Vidu 是支持讓人物唱出來的,比如下面這個,把非洲老哥的照片丟進去,讓他 Rap....


      就真特么成了

      還可以玩點更花里胡哨的,比如:多張分鏡圖輸入,一段完整視頻輸出,就像下面這個一樣


      下面這個就是成品

      分鏡變視頻

      prompt


      節奏:由慢到快;
      1. [極特寫] 黑色背景中,大塊可可豆被金屬磨盤碾碎,粉塵飛舞。
      2. [慢動作特寫] 濃稠的黑巧克力漿像絲綢一樣倒入攪拌碗。
      3. [特寫] 攪拌器高速旋轉,帶起巧克力漩渦。
      4. [中景加速] 蛋糕在烤箱中快速膨脹(Time-lapse 延時攝影感)。
      5. [特寫] 剛出爐的蛋糕表面撒上一層細密的糖粉。
      6. [極特寫] 銀色勺子挖開蛋糕,內部熱氣騰騰的巧克力巖漿流出,填滿畫面。```

      我覺得,最牛逼的還是這個,Q3 還支持中、英、日三語對話。同一段內容,換個語言標簽就能出不同語種版本

      然后...人物的神態,真的就分別像中國人、美國人、日本人

      特么的絕了...要知道,說不同語言的時候,面部肌肉到動作是不一樣的,這里竟然能仿到很真

      吃或不吃,三語版

      prompt

      中文:少女保持姿勢不變,略帶疑惑地對著鏡頭說:吃,或者不吃。這是個很嚴肅的問題

      英文:The girl remained in the same position, looking slightly puzzled at the camera, and said: "Eat, or not eat. This is a very serious question."

      日文:少女は同じ姿勢のまま、少し困惑した様子でカメラを見つめ、「食べるか、食べないか。これは非常に深刻な問題です」と言った
      文字渲染

      Q3 可以在視頻中生成精準的中、英、日文字,不會變形

      prompt


      水下第一視角,魚眼鏡頭,陽光從水面斜斜射下,一道道光柱在幽藍水體中漂浮。五彩斑斕的魚群從四周聚攏,在正前方排成一排,銀光閃爍地拼出漂浮的字母:“DEEP BLUE”。字母輕輕晃動,仿佛懸在水中發光。下方的珊瑚泛著熒光,沙地上焦散光影在流動中扭曲。

      還記得開頭的「諧音記單詞」么?這是相同的原因:畫面里的 AMBITION 和 PEST 都是模型直接渲染出來的

      聲畫同出

      視頻生成模型能配音這件事,學術界研究了快十年


      2016 年 MIT 做了個實驗:給模型看敲擊不同材質物體的視頻,讓它預測敲擊聲音。這是視覺引導音頻生成的起點

      2017 年牛津 VGG 團隊提出了一個任務:給一段視頻和一段音頻,判斷它們是不是來自同一來源。聽起來簡單,但這個自監督目標成了后續大量研究的基礎

      2020 年,擴散模型開始崛起。DDPM 提出通過逐步去噪從隨機噪聲生成高質量圖像,這個框架很快被擴展到音頻領域


      2022 年 12 月,MM-Diffusion 論文發布,學術界第一個聯合音視頻擴散框架。核心思路是讓音頻和視頻分支共享去噪過程,同時保持各自的特征提取。這篇論文證明了一件事:音視頻可以在同一個擴散過程中同時生成,效果比先生成視頻再配音頻的級聯方法更好

      但學術模型有個問題:只能生成 4 秒、256×256 分辨率的短視頻。商業產品追求高分辨率和長時長,音頻生成暫時擱置

      2025 年 5 月,Google Veo 3 發布,首個商用原生音視頻模型。Google 把數百萬小時的配對音視頻數據和擴散 Transformer 架構結合,學術和工業之間的鴻溝被跨越

      然后各家快速跟進:

      時間

      模型

      時長

      Google Veo 3

      8 秒

      Gaga-1

      10 秒

      OpenAI Sora 2

      15 秒

      快手 Kling 2.6

      10 秒

      字節 Seedance 1.5 Pro

      12 秒

      Runway Gen-4.5

      10 秒

      生數 Vidu Q3

      16 秒

      補充說明 OpenAI 在啟用 StoryBoard 的時候,視頻可以最長 25 秒,不過那屬于工程優化,暫時不算在這個列表里

      9 個月,原生音頻從突破性創新變成競爭標配。Q3 的 16 秒是目前最長的單次生成時長

      技術路線上有兩種:聯合生成,或者級聯生成

      聯合生成:跑一次,音頻視頻同時出來,二者共享潛空間,完美時間對齊,但計算成本高

      級聯生成:跑兩次,先出視頻,再出音頻,可以用單模態最好的模型,但可能產生微妙的不對齊


      現在的競爭焦點是:單次生成時長、對話質量、多語言支持、唇形同步準確度、多人場景處理能力

      最后

      收束下全文,這次 Vidu 發布了 Q3,支持文生視頻、圖生視頻,最長 16 秒,聲畫同出,為劇而生


      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      油價大降1.73元/升,汽油降至6.7元后全漲起來,下次調價變漲中

      油價大降1.73元/升,汽油降至6.7元后全漲起來,下次調價變漲中

      豬友巴巴
      2026-04-02 16:35:03
      “項王故里”景區招募項羽扮演者 要求身高185cm以上 日薪按身高10倍計算

      “項王故里”景區招募項羽扮演者 要求身高185cm以上 日薪按身高10倍計算

      閃電新聞
      2026-04-02 11:12:54
      上市公司突發,董事長失聯

      上市公司突發,董事長失聯

      第一財經資訊
      2026-04-03 14:29:12
      浙江東陽,33 歲的男子,在母親長眠的公墓旁,在車里結束了生命

      浙江東陽,33 歲的男子,在母親長眠的公墓旁,在車里結束了生命

      魔都姐姐雜談
      2026-03-30 19:25:57
      浪姐7大翻車!主持人開黃腔,杜海濤媽媽搶話,黃燦燦揭謝娜老底

      浪姐7大翻車!主持人開黃腔,杜海濤媽媽搶話,黃燦燦揭謝娜老底

      阿傖說事
      2026-04-03 11:55:00
      4月醫保新政:家有高血壓、糖尿病、心臟病的,趕緊辦

      4月醫保新政:家有高血壓、糖尿病、心臟病的,趕緊辦

      小談食刻美食
      2026-04-03 10:10:23
      他判刑13年至死未平反,10萬人送行墓前立百碑,百姓說不能忘了他

      他判刑13年至死未平反,10萬人送行墓前立百碑,百姓說不能忘了他

      小嵩
      2026-04-03 14:01:17
      繼續跌跌跌!2026年3月29日 - 飛天茅臺和生肖酒每日行情價格

      繼續跌跌跌!2026年3月29日 - 飛天茅臺和生肖酒每日行情價格

      阿天愛旅行
      2026-03-31 14:31:55
      亞洲最貴11人陣容:“亞洲一哥”仍舊領銜,曼城中衛價格最高

      亞洲最貴11人陣容:“亞洲一哥”仍舊領銜,曼城中衛價格最高

      里芃芃體育
      2026-04-03 11:30:13
      朝鮮男人煙不離手,金正恩抽什么牌子的香煙?一包煙的價格是多少

      朝鮮男人煙不離手,金正恩抽什么牌子的香煙?一包煙的價格是多少

      大千世界觀
      2025-04-06 08:14:26
      被免去廳長職務半年后,夏智倫主動投案

      被免去廳長職務半年后,夏智倫主動投案

      新浪財經
      2026-04-03 15:21:39
      馬斯克:西方不搞電車,集體擁抱氫能,中國電動車錯了嗎?

      馬斯克:西方不搞電車,集體擁抱氫能,中國電動車錯了嗎?

      杰絲聊古今
      2026-04-03 05:33:28
      澳門世界杯:8強誕生!德日潰不成軍,小莫開啟暴走 王楚欽遇鬼才

      澳門世界杯:8強誕生!德日潰不成軍,小莫開啟暴走 王楚欽遇鬼才

      桃葉渡春
      2026-04-03 10:34:53
      英媒:中國在美伊沖突問題上遵循“不打斷敵人犯錯”原則

      英媒:中國在美伊沖突問題上遵循“不打斷敵人犯錯”原則

      俄羅斯衛星通訊社
      2026-04-03 15:14:10
      場均23+5,湖人打算給2.4億合同!佩林卡別犯渾,他不是爭冠拼圖

      場均23+5,湖人打算給2.4億合同!佩林卡別犯渾,他不是爭冠拼圖

      你的籃球頻道
      2026-04-03 13:41:26
      日本九州大學的中國交換生辦完合約手機,沒有按契約進行還款,拿著手機回中國了……

      日本九州大學的中國交換生辦完合約手機,沒有按契約進行還款,拿著手機回中國了……

      日本物語
      2026-04-02 20:39:33
      坦白備好壽衣和遺照3個月后,張柏芝近況曝光,謝霆鋒媽媽沒說謊

      坦白備好壽衣和遺照3個月后,張柏芝近況曝光,謝霆鋒媽媽沒說謊

      潮鹿逐夢
      2026-04-01 11:14:27
      火箭一口氣獲4大喜訊!提前鎖前6直通季后賽 杜蘭特獲月最佳提名

      火箭一口氣獲4大喜訊!提前鎖前6直通季后賽 杜蘭特獲月最佳提名

      鍋子籃球
      2026-04-03 12:08:01
      美國宣布:4月2日重返月球!尷尬的是:美國目前沒有載人登月能力

      美國宣布:4月2日重返月球!尷尬的是:美國目前沒有載人登月能力

      粵語音樂噴泉
      2026-04-01 13:11:23
      4月2日俄烏:特朗普又放“狠話”,俄軍損失突破130萬

      4月2日俄烏:特朗普又放“狠話”,俄軍損失突破130萬

      山河路口
      2026-04-02 17:16:01
      2026-04-03 16:03:00
      賽博禪心
      賽博禪心
      拜AI古佛,修賽博禪心
      357文章數 50關注度
      往期回顧 全部

      科技要聞

      5萬輛庫存車,給了特斯拉一記重拳

      頭條要聞

      小米宣布部分手機調價 盧偉冰、魏思琪:望大家理解

      頭條要聞

      小米宣布部分手機調價 盧偉冰、魏思琪:望大家理解

      體育要聞

      沖擊世界杯失敗,80歲老帥一氣之下病倒了

      娛樂要聞

      《浪姐7》最新人氣TOP 曾沛慈斷層第一

      財經要聞

      專家稱長期攝入“飄香劑”存在健康隱患

      汽車要聞

      你介意和遠房親戚長得很像嗎?

      態度原創

      家居
      教育
      親子
      游戲
      軍事航空

      家居要聞

      溫馨多元 愛的具象化

      教育要聞

      教育部:義務教育學校嚴禁設立重點班、實驗班、快慢班

      親子要聞

      成都昊祎裳服飾有限公司童裝:用健康與時尚,守護孩子的童年時光

      《羊蹄山之魂》"奇譚模式"高難突襲任務4月11日上線

      軍事要聞

      中方:不認同伊朗對海合會國家的攻擊

      無障礙瀏覽 進入關懷版