<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      讓 AI 視頻學會配音,學術界花了十年|Vidu Q3 發布的背后

      0
      分享至

      先看這個,一起背背單詞,Ambition,俺必勝

      俺必勝 = Ambition

      prompt

      趣味單詞助記視頻,中國古代戰爭大片風格(類似《三國演義》),千軍萬馬的戰場,陰沉的天空,戰旗飄揚

      一位身穿重甲、滿臉胡渣的將軍緩緩拔出寶劍,舉劍指天,眼神狂熱,嘶吼:「俺!必!勝!!」

      天空一道閃電劈下,畫面驟暗。黑幕中金色火焰字體燃燒而出:AMBITION,下方浮現中文「雄心」。渾厚男聲旁白同步朗讀:「Ambition,雄心」

      Vidu 剛剛發布了 Q3,支持上了聲畫同出文字渲染自動切鏡

      官網在這:https://www.vidu.cn/

      開發者平臺在這:https://platform.vidu.cn/


      而諧音記單詞,也是把 Vidu Q3 的能力全用上了,再來一個

      拍死它 = Pest

      prompt

      趣味單詞助記視頻,4K高清美食紀錄片風格,極度清晰的微距鏡頭,明亮的米其林餐廳后廚 ,古典音樂舒緩

      蒼蠅嗡嗡聲漸近,音樂戛然而止,蒼蠅飛入畫面降落在食物最頂端,大廚舉起巴掌,用中文大吼:「拍死它!」 手掌即將拍下瞬間,畫面定格震動

      紅色印章風格猛然蓋上:PEST,下方顯示中文「害蟲」

      清脆女聲同步朗讀:「Pest,害蟲」

      Vidu Q3 是生數科技 1 月 30 日發布的視頻生成模型,全球首個支持 16 秒音視頻直出

      在 Artificial Analysis 最新榜單中,Vidu Q3 排名中國第一,全球第二,超過 Runway Gen-4.5、Google Veo 3.1 和 OpenAI Sora 2


      AA text to video 榜單:2月3日截圖 拍短劇視角

      以前用 AI 做短劇的流程是這樣的:生成畫面,配音,配音效,剪輯

      Q3 把這幾步合成一步:一次生成出視頻 + 對話 + 音效 + 背景音樂,口型自動對上

      讓我們先來看看這個搞砸了的廚師

      搞砸了的廚師

      prompt


      Static camera from inside the oven, looking outward through the slightly fogged glass door. Warm golden light glows around freshly baked cookies. The baker’s face fills the frame, eyes wide with focus, his breath fogging the glass as he leans in. Subtle reflections move across the glass as steam rises.
      Baker (whispering dramatically): “Today… I achieve perfection.”
      He leans even closer, nose nearly touching the glass.
      “Golden edges. Soft center...”
      Baker: “Wait—”
      (beat)
      “Did I… forget the chocolate chips?”
      Cut to side view — coworker pops into frame, chewing casually.
      Coworker (mouth full): “Nope. You forgot the sugar.”
      Quick zoom back to the baker’s horrified face, pressed against the oven door, as cookies deflate behind the glass. Steam drifts upward in slow motion.
      pixar style acting and timing

      Pixar 風格,烤箱內視角,兩個人一來一回的對話,表情、節奏、喜劇 timing 全在里面

      一次生成,裝下一個完整的戲劇沖突

      再看這個父子棒球場的案例,4 個鏡頭自動切換

      父子棒球場

      prompt

      Shot 1 (Establishing wide shot, 3s): The baseball field, crowd cheering, scoreboard in the distance.

      Shot 2 (Medium shot, 5s): Father leans closer to his son. Father: "Which team do you think will win today?"

      Shot 3 (Close-up on son, 4s): The son watches the field seriously. Son: "I think the new team they just brought in will surprise everyone."

      Shot 4 (Cut back to two-shot, 3s): The father smiles and nods.

      全景、中景、特寫、雙人鏡頭,一段提示詞搞定

      圖生音視頻

      不只文生視頻,圖生也能聲畫同出

      上傳一張圖,寫上提示詞,完整視頻就有了,嘴型對得上,語氣也對,還有運鏡

      比如,讓我們先看看下面的這個

      所給到的參考圖,就是下面這個


      臺詞、動作、特效、運鏡、配樂,一次出完

      說到配樂...沒錯,Vidu 是支持讓人物唱出來的,比如下面這個,把非洲老哥的照片丟進去,讓他 Rap....


      就真特么成了

      還可以玩點更花里胡哨的,比如:多張分鏡圖輸入,一段完整視頻輸出,就像下面這個一樣


      下面這個就是成品

      分鏡變視頻

      prompt


      節奏:由慢到快;
      1. [極特寫] 黑色背景中,大塊可可豆被金屬磨盤碾碎,粉塵飛舞。
      2. [慢動作特寫] 濃稠的黑巧克力漿像絲綢一樣倒入攪拌碗。
      3. [特寫] 攪拌器高速旋轉,帶起巧克力漩渦。
      4. [中景加速] 蛋糕在烤箱中快速膨脹(Time-lapse 延時攝影感)。
      5. [特寫] 剛出爐的蛋糕表面撒上一層細密的糖粉。
      6. [極特寫] 銀色勺子挖開蛋糕,內部熱氣騰騰的巧克力巖漿流出,填滿畫面。```

      我覺得,最牛逼的還是這個,Q3 還支持中、英、日三語對話。同一段內容,換個語言標簽就能出不同語種版本

      然后...人物的神態,真的就分別像中國人、美國人、日本人

      特么的絕了...要知道,說不同語言的時候,面部肌肉到動作是不一樣的,這里竟然能仿到很真

      吃或不吃,三語版

      prompt

      中文:少女保持姿勢不變,略帶疑惑地對著鏡頭說:吃,或者不吃。這是個很嚴肅的問題

      英文:The girl remained in the same position, looking slightly puzzled at the camera, and said: "Eat, or not eat. This is a very serious question."

      日文:少女は同じ姿勢のまま、少し困惑した様子でカメラを見つめ、「食べるか、食べないか。これは非常に深刻な問題です」と言った
      文字渲染

      Q3 可以在視頻中生成精準的中、英、日文字,不會變形

      prompt


      水下第一視角,魚眼鏡頭,陽光從水面斜斜射下,一道道光柱在幽藍水體中漂浮。五彩斑斕的魚群從四周聚攏,在正前方排成一排,銀光閃爍地拼出漂浮的字母:“DEEP BLUE”。字母輕輕晃動,仿佛懸在水中發光。下方的珊瑚泛著熒光,沙地上焦散光影在流動中扭曲。

      還記得開頭的「諧音記單詞」么?這是相同的原因:畫面里的 AMBITION 和 PEST 都是模型直接渲染出來的

      聲畫同出

      視頻生成模型能配音這件事,學術界研究了快十年


      2016 年 MIT 做了個實驗:給模型看敲擊不同材質物體的視頻,讓它預測敲擊聲音。這是視覺引導音頻生成的起點

      2017 年牛津 VGG 團隊提出了一個任務:給一段視頻和一段音頻,判斷它們是不是來自同一來源。聽起來簡單,但這個自監督目標成了后續大量研究的基礎

      2020 年,擴散模型開始崛起。DDPM 提出通過逐步去噪從隨機噪聲生成高質量圖像,這個框架很快被擴展到音頻領域


      2022 年 12 月,MM-Diffusion 論文發布,學術界第一個聯合音視頻擴散框架。核心思路是讓音頻和視頻分支共享去噪過程,同時保持各自的特征提取。這篇論文證明了一件事:音視頻可以在同一個擴散過程中同時生成,效果比先生成視頻再配音頻的級聯方法更好

      但學術模型有個問題:只能生成 4 秒、256×256 分辨率的短視頻。商業產品追求高分辨率和長時長,音頻生成暫時擱置

      2025 年 5 月,Google Veo 3 發布,首個商用原生音視頻模型。Google 把數百萬小時的配對音視頻數據和擴散 Transformer 架構結合,學術和工業之間的鴻溝被跨越

      然后各家快速跟進:

      時間

      模型

      時長

      Google Veo 3

      8 秒

      Gaga-1

      10 秒

      OpenAI Sora 2

      15 秒

      快手 Kling 2.6

      10 秒

      字節 Seedance 1.5 Pro

      12 秒

      Runway Gen-4.5

      10 秒

      生數 Vidu Q3

      16 秒

      補充說明 OpenAI 在啟用 StoryBoard 的時候,視頻可以最長 25 秒,不過那屬于工程優化,暫時不算在這個列表里

      9 個月,原生音頻從突破性創新變成競爭標配。Q3 的 16 秒是目前最長的單次生成時長

      技術路線上有兩種:聯合生成,或者級聯生成

      聯合生成:跑一次,音頻視頻同時出來,二者共享潛空間,完美時間對齊,但計算成本高

      級聯生成:跑兩次,先出視頻,再出音頻,可以用單模態最好的模型,但可能產生微妙的不對齊


      現在的競爭焦點是:單次生成時長、對話質量、多語言支持、唇形同步準確度、多人場景處理能力

      最后

      收束下全文,這次 Vidu 發布了 Q3,支持文生視頻、圖生視頻,最長 16 秒,聲畫同出,為劇而生


      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      杠上了!“誰說歐洲文明要完?加拿大還想加入呢”

      杠上了!“誰說歐洲文明要完?加拿大還想加入呢”

      觀察者網
      2026-02-15 22:54:13
      高市沒想到,日本剛扣押中國漁船,抓走船長,中方就迅速出手了!

      高市沒想到,日本剛扣押中國漁船,抓走船長,中方就迅速出手了!

      歲暮的歸南山
      2026-02-16 00:18:08
      拉夫羅夫公開說“看不懂”,西方政客集體沉默 這事真有那么難解釋

      拉夫羅夫公開說“看不懂”,西方政客集體沉默 這事真有那么難解釋

      西莫的藝術宮殿
      2026-02-16 03:44:59
      俄媒:一旦開戰,中方只靠解放軍難以取勝,必須調動另一股力量!

      俄媒:一旦開戰,中方只靠解放軍難以取勝,必須調動另一股力量!

      勇士軍武閑談
      2026-02-13 11:54:35
      新加坡急了,外長幾乎是拍著桌子,讓中國“尊重”馬六甲的地位。

      新加坡急了,外長幾乎是拍著桌子,讓中國“尊重”馬六甲的地位。

      南權先生
      2026-01-26 15:41:26
      網速更快!華為公布支持5A通信機型:覆蓋Mate、Pura、nova等系列

      網速更快!華為公布支持5A通信機型:覆蓋Mate、Pura、nova等系列

      快科技
      2026-02-14 12:13:04
      最高可得2888元!剛剛,千問APP宣布發放口令紅包

      最高可得2888元!剛剛,千問APP宣布發放口令紅包

      大象新聞
      2026-02-15 17:59:05
      好慘烈的身高對比差距,中越邊境上的一張軍人合影突然火了起來

      好慘烈的身高對比差距,中越邊境上的一張軍人合影突然火了起來

      我心縱橫天地間
      2026-01-30 22:17:29
      回顧探花大神:害人害己,多位女主被親戚認出當場“社死”

      回顧探花大神:害人害己,多位女主被親戚認出當場“社死”

      就一點
      2025-10-09 12:19:42
      樊振東3-1逆轉賈哈!后三局拿捏關鍵分,為薩爾布呂肯奪首勝!

      樊振東3-1逆轉賈哈!后三局拿捏關鍵分,為薩爾布呂肯奪首勝!

      籃球資訊達人
      2026-02-15 20:50:48
      德國那位軍事專家說得夠直白:美國不是怕中國,是怕打了也白打

      德國那位軍事專家說得夠直白:美國不是怕中國,是怕打了也白打

      扶蘇聊歷史
      2026-01-28 18:04:09
      氣笑了!李家誠告周秀娜,不到半天就被打臉,好在周秀娜早有預防

      氣笑了!李家誠告周秀娜,不到半天就被打臉,好在周秀娜早有預防

      離離言幾許
      2026-02-13 18:34:28
      貝克漢姆家劇情更新,小七情人節曬與大布合照,貝嫂回應但沒人理

      貝克漢姆家劇情更新,小七情人節曬與大布合照,貝嫂回應但沒人理

      手工制作阿殲
      2026-02-16 02:42:05
      你無意之中撞見過什么秘密?網友:我婆婆和公公外面各自有人

      你無意之中撞見過什么秘密?網友:我婆婆和公公外面各自有人

      帶你感受人間冷暖
      2026-02-12 00:05:09
      他8次上春晚,作死被捕入獄,如今56歲無人問津,淪落到四處走穴

      他8次上春晚,作死被捕入獄,如今56歲無人問津,淪落到四處走穴

      小熊侃史
      2026-01-06 11:17:00
      中央電視臺直播錄播2026年2月16日至22日乒乓球比賽

      中央電視臺直播錄播2026年2月16日至22日乒乓球比賽

      乒乓球球
      2026-02-16 00:27:52
      前勇士、湖人冠軍中鋒麥基:我將加入北京首鋼

      前勇士、湖人冠軍中鋒麥基:我將加入北京首鋼

      懂球帝
      2026-02-15 09:17:17
      這種飲料正在摧毀你的胰島細胞!很多糖尿病,都和這種飲料有關!

      這種飲料正在摧毀你的胰島細胞!很多糖尿病,都和這種飲料有關!

      蜉蝣說
      2026-01-29 14:46:50
      從5260萬降到600萬,還準備退役巡演么?奪冠熱門似乎不太需要你

      從5260萬降到600萬,還準備退役巡演么?奪冠熱門似乎不太需要你

      老梁體育漫談
      2026-02-15 00:03:47
      2026央視春晚最新動態!節目單曝光,重量級嘉賓登場

      2026央視春晚最新動態!節目單曝光,重量級嘉賓登場

      夢在深巷qw
      2026-02-16 03:42:26
      2026-02-16 05:15:00
      賽博禪心
      賽博禪心
      拜AI古佛,修賽博禪心
      293文章數 36關注度
      往期回顧 全部

      科技要聞

      發春節紅包的大廠都被約談了

      頭條要聞

      大學生寒假為媽媽店鋪當中老年服裝模特 撞臉明星

      頭條要聞

      大學生寒假為媽媽店鋪當中老年服裝模特 撞臉明星

      體育要聞

      NBA三分大賽:利拉德帶傷第三次奪冠

      娛樂要聞

      2026央視春晚最新劇透 重量級嘉賓登場

      財經要聞

      誰在掌控你的胃?起底百億"飄香劑"江湖

      汽車要聞

      奔馳中國換帥:段建軍離任,李德思接棒

      態度原創

      旅游
      親子
      本地
      房產
      游戲

      旅游要聞

      開放機關事業單位床位給游客,“寵客”還要善始善終

      親子要聞

      從小“吃零食”和“不吃零食”的孩子,離了父母的嚴管,差距拉大

      本地新聞

      春花齊放2026:《駿馬奔騰迎新歲》

      房產要聞

      三亞新機場,又傳出新消息!

      LPL第一賽段還未結束,亞運會已有3隊退出LOL比賽,包括東道主

      無障礙瀏覽 進入關懷版