<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      實(shí)測可靈2.6:給AI視頻上了一堂聲音課

      0
      分享至


      中文視頻AI邁入“有聲之年”。

      作者|景行

      編輯|楊舟

      不得不感嘆AI大模型的進(jìn)步速度。

      12月,可靈AI先是發(fā)布統(tǒng)一多模態(tài)視頻大模型可靈O1,緊接著閃電發(fā)布可靈2.6、數(shù)字人2.0。

      可靈2.6的發(fā)布,則讓困擾視頻工作者已久的聲畫不同步問題得到解決,其核心功能就是音畫同出,簡單理解,一次生成,能同時做出視頻和音頻,而且二者實(shí)時同步。

      其中,可選的音頻效果不僅涵蓋人聲對話、獨(dú)白,還提供環(huán)境音、效果音、樂器演奏乃至說唱等完整的音頻生態(tài)。

      在此之前,部分海外視頻模型已經(jīng)在音畫同出領(lǐng)域做出探索,如Google Veo 3.1和OpenAI Sora 2,二者均能實(shí)現(xiàn)從口型到動作、聲音的同步生成,并與畫面完成匹配。

      但這些模型同樣存在弱點(diǎn),如音頻控制力不足,同角色的不同片段聲音、語氣統(tǒng)一效果一般,對中文語音的理解不足導(dǎo)致腔調(diào)怪異,用戶調(diào)整困難等等。

      在可靈2.6發(fā)布后,「市象」也在第一時間試用了產(chǎn)品。在一系列測試后,可以確認(rèn)的是,AI視頻模型,要對過去的創(chuàng)作流程徹底重構(gòu)了。

      01從啞劇到聲臨其境

      AI視頻的音畫同出,并非最新功能,此前已有多模型能做到。

      “Sora 2是視頻生成領(lǐng)域的 GPT-3.5時刻?!?/p>

      這一表述來自今年9月,OpenAI的官方博客。伴隨新一代視頻生成模型Sora2發(fā)布,OpenAI公開表示,新模型的性能已經(jīng)超越歷代模型,不僅在物理效果上更加精確,同時還配備了同步音頻功能。

      例如,在生成視頻時,能完成復(fù)雜的運(yùn)動動作,或模擬真實(shí)運(yùn)動場的物理表現(xiàn),同時生成背景音、語音和音效,并將其融入到視頻當(dāng)中。

      但面對Sora2、Veo3.1這樣的海外一線模型時,不少海外博主,表現(xiàn)出對可靈2.6的認(rèn)可。

      “這比Veo3好多了!相比Veo3,它最大的優(yōu)勢在于:原生支持1080p,這在畫質(zhì)上帶來了巨大的提升?!?/p>

      這一表述來自海外視頻博主Simon Meyers,在分享中,他使用可靈2.6制作了一則預(yù)告片,并用各種復(fù)雜的提示詞來測試模型功能:

      “我嘗試了各種聲音和對話,沒有發(fā)現(xiàn)任何明顯的限制——音效、人聲,甚至歌聲都能完美呈現(xiàn)!當(dāng)然,和所有視頻模型一樣,你仍然需要進(jìn)行一些迭代,但這完全可以接受。語音聽起來很逼真,語調(diào)也十分精準(zhǔn),總的來說,這是一個巨大的飛躍?!?/p>


      在這段不到一分鐘時長的作品中,觀眾可以直觀感受到可靈2.6對音畫生成的理解:

      單人獨(dú)白、背景歌曲、視頻氛圍音效、吉他彈奏聲(甚至有遠(yuǎn)景和近景下,兩種吉他音的不同表現(xiàn))、歌唱聲、打擊樂器聲、氣球、攪拌器、電鉆、無人機(jī)、甚至結(jié)尾字幕配合的女聲吟唱,多種復(fù)雜音頻出現(xiàn)在同一作品中,互不干擾,并與畫面完美融合。

      另一視頻博主Curious Refuge選擇用新的方式測試可靈2.6——用四組畫面和生成詞,分別交給Veo3.1和可靈2.6,分別是俯拍鏡頭,兩位騎士騎馬穿越森林;推鏡頭,食客在面館吃拉面;特寫鏡頭,男子在帆船上獨(dú)白;固定中景鏡頭,男子吃掉餅干,并與寵物狗交流。

      結(jié)論是,可靈2.6的表現(xiàn)令人意外。


      在各項對比中,可靈2.6在多個測試成績上要超過Veo3.1,如場景生成、相機(jī)運(yùn)動更符合生成詞等等。盡管在Veo 3.1的輸出結(jié)果中,也有部分表現(xiàn)出色,如音頻更為洪亮,但該博主的結(jié)論是,在這一輪測試中,可靈2.6略占上風(fēng)。

      事實(shí)上,除音畫協(xié)同外,可靈2.6還重點(diǎn)強(qiáng)化了音頻質(zhì)量和語義理解。前者會讓各類音效層次更豐富、接近真實(shí)世界的聲音效果;后者則讓AI對復(fù)雜劇情的理解能力更強(qiáng),理解作者意圖。

      更多音頻元素的融入,則讓AI視頻效果直逼現(xiàn)實(shí)。除了單人講話外,可靈2.6支持多人多白、不同風(fēng)格歌聲、環(huán)境音、物理音效,乃至多種音頻組合的混合音效。

      這意味著,創(chuàng)作者只需要通過文本描述,就能還原一個物理世界多重環(huán)境音的層次感與空間感,獲得一個無需后期修改的完整作品。

      02重構(gòu)工作流

      過去的AI視頻模型,創(chuàng)作者的工序大概是這樣幾步:

      創(chuàng)作者思考創(chuàng)意,確定文字腳本、畫面分鏡等方向——由AI生成文、圖等素材——進(jìn)一步通過素材生成視頻——后期生成配音和音效,并校對完成。

      其中,后期制作是最為耗時的環(huán)節(jié)之一。對剪輯從業(yè)者來說,無論是語音、效果音的制作和篩選,還是視頻的后期對軸,將音效與畫面逐幀對齊,這一工作對視頻質(zhì)量的影響極大,不僅依賴經(jīng)驗(yàn),且過程繁瑣,需要在視頻工具、音頻工具中反復(fù)切換,

      這讓可靈2.6的新功能重要性更為突出。在創(chuàng)作時,用戶只需輸入畫面、動作、聲音的三要素精確描述,就能獲得一段高質(zhì)量的AI視頻。

      這意味著,無論用戶是否有AI視頻創(chuàng)作經(jīng)驗(yàn),都能在可靈2.6模型中體驗(yàn)無門檻的創(chuàng)作流程。

      具體方法十分簡單,在Web端可靈頁面中選擇視頻生成,文生視頻、圖生視頻均可選擇,在下方勾選“音畫同出”,并選擇品質(zhì)模式、畫面比例和產(chǎn)出條數(shù),輸入生成詞或參考圖即可。


      需要注意的是,要生成一條滿意的AI音畫直出視頻,用戶最好能對視頻畫面、動作、聲音三要素進(jìn)行精確描述,如畫面細(xì)節(jié),人物情緒、語速等。

      「市象」選擇文生視頻的方式,首先測試可靈2.6對歌曲、樂器的理解能力,生成詞如下:

      光線明亮的演播室,歌手正在一邊彈奏吉他,發(fā)出悠揚(yáng)的吉他音樂聲,一邊用溫柔的聲音演唱中文歌曲。

      可以看到,視頻中歌手不僅通過自彈自唱方式演唱了一段原創(chuàng)歌曲,且口型、彈奏動作畫面與聲音形成契合。整個視頻不僅能實(shí)現(xiàn)畫面流暢、光影自然,在音頻層面則能做到旋律清晰,吉他演奏聲與人聲演唱層次分明,互不干擾。

      再如這段生成詞:中景,慢速推鏡頭,雨聲比較大的陰雨天,有短促的閃電,滿臉泥濘的消防員在雨中說,很高興,我們成功撲滅了大火。

      從視頻效果看,可靈按要求還原了雨天場景,同時表現(xiàn)出了雨水落在帽子上的物理效果,人物的獨(dú)白聲則與背景的雨聲獨(dú)立開來,形成有層次的混合音效體驗(yàn)。

      03當(dāng)AI學(xué)會說話

      在與羅永浩的播客對談中,影視颶風(fēng)創(chuàng)始人TIM曾有這樣一番表述:在AI面前,創(chuàng)作者10年的努力都沒有價值。最多兩年,AI就能替換掉一個非常優(yōu)秀的剪輯師。

      從產(chǎn)業(yè)場景來看,視頻AI正以閃電速度,從自媒體創(chuàng)意輔助者向全能的視頻生產(chǎn)力工具轉(zhuǎn)變。特別是可靈2.6將視頻模型音畫協(xié)同能力大幅提升后,一些過去依賴人工完成的創(chuàng)作工作,在AI面前將失去性價比優(yōu)勢。

      例如在電商場景下,人工解說的效率將難以匹敵AI。

      未來的電商市場,一款產(chǎn)品的商品圖片,可以由商家自主拍攝上傳,商品賣點(diǎn)的口播,則可以由AI解說完成,具體到使用場景,AI可以幫助商家輕易搭建任何高成本、電影級質(zhì)感的視頻背景,并清晰傳遞出產(chǎn)品優(yōu)勢。如果憑借人力完成,其成本無疑將是天文數(shù)字。

      在廣告場景下,視頻AI則有更大的發(fā)揮空間。

      以可靈2.6的演示視頻為例,模型可高質(zhì)量完成鏡頭調(diào)度、分鏡設(shè)計、音頻設(shè)計、配樂設(shè)計、動作設(shè)計、音畫結(jié)合等創(chuàng)作者近乎全方位的意圖。

      在過去,一條一分鐘左右的廣告宣傳片制作周期可能要花費(fèi)數(shù)周,策劃、攝影、剪輯、配音、后期等工種則需要全程跟進(jìn),確保最終產(chǎn)出符合創(chuàng)意規(guī)劃。

      如今借助AI模型,創(chuàng)作者只需將創(chuàng)意交給AI來跑,借助文本生成、圖片生成等方式產(chǎn)出多個音畫協(xié)同的視頻作品并加以篩選,一些涉及到虛擬形象、特效等后期工作的效果,則能通過AI在幾分鐘內(nèi)實(shí)現(xiàn)。

      比如文本描述“生成一些精靈,用手舉起目標(biāo)產(chǎn)品”“讓商品跨出國門,飛向世界各地”等,這不僅效率大幅提高,更降去了大部分成本。

      可以說,只要一個行業(yè)存在視頻內(nèi)容的產(chǎn)出需求,類似的改變就將持續(xù)發(fā)生。如自媒體創(chuàng)作、直播、播音傳媒、音樂MV、影視制作等等。

      一個肉眼可見的改變是,在短視頻平臺,部分經(jīng)史人文類博主已經(jīng)率先應(yīng)用AI生成視頻素材,以節(jié)約創(chuàng)作時間。隨著可靈2.6發(fā)布,中文視頻模型音畫協(xié)同技術(shù)成熟,留給博主的創(chuàng)作空間還將進(jìn)一步拓展。

      對所有相關(guān)從業(yè)者而言,這場聲音革命都迫使人思考,當(dāng)長周期重投入的生產(chǎn)模式變成即時批量生產(chǎn),當(dāng)AI學(xué)會自己發(fā)聲,人應(yīng)該掌握的,應(yīng)當(dāng)是把握創(chuàng)意和審美,教AI講好故事。

      本文為《市象》原創(chuàng)文章

      未經(jīng)授權(quán)不得轉(zhuǎn)載或建立鏡像

      轉(zhuǎn)載、交流、合作請?zhí)砑游⑿牛篗ingFei_99

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      她是張雪背后的女人,14歲跟著他不嫌棄是修車工,難怪能逆襲圓夢

      她是張雪背后的女人,14歲跟著他不嫌棄是修車工,難怪能逆襲圓夢

      林雁飛
      2026-03-31 19:20:58
      終于懂了資本為什么死磕章若楠!她踩中了中國人的3條隱形規(guī)則

      終于懂了資本為什么死磕章若楠!她踩中了中國人的3條隱形規(guī)則

      橙星文娛
      2026-03-31 13:04:06
      香菇再次被關(guān)注!醫(yī)生發(fā)現(xiàn):癌癥患者吃香菇,不用多久或有5改善

      香菇再次被關(guān)注!醫(yī)生發(fā)現(xiàn):癌癥患者吃香菇,不用多久或有5改善

      讀懂世界歷史
      2026-02-12 21:48:53
      打!賠光1770億也要打?以色列最新民調(diào):75%民眾要求打到底

      打!賠光1770億也要打?以色列最新民調(diào):75%民眾要求打到底

      梁訊
      2026-03-29 14:09:20
      穆帥和本菲卡主席科斯塔,就下賽季球隊引援、規(guī)劃,達(dá)成一致

      穆帥和本菲卡主席科斯塔,就下賽季球隊引援、規(guī)劃,達(dá)成一致

      福醬的小時光
      2026-04-01 20:27:49
      張雪也沒想到會有這一天!陳光標(biāo)送1300萬勞斯萊斯,選日子很微妙

      張雪也沒想到會有這一天!陳光標(biāo)送1300萬勞斯萊斯,選日子很微妙

      離離言幾許
      2026-04-01 22:53:46
      太可憐了!2張照片,幾乎就是張雪峰人生的最後定格

      太可憐了!2張照片,幾乎就是張雪峰人生的最後定格

      魔都姐姐雜談
      2026-03-28 04:04:21
      小孩子的嘴果然是口無遮攔啥都往外說!爸媽:以后還怎么見人

      小孩子的嘴果然是口無遮攔啥都往外說!爸媽:以后還怎么見人

      另子維愛讀史
      2026-04-01 19:28:39
      熬夜+請假?2026世界杯賽程定了!

      熬夜+請假?2026世界杯賽程定了!

      湖報體育
      2026-04-01 20:29:34
      蔡正元入獄第三天,大陸正式發(fā)布公告,信號明確,鄭麗文或成功臣

      蔡正元入獄第三天,大陸正式發(fā)布公告,信號明確,鄭麗文或成功臣

      滄海旅行家
      2026-03-31 14:21:27
      剛從日本回來,說點(diǎn)不中聽的:日本的真實(shí)面目,可能讓你很意外

      剛從日本回來,說點(diǎn)不中聽的:日本的真實(shí)面目,可能讓你很意外

      復(fù)轉(zhuǎn)這些年
      2026-04-01 09:17:19
      特朗普稱1萬美軍要登島!伊朗亮出核底牌:要死一起死!

      特朗普稱1萬美軍要登島!伊朗亮出核底牌:要死一起死!

      愛吃醋的貓咪
      2026-04-01 22:31:49
      業(yè)績創(chuàng)新高,股價卻逆市大跌!千億光伏龍頭盤中跌超13%

      業(yè)績創(chuàng)新高,股價卻逆市大跌!千億光伏龍頭盤中跌超13%

      21世紀(jì)經(jīng)濟(jì)報道
      2026-04-01 12:11:05
      即將抵達(dá)東莞!請市民做好準(zhǔn)備!

      即將抵達(dá)東莞!請市民做好準(zhǔn)備!

      東莞好生活
      2026-04-01 20:17:15
      魯比奧當(dāng)眾懟歐盟反華外長:你要覺得行你就上,美國可以讓路

      魯比奧當(dāng)眾懟歐盟反華外長:你要覺得行你就上,美國可以讓路

      我是李小七23
      2026-03-31 19:45:20
      油價一夜大反轉(zhuǎn)!92號汽油每升跌1.72元后大改?26年油價狂飆!下次調(diào)價4月7日:國際油價跌...

      油價一夜大反轉(zhuǎn)!92號汽油每升跌1.72元后大改?26年油價狂飆!下次調(diào)價4月7日:國際油價跌...

      新浪財經(jīng)
      2026-04-01 11:07:47
      全新ES8爆單成最大功臣!蔚來3月交付新車35386臺 同比大漲136%

      全新ES8爆單成最大功臣!蔚來3月交付新車35386臺 同比大漲136%

      快科技
      2026-04-01 18:03:11
      明起停牌!000659,再度籌劃控制權(quán)變更!

      明起停牌!000659,再度籌劃控制權(quán)變更!

      證券時報e公司
      2026-04-01 19:42:42
      終于有了結(jié)果,曾醫(yī)生能保住醫(yī)院的工作,最應(yīng)該感謝的三位貴人!

      終于有了結(jié)果,曾醫(yī)生能保住醫(yī)院的工作,最應(yīng)該感謝的三位貴人!

      凌風(fēng)的世界觀
      2025-11-14 08:38:31
      不打伊朗了?特朗普通告全世界,戰(zhàn)爭費(fèi)由22國承擔(dān),一共5萬億

      不打伊朗了?特朗普通告全世界,戰(zhàn)爭費(fèi)由22國承擔(dān),一共5萬億

      軍聞新大門
      2026-04-01 20:06:26
      2026-04-01 23:31:00
      市象 incentive-icons
      市象
      研究真問題,書寫真洞察。
      429文章數(shù) 22關(guān)注度
      往期回顧 全部

      科技要聞

      甲骨文血洗3萬人,47人團(tuán)隊僅留3人

      頭條要聞

      中國為何能在能源動亂中處變不驚 路透社公布一組數(shù)據(jù)

      頭條要聞

      中國為何能在能源動亂中處變不驚 路透社公布一組數(shù)據(jù)

      體育要聞

      NBA擴(kuò)軍,和籃球無關(guān)?

      娛樂要聞

      張婉婷已決定離婚 找律師討論婚變事宜

      財經(jīng)要聞

      電商售械三水光針 機(jī)構(gòu)倒貨or假貨猖獗?

      汽車要聞

      三電可靠 用料下本 百萬公里的蔚來ES6 拆開看

      態(tài)度原創(chuàng)

      時尚
      家居
      數(shù)碼
      健康
      公開課

      大牌必修課|| 為什么那些很會穿的人,都迷上了優(yōu)雅運(yùn)動風(fēng)?

      家居要聞

      經(jīng)典配色 晝色銀河

      數(shù)碼要聞

      樹莓派再度漲價:推3GB版Pi 4 部分高配型號價格逼近迷你PC

      干細(xì)胞抗衰4大誤區(qū),90%的人都中招

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進(jìn)入關(guān)懷版