在生成式大模型狂奔的兩三年,我對代表智能天花板的語言模型保持著高頻的使用。
然而對圖片生成、視頻生成這兩類產品的使用頻次卻不是很高——
一方面我自己的確沒有這方面的直接需求,另一方面,幾乎沒有受過什么專業美術訓練的我,對自己的審美多少還是有一點自知之明。
因此,對于多模態生成模型層面,我大部分時候都是一個內容的消費者而非生產者。
然而有時候看得多了,有時候還是會有天然的動手沖動。
前兩天,一個視頻模型的產研團隊聯系我說,可以試一試我們這個新的模型,于是我終于動手開始實踐在我腦海里拖延了很久的一些小腦洞。
我先不透露這個視頻模型的具體名字,咱們先看效果——
腦洞一:讓那些偉大的攝影作品鮮活起來
世界上第一張照片誕生于1826年,從攝影技術誕生到今天的199年里,誕生了無數偉大經典的照片,這些照片是歷史的縮影,而今天的AI則可以讓這些靜態的照片“活”過來。
1.摩天樓頂上的午餐(1932年)
![]()
這張拍攝于1932年大蕭條時期的照片,記錄了11名建筑工人在紐約洛克菲勒中心RCA大樓(現為GE大樓)69層高的鋼梁上悠然吃午餐的瞬間。
高空驚心動魄的場景與工人們輕松、若無其事的姿態形成強烈對比,創造出超現實的戲劇張力,反映了在大蕭條背景下,人們面對困境的樂觀與堅韌。
當這張靜態的照片變成視頻后,是下面的效果——
可以看到,在生成5秒的動態視頻畫面里,工人們“活”了。
他們細微的動作賦予了場景獨特的真實感:有的自然地晃動雙腿,有的相互傳遞點燃香煙的火柴,有滴在輕松地交談。
遠處,紐約城和中央公園隱約可見,直接將我們直接拉回1932年的高空。
有意思的是,拉遠的鏡頭還在很大程度上還原了拍照真實的場景:很顯然工人們的腳下不可能直接是250米的高空。
而更合理的是,可能是幾米的作業平臺,而這絲毫不影響這張“活”照片的張力。
2.勝利之吻(1945年)
《V-J Day in Times Square》是二戰結束時最具標志性的影像之一,它定格了日本投降消息傳來后,紐約時代廣場上一名水兵和一名護士的激情一吻。
![]()
這一吻超越了個人情感,成為時代的象征:它代表了戰爭終結的狂喜和如釋重負,而水兵與護士的身份也概括了奔赴前線的將士與堅守后方的民眾,歷史在這里定格。
而當靜態的照片流動起來,那個瞬間感覺有了呼吸。
我們看清了水兵和護士充滿狂喜笑容的臉,背景里的人群也開始鼓掌、歡呼,無聲的畫面開始鼎沸人聲。
視頻的意義在于,它可以這個自發的瞬間短暫重演,讓照片穿越時空的感染力具象化。
3.“希望工程”大眼睛女孩(1991)
這張由攝影師解海龍于1991年拍攝的照片,定格了安徽金寨女孩蘇明娟手握鉛筆、抬頭凝視的瞬間,那雙渴望的大眼睛,直擊人心.
![]()
這張照片真實地展現了這些孩子的困境與期盼,成為了“希望工程”的符號照片,喚起了社會廣泛的同情與關注,無數失學兒童得以重返校園,改變了很多個“蘇明娟”的命運。
今天的蘇明娟早已從大學畢業,回到家鄉,成為了工行安徽分行團委副書記、人力資源部總經理助理。
而在生成視頻中,那雙熟悉“大眼睛”開始眨動,露出真誠、鮮活的微笑,最后對著鏡頭輕輕地點了一個贊,仿佛在回應世界的善意。
那一刻,確實感覺很奇妙,很想把視頻發給當初的攝影師解海龍。
腦洞二:給我女兒重制民國語文課本
前些天看到了一本民國語文課本——開明國語課本,葉圣陶先生創作的課文、豐子愷先生創作的插畫,前者深厚的造詣和后者傳神簡潔的審美相得益彰。
不過,當時的繁體字并不適合我8歲的閨女閱讀,而當時簡明的插圖也可以更加立體,于是我決定重制一份當時的語文課本。
以下是三個case——
第一課:“天初晚,月光明,窗前遠望,月在東方”
![]()
簡單有節奏的聊聊四句,描繪了一個深遠的意境,但畫面由于年代久遠和時代限制,的確有些模糊了。
于是我花了不少精力仔細琢磨了提示詞,用Midjourney生成了如下畫面——
![]()
接著用模型將靜止的畫面變成了5秒視頻——
可以看到,隨著鏡頭的推進,畫中女孩靈動起來,望向窗外,靜謐而優雅。
第二課:“萬年橋邊小池塘,紅白荷花開滿塘,上橋去,看荷花,一陣風來一陣香”.
![]()
簡潔、雋永、朗朗上口,我同樣生成了如下畫面——
![]()
接下來,讓靜止的畫面和人物動起來——
可以看到,鏡頭拉遠,橋上的古典女孩開始緩慢走動,微風吹動荷葉,恬靜、淡雅。
第三課:“這是我的家,我們都愛它,池里養著魚,園里種著花,四面有田地,種豆又種瓜”.
![]()
這段通俗、韻腳嚴格的課本描繪了一個原生態田園生活的場景,有“向往的生活”里的意象,畫面感極強,Midjourney生成的畫面是這樣的——
![]()
這時候無人機可以上場了,來,拉一個遠景——
可以看到,盡管由于時間倉促以及我貧瘠的美術素養,三張圖風格沒有做到統一,整體還達不到最理想的狀態。
但我閨女非常喜歡,尤其對兩段有古典女孩的視頻贊不絕口。
老父親一上午沒白忙。
OK,以上就是我用視頻模型開的兩個腦洞,不知道大家感受如何?
我反正在過程中非常愉悅,無論是看到老照片動起來還是老課本活過來,經歷了好幾次“啊哈”時刻。
現在可以說我用的模型了——上面的case都是我用百度商業研發團隊昨天在AI Day上發布的視頻模型MuseSteamer生成的。
下面我就從我使用體驗以及和產研團隊交流之后的四點感受——
1.MuseSteamer在很多場景表現出高可用性
視頻生成的效果有時候是很微妙的,特別是人像、運動相關的場景,能用和好用之間的差異一眼就能感知到。
從MuseSteamer的實際體驗看,其生成的很多場景在細膩程度上非常出色,比如上邊希望工程大眼睛女孩的微笑:自然、鮮活、讓人動容,直觀的表現就是“沒有AI味”。
我自己也試了一些不同的case,說實話,很多都是超出我預期的。
比如下方狼的肌肉步伐控制、女孩的走路節奏,倒影和陰影的處理,都非常自然,完全沒有穿幫、出戲的感覺。
從5月17日,海外權威視頻生成評測榜單 VBench Leaderboard 更新了最新一期圖生視頻榜單,MuseSteamer以總分89.38%的成績,登上 VBench-I2V圖生視頻榜榜首,這個成績在一定程度上也可以反映出MuseSteamer的實力。
2.音視頻生成可能是未來視頻模型競爭的一個重點
音頻和視頻的同步生成讓視頻UGC作品在表現力層面上了一個大臺階。
從行業的創作者的實際體感來看,從無聲視頻到有聲視頻的確是質的飛躍,AI視頻內容生態也爆發出了一波創作熱潮——比如SALM、比如動物運動會、再比如穿越到古代直播等。
確實,傳統AIGC視頻創作實踐中,往往是先生成視頻,再進行配音和配音效。
這種割裂的創作在消耗大量時間的同時也會影響作品的完整性,而MuseSteamer支持一體化生成帶有音效和人物臺詞的視頻。
這背后是MuseSteamer多模態規劃、多音軌協同的能力,它使模型可以音視頻一體化端到端生成,在生成高質畫面同時,具備更逼真的音效。
從官方放出來的case看,無論是場景的環境音效,還是人聲,MuseSteamer都做到了很高的完成度,這無疑增加了視頻創作者們進行一體化創作的實用性。
在現場,百度也發布了基于MuseSteamer全新的AI創作平臺——繪想平臺。
公測版首先提供MuseSteamer Turbo版,而后續會在8月陸續上線主打快速、低成本的Lite版以及主打畫質的pro版,屆時也會支持所有版本的10秒生成和音頻同步生成。
值得注意的一點,繪想在公測期間完全免費,想要嘗鮮薅羊毛的同學可以行動了。指路:https://huixiang.baidu.com
3.MuseSteamer在創作層面提供了很多的可能性
在發布會現場,百度商業研發總經理劉林提到了一個詞——“鏡頭平權”。
的確,當視頻工具的能力在大幅提升之后,影視級創作的門檻大幅降低了。
以前,創作出一個好作品,需要同時具備創作才華和專業設備,但今天,某種意義上,只需要創意和才華。
在AI Day現場,MuseSteamer展示了一個名為《沙漠追逐》的短片,這個影視級的短片的起點僅僅是18張分鏡圖片。
而經過MuseSteamer魔法般生成之后,一個有節奏、有感染力的片子就以極低的生產成本誕生了。
這在很大程度上得益于MuseSteamer預置了“拉近、拉遠、向左、向右、向上、向下”的豐富運鏡。
通過排列組合,只要有真正的才華,每個人都可以是塔可夫斯基、希區柯克,“鏡頭平權”不再是夢想。
所以,從我個人的角度,我是樂于看到國內的視頻生成模型“卷”起來的。
這種“卷”產生的產品和技術升級意味著創作者可以獲得質量更高、成本更低的創作工具。
事實上,國內的創作者用AIGC視頻作品無論是在Twitter上還是Instagram、Tik Tok上,都有著很高的熱度,我想這其實和國內創作工具的豐富性是有高度相關關系的。
4.從需求出發的MuseSteamer有很強的抓重點能力
和MuseSteamer的產研同學交流之后發現,這個產品居然是今年春節才立項的,它的起點在于——商業廣告主本身就有很多視頻生成的需求。
百度的商業研發團隊之前就上線了專門為廣告主服務的AIGC廣告創意平臺——擎舵。
因此,團隊對廣告主的需求非常敏感,而隨著短劇、小說等投放行業對視頻需求的增加,平臺必須滿足其在營銷層面的視頻生成需求,于是就有了MuseSteamer。
而MuseSteamer在一開始之所以選擇“圖生視頻”,核心原因在于:相比于“文生視頻”,“圖生視頻”在可控性、一致性上有這個更高的確定性和實用性。
事實上,業界專業級的視頻項目,其標準生產模式,也是先生成滿意的圖,然后將圖轉化成視頻,生圖:某種意義上就是一個寫劇本的過程。
所以團隊也并不避諱甚至歡迎用戶到其他平臺(如Midjourney)生成圖片,然后用MuseSteamer進行視頻化創作,這本身就是一個取各家所長的創作策略。
作為一個只有50人左右的團隊,MuseSteamer在決定從“圖生視頻”切入、決定做音視頻一體、決定重點優化人物場景及運鏡,這其實在很大程度上反映了團隊非常善于抓重點,深刻理解目標用戶要的是什么、什么是影響視頻產出的關鍵。
從這個意義上,MuseSteamer后續的產出和產品升級值得期待。
結語
1903年一個叫Julius Neubronner的法國人突發奇想,把小型相機裝到了鴿子的身上,結果拍到了讓人驚嘆的城市照片。
今天的視頻生成模型其實也是一只裝了相機的鴿子,它可以讓我們從完全不同的維度重構創作。
的確,每一種創作技術的革新,都會誕生新的藝術流派。
奔跑吧,新一代創作者!
——End——
作者簡介:衛夕,公眾號“衛夕指北”出品人,科技專欄作者,專寫長文,專注剖析互聯網及社會科學的底層邏輯;不關注這個賬號,你都不知道你會錯過神馬!
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.