提前試了一下曹越(Sand.ai)那邊新發(fā)布的專(zhuān)注于人物對(duì)話(huà)表演的模型 GAGA-1(gaga.art).
應(yīng)該是目前涉及到人物細(xì)微表演對(duì)話(huà)的最強(qiáng)模型了,在表演這部分甚至可以超過(guò) Sora2。
本來(lái)就是隨便試一下,沒(méi)想到他這么猛,先來(lái)看一個(gè)簡(jiǎn)要介紹和我測(cè)試的混剪:
- 聲音和畫(huà)面一起生成,即使是側(cè)面的唇形同步都非常到位,語(yǔ)音音效都有
- 面部表情和聲音聲調(diào)配合的非常好,表演細(xì)膩不夸張,提示遵循也很好
- 支持雙人的場(chǎng)景演繹,可以很好的理解提示詞中不同人物的語(yǔ)音
- 支持多語(yǔ)言輸出,我測(cè)試完之后發(fā)現(xiàn)甚至可以多語(yǔ)言混合輸出
- 目前支持免費(fèi)體驗(yàn),支持圖生、單次生成最長(zhǎng) 10 秒,分辨率為 720P,但是細(xì)節(jié)豐富
首先是一些基礎(chǔ)的測(cè)試,比如讓他介紹一下自己。
先平靜微笑,說(shuō):“嗨,我在測(cè)試 Gaga AI。”再認(rèn)真一點(diǎn)說(shuō):“你覺(jué)得它表現(xiàn)怎么樣。”
可以看到在說(shuō)后面那句話(huà)的時(shí)候,女生的面部表情非常的細(xì)膩,尤其是看向鏡頭的那個(gè)眼神、挑眉和說(shuō)話(huà)時(shí)候的點(diǎn)頭動(dòng)作,太真實(shí)了,這種面部細(xì)節(jié)我從離開(kāi)沒(méi)有在其他模型上見(jiàn)到過(guò)。
本來(lái)我沒(méi)抱啥希望的,但是跑完這個(gè)測(cè)試我就發(fā)現(xiàn)不對(duì),這玩意好像有點(diǎn)強(qiáng),而且這些細(xì)微表情你是不太好在提示詞里面寫(xiě)的,只能靠模型自己的智能。
然后來(lái)個(gè)我們常見(jiàn)的順口溜來(lái)看看嘴型和語(yǔ)音的表現(xiàn)。
清晰口型,節(jié)奏均勻:“八百標(biāo)兵奔北坡,炮兵并排北邊跑。”(說(shuō)完輕呼一口氣)
這里可以看到語(yǔ)音和整個(gè)面部的配合是非常好的,同時(shí)手部動(dòng)作也在搖晃他的扇子,讓整個(gè)畫(huà)面不至于太單調(diào)。
后面?zhèn)€嘆氣的處理太好了,再一次體現(xiàn)了這個(gè)模型在表演層面已經(jīng)有了一些泛化的智能,我并沒(méi)有說(shuō)嘆氣的表情,他自己就能推導(dǎo)出來(lái)這是表演完了比較輕松的一個(gè)狀態(tài),所以就表現(xiàn)出來(lái)了。
然后來(lái)一下看一下環(huán)境音和語(yǔ)音的配合。
邊說(shuō)邊輕微抬手:“聽(tīng)到杯沿的輕碰聲了嗎?”(然后輕觸杯子,出現(xiàn)細(xì)微杯碰聲)(停頓)“就像在現(xiàn)場(chǎng)一樣。”
這里我故意指定了杯子的聲音,以及說(shuō)話(huà)的順序,他也按照這個(gè)順序表現(xiàn)了出來(lái)。
可以看到人物的表情依然非常細(xì)膩,而且在說(shuō)到“就像在現(xiàn)場(chǎng)一樣”的時(shí)候有驚嘆和自豪的表情,這完全是模型自己處理的。
但有個(gè)問(wèn)題是 GAGA-1 是專(zhuān)門(mén)為了表演和語(yǔ)音訓(xùn)練的模型,如果可以的話(huà)盡量避免復(fù)雜精細(xì)的手部運(yùn)動(dòng),比如這里手部就有些問(wèn)題。
從上面的幾個(gè)測(cè)試看,基礎(chǔ)的表演和模型智能已經(jīng)相當(dāng)好了,然后再試試他多語(yǔ)言的能力。
這塊還得指望中國(guó)模型,畢竟海外的模型一般不會(huì)對(duì)中文進(jìn)行強(qiáng)化。
要不就是用了一些臺(tái)灣人或者中文不標(biāo)準(zhǔn)的人的語(yǔ)音資料導(dǎo)致聽(tīng)起來(lái)和看起來(lái)都很別扭 Sora2 有時(shí)候就有一些,Veo3 就別說(shuō)了。GAGA-1 在中文完美的基礎(chǔ)上,其他語(yǔ)言的表現(xiàn)也很頂。
提示詞:
英語(yǔ):Gentle opening: "At first, I was very optimistic." (smiling, eyes relaxed),(pause 0.5 seconds, slight furrow of the brow) "But the data tells me we need to make decisions calmly." (steady gaze, slight nod)
日語(yǔ):自然禮貌語(yǔ)氣“こんにちは。大事な発表です。落ち著いて、聞いてください。”(輕點(diǎn)頭)
西班牙語(yǔ):溫暖自信語(yǔ)氣“Gracias por venir. La verdad es clara: ahora reimaginamos el cine con IA.”
中英混合:淡定語(yǔ)氣:“結(jié)論很簡(jiǎn)單——we’re ready for production.”(停頓0.3秒)“就現(xiàn)在。”
這里我分別試了一下英語(yǔ)、日語(yǔ)、西班牙語(yǔ)和多語(yǔ)言混合的情況,可以看到每個(gè)都非常標(biāo)準(zhǔn),而且唇形同步也都是對(duì)的,細(xì)微的表情也都非常豐富,可以說(shuō)不同語(yǔ)言之前的表現(xiàn)沒(méi)有啥區(qū)別,聽(tīng)起來(lái)和看起來(lái)都像是說(shuō)母語(yǔ)的人的表現(xiàn)。
接下來(lái)就到了最重要的情緒甚至復(fù)雜情緒的表現(xiàn)。
羞恥與自責(zé)的表情,目光回避、壓低聲音說(shuō):“我作弊了。”然后下頜收緊,用發(fā)抖的聲音說(shuō)“對(duì)不起,我不該那樣做。”
這個(gè)真的跑的太好了,我一直認(rèn)為極端情緒的表現(xiàn)不是考驗(yàn)?zāi)P捅硌菽芰Φ年P(guān)鍵,關(guān)鍵在于那些不是很極端的場(chǎng)景化的情緒表現(xiàn)。
比如剛開(kāi)始躲閃的目光、以及與之配合的壓低的聲音,真的你讓我演我真演不出來(lái),GAGA-1 在表演上確實(shí)比我們沒(méi)學(xué)過(guò)表演的強(qiáng)太多了。
后面收緊下頜的動(dòng)作也很自然,先是稍微低了一下頭,然后才徹底把頭低下去,語(yǔ)音上也有一個(gè)由弱變強(qiáng)的過(guò)程。
絕望與懇求的表情,下大雨的聲音,女生呢喃說(shuō)到:“別走讓我至少把話(huà)說(shuō)完。”然后大聲說(shuō):“我會(huì)改的,真的。”
這里這個(gè)場(chǎng)景就相對(duì)復(fù)雜了,女生是站在車(chē)外的,而且還是雨天,有車(chē)窗隔著,畫(huà)面和聲音的情況要考慮的都多一點(diǎn)。
仔細(xì)聽(tīng)的話(huà)該有的雨聲也是有的,他很好的考慮了鏡頭在車(chē)?yán)锏那闆r,所以雨聲沒(méi)有那么大,而且還自己加上了非常應(yīng)景的鋼琴 BGM,加強(qiáng)了氛圍的渲染。
在表情和語(yǔ)音配合上,可以看到剛開(kāi)始小聲說(shuō)話(huà)的時(shí)候模型給女生加了一點(diǎn)發(fā)抖的情況,這也是人在有劇烈情緒的正常反應(yīng),非常形象了。同時(shí)先小聲說(shuō)話(huà)然后有個(gè)思考的停頓然后大聲說(shuō)話(huà)的時(shí)候情緒的轉(zhuǎn)變也會(huì)更自然,它臺(tái)東表演了。
單人都這么猛了,我們來(lái)試試雙人。
A(微笑):“用一句話(huà)概括 GAGA-1?”B(平穩(wěn)):“聲音、口型、表情,同步到位。”A(點(diǎn)頭):“影視級(jí),直出可用?”B(篤定):“當(dāng)然。”
我這里加了點(diǎn)難度直接用的 AB 來(lái)表示左右的人,然后還用了兩個(gè)側(cè)臉。
但沒(méi)想到他依然可以 Get 到提示詞的要求,而且在中間的時(shí)候把應(yīng)該 B 一直說(shuō)的話(huà)改成了一人說(shuō)一句,整個(gè)視頻生動(dòng)了不少。
側(cè)臉的唇形同步和面部表情也相當(dāng)不錯(cuò),沒(méi)有崩壞的情況,同時(shí)也沒(méi)有其他模型會(huì)出現(xiàn)的音畫(huà)不同步的情況,唯一小問(wèn)題是在讀 GAGA 的時(shí)候有點(diǎn)嘴瓢,感覺(jué)要避免大段中文加一兩個(gè)英文單詞的情況。
再來(lái)一個(gè)場(chǎng)景化的情緒豐富一點(diǎn)的雙人測(cè)試,辦公室吵架。
左邊的男性憤怒的說(shuō):“預(yù)算是誰(shuí)改的?”右邊女性心虛的說(shuō):“我……是我,但我別無(wú)選擇。”左邊男性用凌厲的眼神看著短促吸氣說(shuō):“你有。”
這里的整個(gè)情緒非常劇烈,同時(shí)模型自己也為了配合情緒加大了人物的動(dòng)作,知道在質(zhì)問(wèn)的時(shí)候需要看著對(duì)方,同時(shí)需要有劇烈的動(dòng)作,可以看到即使是在非常極限的人臉角度下,面部表情和嘴型也堵維持住了。
這里我還給男性和女性分別指定了情緒和表情,男性是非常強(qiáng)烈的憤怒,女性是相對(duì)比較細(xì)微的心虛,兩者都表現(xiàn)的不錯(cuò),尤其是最后那個(gè)短促吸氣說(shuō)話(huà)的感覺(jué),相當(dāng)?shù)轿弧?/p>
由于時(shí)間跟對(duì)話(huà)有時(shí)候不匹配,可能會(huì)有一小段時(shí)間不動(dòng),這個(gè)用的時(shí)候剪掉就行。
好了這就是這次 GAGA-1 模型測(cè)試的主要內(nèi)容了,這是一個(gè)長(zhǎng)板很長(zhǎng)同時(shí)短板很短的模型,Send AI 在訓(xùn)練的時(shí)候目標(biāo)就非常的明確,就是把語(yǔ)音和表演表現(xiàn)拉滿(mǎn),他們也確實(shí)做到了。
我探索下來(lái),這個(gè)模型的幾個(gè)使用要點(diǎn)有:
- a.提示詞上可以先說(shuō)情緒變化,然后再說(shuō)說(shuō)話(huà)的語(yǔ)氣和內(nèi)容,如果需要停頓的話(huà),可以直接寫(xiě),也可以用波折號(hào)或者省略號(hào)表達(dá)。
- b.雙人的表現(xiàn)不錯(cuò),用左右或者男女去指定說(shuō)話(huà)的人他都能理解,甚至 A、B 都行,但是超過(guò)雙人的表現(xiàn)會(huì)有一定的下降,優(yōu)先用雙人。
- c.如果圖生的話(huà)盡量不要有太多的肢體或者全身漏在外面,也需要少些復(fù)雜動(dòng)作提示詞,可能會(huì)崩。
- d.如果字?jǐn)?shù)少的話(huà)比如十個(gè)字以?xún)?nèi)可以選擇 5 秒的生成時(shí)長(zhǎng),如果是長(zhǎng)對(duì)話(huà)可以選 10秒。
- e.目前只支持 16:9 的橫屏比例,過(guò)段時(shí)間會(huì)支持豎屏的 9:16 比例。
隨著視頻模型的發(fā)展,我們漸漸不太滿(mǎn)足于復(fù)雜動(dòng)態(tài)和物理表現(xiàn)、提示詞遵循這種最基本的要求,因?yàn)檫@些 AI 視頻模型可以生成的內(nèi)容只占正常內(nèi)容制作的一小部分。
從 GAGA-1、Sora2、Veo3 等模型我們可以發(fā)現(xiàn),現(xiàn)在的 AI 視頻模型發(fā)展已經(jīng)到了下一個(gè)階段:
- 我們需要更加關(guān)注情緒表達(dá)和表演、音效和語(yǔ)音,模型開(kāi)始朝著端到端的多模態(tài)一體化輸出。
- 同時(shí)需要關(guān)注模型本身的世界知識(shí)和智能程度,不僅可以理解畫(huà)面內(nèi)容進(jìn)行視覺(jué)推理,同時(shí)自己有編排分鏡腳本和剪輯的能力。
原來(lái)很多人認(rèn)為這部分需要 Agent 來(lái)完成,現(xiàn)在看來(lái)也被模型內(nèi)化了,Agent 制作的朋友需要將模型的進(jìn)步考慮的更加激進(jìn)一些才行。
本來(lái)看到 Veo3 和 Sora 2 之后覺(jué)得國(guó)內(nèi)的模型有點(diǎn)難了,但看到 GAGA-1 后發(fā)現(xiàn)還是有明白人的。
目前 GAGA-1 可以免費(fèi)試用,感興趣可以去試試。
如果覺(jué)得藏師傅的內(nèi)容不錯(cuò)的話(huà),可以幫我點(diǎn)個(gè)贊或者喜歡,也可以轉(zhuǎn)發(fā)??給你需要的朋友,感謝。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.