網易首頁 > 網易號 > 正文申請入駐

太猛了！終于有人來管管 AI 視頻的語音和表演了：GAGA AI 實測

2025-10-10 18:41:30　來源: 歸藏的AI工具箱

北京舉報

分享至

提前試了一下曹越（Sand.ai）那邊新發布的專注于人物對話表演的模型 GAGA-1（gaga.art）.

應該是目前涉及到人物細微表演對話的最強模型了，在表演這部分甚至可以超過 Sora2。

本來就是隨便試一下，沒想到他這么猛，先來看一個簡要介紹和我測試的混剪：

聲音和畫面一起生成，即使是側面的唇形同步都非常到位，語音音效都有
面部表情和聲音聲調配合的非常好，表演細膩不夸張，提示遵循也很好
支持雙人的場景演繹，可以很好的理解提示詞中不同人物的語音
支持多語言輸出，我測試完之后發現甚至可以多語言混合輸出
目前支持免費體驗，支持圖生、單次生成最長 10 秒，分辨率為 720P，但是細節豐富

首先是一些基礎的測試，比如讓他介紹一下自己。

先平靜微笑，說：“嗨，我在測試 Gaga AI。”再認真一點說：“你覺得它表現怎么樣。”

可以看到在說后面那句話的時候，女生的面部表情非常的細膩，尤其是看向鏡頭的那個眼神、挑眉和說話時候的點頭動作，太真實了，這種面部細節我從離開沒有在其他模型上見到過。

本來我沒抱啥希望的，但是跑完這個測試我就發現不對，這玩意好像有點強，而且這些細微表情你是不太好在提示詞里面寫的，只能靠模型自己的智能。

然后來個我們常見的順口溜來看看嘴型和語音的表現。

清晰口型，節奏均勻：“八百標兵奔北坡，炮兵并排北邊跑?！保ㄕf完輕呼一口氣）

這里可以看到語音和整個面部的配合是非常好的，同時手部動作也在搖晃他的扇子，讓整個畫面不至于太單調。

后面個嘆氣的處理太好了，再一次體現了這個模型在表演層面已經有了一些泛化的智能，我并沒有說嘆氣的表情，他自己就能推導出來這是表演完了比較輕松的一個狀態，所以就表現出來了。

然后來一下看一下環境音和語音的配合。

邊說邊輕微抬手：“聽到杯沿的輕碰聲了嗎？”（然后輕觸杯子，出現細微杯碰聲）（停頓）“就像在現場一樣?！?/p>

這里我故意指定了杯子的聲音，以及說話的順序，他也按照這個順序表現了出來。

可以看到人物的表情依然非常細膩，而且在說到“就像在現場一樣”的時候有驚嘆和自豪的表情，這完全是模型自己處理的。

但有個問題是 GAGA-1 是專門為了表演和語音訓練的模型，如果可以的話盡量避免復雜精細的手部運動，比如這里手部就有些問題。

從上面的幾個測試看，基礎的表演和模型智能已經相當好了，然后再試試他多語言的能力。

這塊還得指望中國模型，畢竟海外的模型一般不會對中文進行強化。

要不就是用了一些臺灣人或者中文不標準的人的語音資料導致聽起來和看起來都很別扭 Sora2 有時候就有一些，Veo3 就別說了。GAGA-1 在中文完美的基礎上，其他語言的表現也很頂。

提示詞：

英語：Gentle opening: "At first, I was very optimistic." (smiling, eyes relaxed),(pause 0.5 seconds, slight furrow of the brow) "But the data tells me we need to make decisions calmly." (steady gaze, slight nod)

日語：自然禮貌語氣“こんにちは。大事な発表です。落ち著いて、聞いてください?！保ㄝp點頭）

西班牙語：溫暖自信語氣“Gracias por venir. La verdad es clara: ahora reimaginamos el cine con IA.”

中英混合：淡定語氣：“結論很簡單——we’re ready for production.”（停頓0.3秒）“就現在。”

這里我分別試了一下英語、日語、西班牙語和多語言混合的情況，可以看到每個都非常標準，而且唇形同步也都是對的，細微的表情也都非常豐富，可以說不同語言之前的表現沒有啥區別，聽起來和看起來都像是說母語的人的表現。

接下來就到了最重要的情緒甚至復雜情緒的表現。

羞恥與自責的表情，目光回避、壓低聲音說：“我作弊了?！比缓笙骂M收緊，用發抖的聲音說“對不起，我不該那樣做?！?/p>

這個真的跑的太好了，我一直認為極端情緒的表現不是考驗模型表演能力的關鍵，關鍵在于那些不是很極端的場景化的情緒表現。

比如剛開始躲閃的目光、以及與之配合的壓低的聲音，真的你讓我演我真演不出來，GAGA-1 在表演上確實比我們沒學過表演的強太多了。

后面收緊下頜的動作也很自然，先是稍微低了一下頭，然后才徹底把頭低下去，語音上也有一個由弱變強的過程。

絕望與懇求的表情，下大雨的聲音，女生呢喃說到：“別走讓我至少把話說完?！比缓蟠舐曊f：“我會改的，真的。”

這里這個場景就相對復雜了，女生是站在車外的，而且還是雨天，有車窗隔著，畫面和聲音的情況要考慮的都多一點。

仔細聽的話該有的雨聲也是有的，他很好的考慮了鏡頭在車里的情況，所以雨聲沒有那么大，而且還自己加上了非常應景的鋼琴 BGM，加強了氛圍的渲染。

在表情和語音配合上，可以看到剛開始小聲說話的時候模型給女生加了一點發抖的情況，這也是人在有劇烈情緒的正常反應，非常形象了。同時先小聲說話然后有個思考的停頓然后大聲說話的時候情緒的轉變也會更自然，它臺東表演了。

單人都這么猛了，我們來試試雙人。

A（微笑）：“用一句話概括 GAGA-1？”B（平穩）：“聲音、口型、表情，同步到位。”A（點頭）：“影視級，直出可用？”B（篤定）：“當然?！?/p>

我這里加了點難度直接用的 AB 來表示左右的人，然后還用了兩個側臉。

但沒想到他依然可以 Get 到提示詞的要求，而且在中間的時候把應該 B 一直說的話改成了一人說一句，整個視頻生動了不少。

側臉的唇形同步和面部表情也相當不錯，沒有崩壞的情況，同時也沒有其他模型會出現的音畫不同步的情況，唯一小問題是在讀 GAGA 的時候有點嘴瓢，感覺要避免大段中文加一兩個英文單詞的情況。

再來一個場景化的情緒豐富一點的雙人測試，辦公室吵架。

左邊的男性憤怒的說：“預算是誰改的？”右邊女性心虛的說：“我……是我，但我別無選擇?！弊筮吥行杂昧鑵柕难凵窨粗檀傥鼩庹f：“你有。”

這里的整個情緒非常劇烈，同時模型自己也為了配合情緒加大了人物的動作，知道在質問的時候需要看著對方，同時需要有劇烈的動作，可以看到即使是在非常極限的人臉角度下，面部表情和嘴型也堵維持住了。

這里我還給男性和女性分別指定了情緒和表情，男性是非常強烈的憤怒，女性是相對比較細微的心虛，兩者都表現的不錯，尤其是最后那個短促吸氣說話的感覺，相當到位。

由于時間跟對話有時候不匹配，可能會有一小段時間不動，這個用的時候剪掉就行。

好了這就是這次 GAGA-1 模型測試的主要內容了，這是一個長板很長同時短板很短的模型，Send AI 在訓練的時候目標就非常的明確，就是把語音和表演表現拉滿，他們也確實做到了。

我探索下來，這個模型的幾個使用要點有：

a.提示詞上可以先說情緒變化，然后再說說話的語氣和內容，如果需要停頓的話，可以直接寫，也可以用波折號或者省略號表達。
b.雙人的表現不錯，用左右或者男女去指定說話的人他都能理解，甚至 A、B 都行，但是超過雙人的表現會有一定的下降，優先用雙人。
c.如果圖生的話盡量不要有太多的肢體或者全身漏在外面，也需要少些復雜動作提示詞，可能會崩。
d.如果字數少的話比如十個字以內可以選擇 5 秒的生成時長，如果是長對話可以選 10秒。
e.目前只支持 16:9 的橫屏比例，過段時間會支持豎屏的 9:16 比例。

隨著視頻模型的發展，我們漸漸不太滿足于復雜動態和物理表現、提示詞遵循這種最基本的要求，因為這些 AI 視頻模型可以生成的內容只占正常內容制作的一小部分。

從 GAGA-1、Sora2、Veo3 等模型我們可以發現，現在的 AI 視頻模型發展已經到了下一個階段：

我們需要更加關注情緒表達和表演、音效和語音，模型開始朝著端到端的多模態一體化輸出。
同時需要關注模型本身的世界知識和智能程度，不僅可以理解畫面內容進行視覺推理，同時自己有編排分鏡腳本和剪輯的能力。

原來很多人認為這部分需要 Agent 來完成，現在看來也被模型內化了，Agent 制作的朋友需要將模型的進步考慮的更加激進一些才行。

本來看到 Veo3 和 Sora 2 之后覺得國內的模型有點難了，但看到 GAGA-1 后發現還是有明白人的。

目前 GAGA-1 可以免費試用，感興趣可以去試試。

如果覺得藏師傅的內容不錯的話，可以幫我點個贊或者喜歡，也可以轉發??給你需要的朋友，感謝。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.