![]()
作者 | Kino
編輯 | 石瀨
Sora 2后,AI視頻賽道又殺出一匹新黑馬——Gaga AI。
見證AI“影帝/影后”誕生的時刻到了。
就在昨天,Gaga AI正式發(fā)布了全球首個專注于“人物對話”的影視級音畫同出模型GAGA-1,無需邀請碼即可注冊,限時免費體驗(https://gaga.art)。
只需要一張人物圖片和一段臺詞指令,它就能生成一段口型精準(zhǔn)同步、表情細(xì)膩豐富、聲音生動真實的視頻,甚至能處理雙人同框?qū)υ挼膹?fù)雜場景,“演技”十分在線。
下面是我用Gaga AI生成的Sam Altman穿越到中國古代當(dāng)皇帝的視頻,很符合人設(shè)的一集:
提示詞:男人用低沉、威嚴(yán)的聲音說:“傳朕旨意,給朕打造一個通用宮廷智能。”眼神中帶著對終極技術(shù)夢想的狂熱和執(zhí)著。
在AI視頻領(lǐng)域,除了少數(shù)幾家巨頭,Gaga AI背后的團隊Sand.ai可能并不為大眾所熟知。但這支極其低調(diào)的全華班初創(chuàng)團隊,卻低成本打造出了全球頂尖的“人物表演”視頻模型。他們還曾在業(yè)內(nèi)開源全球首個高質(zhì)量自回歸架構(gòu)視頻模型,堪稱AI視頻領(lǐng)域的“DeepSeek”。
帶著對這支黑馬團隊的好奇,我們第一時間上手體驗了GAGA-1模型,一起來看看Gaga AI演員的“演技”如何。
![]()
GagaAI演員“試鏡”,演技吊打真人
進入Gaga AI官網(wǎng)(https://gaga.art),會發(fā)現(xiàn)頁面設(shè)計很直觀,核心功能一目了然。其中,Gaga Avatar是此前的舊功能,而我們本次評測的主角,正是最新上線的Gaga 1。
![]()
你可以上傳本地圖片,拍照,也可以直接用AI生成角色形象。然后用自然語言描述角色的情緒、動作和表情,需要特別注意的是,角色的臺詞必須用引號括起來。
根據(jù)臺詞的長度、語速、停頓等,可以選擇5秒或10秒的視頻時長。目前模型只支持16:9的畫幅比例,如果上傳的圖片尺寸不符,需要進行裁剪。據(jù)官方透露,后期會開放9:16的豎屏畫幅。
熟悉了基本操作,接下來,好戲開場。
AI真的懂“演技”嗎?遵循明確的提示詞指令做出喜怒哀樂或許不難,但它能演出那些只可意會、不可言傳的潛臺詞和弦外之音嗎?
于是我舉辦了一場特別的“試鏡”。在這場評測中,我擔(dān)任“導(dǎo)演”,負(fù)責(zé)提供劇本(也就是Prompt);而出鏡的,則是AI演員GAGA-1。我們?yōu)樗鼫?zhǔn)備了幾場風(fēng)格迥異的戲,話不多說,讓我們直接進入片場。
第一場戲是一段典型的中國古裝劇獨白,看GAGA-1能不能演出東方語境下那種含蓄、克制但暗流涌動的復(fù)雜情感。燈光、攝影就位,Action!(以下視頻所用的圖片未說明是真人的,均為AI生成)
提示詞:女人眼神低垂,像是在自言自語,語速緩慢,聲音低沉,帶著一種看透世事的滄桑說:“這宮墻之內(nèi),哪有無辜之人?不過是…看誰的棋子,能活到最后罷了。”然后慢慢抬眼,最后目光堅定而冷冽地看向前方。
這場戲模型對提示詞的遵循度極高,精準(zhǔn)復(fù)現(xiàn)了從眼眸低垂,到慢慢抬眼、目光冷冽的全過程。人物口型與聲音的同步無可挑剔,更值得稱道的是其聲音表現(xiàn)力,語調(diào)平緩中帶著一絲疲憊和決絕,情感傳遞非常到位。
說到后半句“看誰的棋子”時,她慢慢抬起頭,眼神和語氣瞬間變了,一個外表端莊柔弱,實則有心計、有野心的深宮女性形象一下就出來了,本《甄嬛傳》十級學(xué)者看得甚至有點意猶未盡……
提示詞:男人眼神中充滿了哀求,聲音沙啞脆弱,他懇求地說"Don't say no. I'm begging you... at least not today. Just leave me with a little hope. Please?"
這是一場典型的情感戲,很考驗?zāi)P蛯η榫w的駕馭能力。可以看出,GAGA-1對人物面部表情的細(xì)節(jié)處理得很好,特別是眼神。男主全程眉頭緊鎖,嘴唇微張,眼神里的那種懇求和卑微都表現(xiàn)出來了,讓人一下就能入戲,口型和臺詞的匹配度也很高。
提示詞:女人眼神飄忽渙散,用一種低沉、疲憊、略帶沙啞的聲線說出"It's funny, isn't it? They say everything will pass. But they never mention... what it leaves behind."(挺諷刺的,不是嗎?人們總說一切都會過去。可從沒人提過...它會留下什么。)在說到"funny"時,她的嘴角浮現(xiàn)一抹充滿諷刺的微笑,緊接著表情變成悲傷。
視頻里的女人一開始表情很平靜,帶點憂傷,然后是自嘲的苦笑,最后又演變成悲傷。整個情緒的起伏和控制都處理得很到位,和整體的光影效果和氛圍感相得益彰。
匹配的聲音也很有特點,是一種磁性、有故事感的聲線,和人物的氣質(zhì)很搭。而且,即使在這種光線很暗、細(xì)節(jié)不好捕捉的環(huán)境下,她說話的口型依然非常清晰、同步,這點是很難得的。
為了考驗GAGA-1的多語言支持能力,我們又用它生成了一段法語戲。視頻中的“姐姐”聲音很輕,聽起來就像是姐妹之間的低聲絮語,和她臉上那種專注又擔(dān)憂的表情也很搭。最關(guān)鍵的是,法語發(fā)音和口型的匹配度同樣很高。
提示詞:姐姐用手肘支撐著身體,正低頭凝視著她的妹妹,眼神復(fù)雜、憂慮而又緊張地說"C'est ce silence qui m'effraie. Les histoires que tu racontes... sans jamais dire un mot."(讓我害怕的,正是這份安靜。是你在沉默中所講述的那些故事。)妹妹則安詳?shù)匮雠P著。
在處理情緒激動的戲劇化表演,比如悲傷的哭戲時,GAGA-1的完成度同樣很高,表現(xiàn)得相當(dāng)有感染力。
提示詞:手捧咖啡杯的女人淚水在眼眶里打轉(zhuǎn),聲音因哽咽而顫抖,她說"I gave him everything... and in the end, it wasn't enough."(我傾盡所有……到頭來,還是不夠。)說完捧起咖啡杯抿了一口。右邊的女人安靜傾聽,緩慢低頭,眼神里充滿憐愛。
哭泣的女主角連聲音都是帶著哭腔的,還有抽泣、顫抖、話語間的停頓都很真實,完全就是情緒失控時會有的樣子。旁邊朋友的角色也處理得很好,她雖然沒有說話,但心疼的眼神,和不忍直視低下頭的動作,也都給到位了。
下面這個視頻是我讓童年時期的演員Jodie Foster,說出了一段她成年后在一次采訪中的回答,目的是為了模擬一個很有思想的“小大人”在接受訪談,難度在于要表現(xiàn)出一種超越年齡的智慧和古靈精怪的感覺。
提示詞:畫面中的小女孩面帶欣賞和向往的微笑,眼中閃爍著古靈精怪的亮光。她語速流利、聲音稚嫩地說"The greatest quality for a woman actually would be um... A kind of intelligence, and um... strength that comes out. Sometimes it's a sort of loony, you know."(女性最可貴的品質(zhì),其實是智慧,還有……內(nèi)在的力量。有時候,是一種瘋狂。)
從結(jié)果看,GAGA-1完成得很好。小女孩說話的節(jié)奏和眼神,“um…”這樣的口頭禪和自然的思考停頓,聽起來很像是在邊想邊說,有感而發(fā)。表情也很生動,活脫脫一個古靈精怪、早熟、有主見的小女孩形象。口型同步方面,模型的表現(xiàn)依然很穩(wěn)定。
GAGA-1的能力不只局限于真人照片,在處理非寫實、平面藝術(shù)類素材時也很能打。
提示詞:畫中的女人神秘、溫柔地說"For centuries, they've been wondering what I'm laughing at. Maybe, I just saw you."(幾百年來,他們一直在猜我到底在笑什么。也許,我只是看到了你。)
GAGA-1在保持原作質(zhì)感和美感的基礎(chǔ)上,緩緩?fù)七M鏡頭,讓畫中的蒙娜麗莎“開口說話”,讓我瞬間聯(lián)想到《哈利波特》里那些會動的魔法肖像…… 聲音的選擇也很加分,這個聲線聽起來神秘又有智慧,很符合我對蒙娜麗莎的想象,口型和聲音的匹配也很自然。
至此,通過一系列嚴(yán)苛的“試鏡”,GAGA-1這位“AI演員”無疑已經(jīng)證明了它的業(yè)務(wù)能力。在絕大多數(shù)場景中,它都兌現(xiàn)了其“影視級”演繹的承諾,生成的視頻表現(xiàn)出的情感細(xì)膩度遠超我的預(yù)期。
模型能夠根據(jù)臺詞的潛在情緒,自主匹配出微妙的眼神變化、合乎時機的停頓,甚至不易察覺的微表情。
在胸部以上的寫實風(fēng)格、近景對話視頻中,GAGA-1的表現(xiàn)堪稱無懈可擊。但對于全身性的動作生成、復(fù)雜的鏡頭移動,以及二次元、擬人化動物等非寫實風(fēng)格,穩(wěn)定性和效果略遜一籌。
同樣,GAGA-1已能穩(wěn)定駕馭雙人互動,但當(dāng)場景中需要容納更多人物時,生成的成功率便會有所下降。此外,模型在處理吃飯、抽煙等非對話類的口部動作時,效果還無法與對話時相提并論。
我們還發(fā)現(xiàn),在處理較長的中文臺詞時,GAGA-1偶爾會出現(xiàn)發(fā)音不準(zhǔn)、含混不清的情況。而對于較長的英文臺詞,GAGA-1的表現(xiàn)則一直很穩(wěn)定。
但終歸是瑕不掩瑜,GAGA-1在當(dāng)下所展現(xiàn)出的能力,已經(jīng)完成了從讓圖片開口說話,到為角色注入靈魂的關(guān)鍵一躍。它不再是一個單純的AI視頻工具,更像一個聽得懂指令的“AI演員”。對于影視行業(yè)和視頻內(nèi)容創(chuàng)作者而言,這意味著效率的指數(shù)級提升。
![]()
不止是“演員”,更是下一代內(nèi)容引擎
我們幾乎可以斷定,Gaga AI的潛力將滲透到影視、廣告、游戲等領(lǐng)域,甚至成為攪動整個視頻內(nèi)容創(chuàng)作生態(tài)的“鯰魚”。
影視制作是一個龐大而復(fù)雜的工業(yè)體系,但現(xiàn)在,一個有好劇本、好創(chuàng)意的創(chuàng)作者,就能以極低的成本,獨立完成最核心的人物表演環(huán)節(jié)。“人人都能成為電影導(dǎo)演”已經(jīng)不再是一句口號,而是一個我們正在親眼見證的未來。
除了技術(shù)上的驚艷表現(xiàn),Gaga AI的商業(yè)化策略同樣顯示出了其搶占市場的思路。目前,Gaga Actor限時免費開放給所有用戶,據(jù)我們了解到的信息,即便未來開始收費后,Gaga AI也會比Veo 3和Sora 2目前的定價低一個量級。
目前Gaga AI官網(wǎng)顯示的定價方案,是針對其舊功能Gaga Avatar的,訂閱制共分為以下四個階梯,也可以直接購買積分,1美元100積分起購。
![]()
當(dāng)一個專業(yè)級的表演生成工具,以一種親民、普惠的商業(yè)化策略進入市場時,其競爭力是毋庸置疑的。Gaga AI有潛力在短時間內(nèi),迅速成為AI視頻內(nèi)容創(chuàng)作領(lǐng)域一個不可忽視的生產(chǎn)力平臺。
不過,在通往規(guī)模化的道路上,Gaga AI仍需解決全身動作、多人場景等技術(shù)挑戰(zhàn)。但無論如何,潘多拉的魔盒已經(jīng)打開,一個AI深度參與表演的全新內(nèi)容時代,正在拉開序幕。
看到這里,相信已經(jīng)有不少玩家躍躍欲試了。
最后再附上Gaga AI產(chǎn)品地址(https://gaga.art),無需邀請碼即可注冊,我們文中深度體驗的Gaga 1,正處在限時免費體驗階段,感興趣的玩家不妨親自上手,體驗一下當(dāng)AI“導(dǎo)演”的快樂。
「AI新榜交流群」進群方式:添加微信“banggebangmei”并備注姓名+職業(yè)/公司+進群,歡迎玩家們來群里交流,一起探索見證AI的進化。
歡迎分享、點贊、推薦
一起研究AI
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.