![]()
「還會地域黑,冊那」
在一文中,我首次建設(shè)性地提出:
「MinMax應(yīng)該研發(fā)胖貓Agent,早日完成胖貓視頻工作流閉環(huán),讓胖貓博主實(shí)現(xiàn)麥當(dāng)勞自由。」
沒想到一個月后,一個東北小伙@jiaming,就率先開發(fā)出了全球首個胖貓視頻Agent——CrePal。
CrePal主打賣點(diǎn)是一站式搞定AI視頻制作。
它有一個主Agent來做任務(wù)調(diào)度,下邊有腳本策劃、圖片生成、視頻生成、視頻剪輯這四個子Agent。子Agent里邊集成了主要的圖片、音頻和視頻生成模型,包括Midjourney、GPT-Image、Google Imagen、Suno、海螺、可靈、即夢、Pixverse、Veo 3。
(文章最后,@jiaming挨個銳評了這些模型的優(yōu)劣)
我打開CrePal網(wǎng)站的的第一反應(yīng)是,這不就是我設(shè)想中的胖貓Agent?
這是我拿CrePal生成的胖貓視頻。
配樂整挺文藝,動畫比胖貓博主有創(chuàng)意,整出一種三毛流浪記的感覺了。
蘇北青年胖貓好不容易攢錢來上海旅游,外灘熙熙攘攘,胖貓饑腸轆轆。胖貓沒去過星巴克,更買不起意大利手工冰淇淋,好不容易看到一家熟悉的蜜雪冰城,依靠外灘欄桿,眺望陸家嘴繁華景色,喝一口大杯全糖少冰只要9塊錢的三拼霸霸奶茶,還沒來得及發(fā)出一聲滿足的嘆息。
東方明珠塔直接紅溫、蓄力,一圈圈蓄能光環(huán)接連升起,一道帶著正統(tǒng)巨富長chill之力的紅寶石激光精準(zhǔn)射爆胖貓手中的奶茶杯,可憐的胖貓啊,直接被沖擊波打到飛起,一直飛到大氣層仰望銀河系
上述是我腦補(bǔ)的,實(shí)際上我只給CrePal輸入了一段話,同時(shí)附上了MiniMax官方制作的胖貓視頻 https://v.douyin.com/aFi7mOJgJHw/ 。
![]()
雖然我對這條胖貓視頻很滿意,但是有一說一。CrePal剛發(fā)布十幾天,工程能力還不太穩(wěn)定。這條視頻沒有一次性成功,是開發(fā)者手動發(fā)給我的(@jiaming
jiaming對胖貓這個創(chuàng)意很滿意,他自己又生成了幾條胖貓視頻。其中一條,胖貓甚至?xí)约赫f「冊那」。
冊那,CrePal怎么會說上海話的?居然是飽受地域黑的東北老鄉(xiāng)造出了全球首個自己學(xué)會地域黑的視頻Agent
這一周里,我拿CrePal進(jìn)行了11次任務(wù),其中9次任務(wù)都一次性成功生成了視頻。
兩次失敗的任務(wù),一個是胖貓喝奶茶這個,另一個是我輸入了一條實(shí)拍視頻,想要調(diào)整一下人物膚色。但CrePal只支持生成內(nèi)容,并不考慮修改實(shí)拍視頻。
jiaming解釋CrePal的定位是,讓普通用戶也能輕松創(chuàng)作出高質(zhì)量的 AI 視頻。他的目標(biāo)用戶非常明確,就是想做AI視頻的自媒體。比如說胖貓博主、拿Veo 3做ASMR視頻的博主。
你簡要描述自己的想法,CrePal會據(jù)此寫腳本,然后根據(jù)腳本畫分鏡圖,再用分鏡圖生成視頻片段,同時(shí)生成配音配樂,最后將素材剪輯成片。
用戶不需要再切換幾個模型平臺,學(xué)習(xí)若干prompt寫法。Agent就可以解決流程調(diào)度問題。
這確實(shí)滿足了我想做胖貓博主的夢想。我拿CrePal做了7條胖貓視頻。
最近AI視頻屆最火的梗,無過于秦始皇騎北極熊。我守正出奇,大力創(chuàng)新,直接讓秦始皇騎胖貓。
這個「畫離弦」BGM是我自己上傳給CrePal的 MP3文件。
CrePal的配音、配樂能力比較初級,可以根據(jù)你輸入視頻的音色合成配音,但這個定制配音只能朗讀,不能唱歌。 CrePal只能拿Suno生成配樂,或者使用你自己上傳的配樂。
比如,我想要讓胖貓使用上傳的音樂旋律 唱歌, 歌詞是「胖貓騎著秦始皇,秦始皇也要騎胖貓」。但這做不到,CrePal只能重新生成一段BGM,然后讓胖貓用陰陽怪氣的童聲朗讀歌詞。
我還碰到了一次人物不一致。生成東北雨姐騎胖貓的視頻,我上傳了雨姐照片要求參考形象,但CrePal生成的雨姐長得完全不像,而且兩個視頻片段的雨姐形象不一致。
為了解決人物一致性問題,CrePal用了先統(tǒng)一生成人物形象,再將人物形象作為首幀圖來生成視頻片段的辦法。但依然偶爾會出錯。
![]()
雖然有一些小問題,但CrePal已經(jīng)完成了我的胖貓博主夢想。
CrePal生成的胖貓視頻,創(chuàng)意和畫面豐富程度都遠(yuǎn)超專業(yè)胖貓博主。全球首個胖貓視頻Agent,CrePal當(dāng)之無愧
一些小問題也很好解決。比如CrePal無法跟著旋律唱歌詞。MiniMax的海螺AI就能干這個事啊,胖貓博主都是拿海螺AI生成的「秦始皇騎北極熊」歌曲。
我鄭重建議MiniMax,盡快與CrePal合作,用海螺AI的語音生成能力聯(lián)手CrePal的視頻制作調(diào)度能力,共同賦能全球首個胖貓視頻Agent。
當(dāng)然,CrePal也能做正經(jīng)視頻。
我指定它調(diào)用Veo 3,生成胖貓切漢堡的ASMR視頻,一次性生成的質(zhì)量還可以。雖然切漢堡后的畫面不符合物理規(guī)律,但這是模型的問題,只能多生成幾次抽卡來解決。
這一周測試下來,我拿CrePal生成了10條視頻。
我的第一感覺是視頻生成太貴了。CrePal注冊送500積分,我充了19美元的月費(fèi)會員,有2000積分,jiaming又送了我3000積分。10條短視頻下來,基本用完了。
CrePal生成一條視頻的成本大概是2-3美元,我問jiaming會員定價(jià)19美元能不能掙錢。
東北老鄉(xiāng)很坦誠,說上線不到一個月,還算不出來能不能掙錢。(反觀上線十幾天就敢算ARR的)
最后,我讓jiaming挨個銳評了主要的圖片、視頻生成模型,給大伙貢獻(xiàn)一點(diǎn)創(chuàng)業(yè)試出來的know how。
Midjourney:在寫實(shí)細(xì)節(jié)的把控力上非常好,特別適合做寫實(shí)類人像或夢核類的圖片,而且人臉保持性也做得比較好,比如想做個劉亦菲的圖,它就能把臉比較還原地保持下來。
GPT-Image:目前最好的可以基于多圖參考來做圖的模型,所以它可以很好地把人物形象和場景融合到一起,并且保持好兩者的一致性。
Google Imagen:性價(jià)比高,做一些場景圖的效果還不錯。
Veo 3:很強(qiáng),強(qiáng)于其他所有模型。在預(yù)算充足的情況下,建議所有人都直接用 Veo 3 搞,但它也確實(shí)比較貴,谷歌官方定價(jià)8秒鐘就要6美金。
海螺:特點(diǎn)很明顯,做運(yùn)動類的鏡頭比較符合物理規(guī)律。比如做人物跑步、打架的素材,它的穩(wěn)定性比較強(qiáng)。(咸魚補(bǔ)充,海螺是胖貓視頻開創(chuàng)者)
可靈:中規(guī)中矩,沒有特別強(qiáng)的專長,什么都挺好,穩(wěn)定性好,瑕疵率也比較低。價(jià)格不算貴,也能用得起。如果希望穩(wěn)定出貨,不想來回調(diào),那就選可靈,基本能一次成。
即夢:最大的亮點(diǎn)就是便宜和快。除了便宜,它對風(fēng)格化內(nèi)容的理解和保持也做得比較好,能讓水墨風(fēng)的圖動態(tài)地動起來。但它的問題也比較明顯,就是容易出物理性的 bug,比如跑著步就飛天上去了。
Pixverse:可靈 2.1 平替。
(本文配圖由CrePal生成,Gemini 2.5 Pro輔助寫作。)
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.