![]()
最近刷AI創作圈的朋友可能都被一個消息炸了鍋愛詩科技搞出了個叫PixVerseR1的新東西,號稱全球首個能實時生成1080P視頻的模型。
![]()
現在突然說能“輸入即響應”,這到底是真突破還是又一個PPT概念?今天咱們就掰開揉碎了聊聊這事兒。
傳統AI視頻生成有多讓人頭疼?用過Sora或者Runway的朋友怕是最有體會。
![]()
你想做個“賽博朋克雨夜街頭”的片段,輸入提示詞后就得干等著,中間連改個燈光顏色都得重新排隊。
有次我看朋友做產品demo,光調整人物走路姿勢就等了40分鐘,最后出來的效果居然是倒著走的。
這種“輸入-等待-失望”的循環,讓創作熱情早就被磨沒了。
![]()
PixVerseR1最讓人眼前一亮的,就是把這個“等待游戲”給取消了。
上周參加內測時我試過一個指令,“讓穿西裝的機器人在辦公室跳街舞,突然停電后用手機閃光燈打光”。
![]()
這種感覺完全不是在“生成視頻”,更像在擺弄一個活生生的數字沙盤。
能做到這點,愛詩科技這800天確實沒白折騰。
從2023年10月那個4K模型V1,到今年初落地DiT架構,用戶量破億的背后其實是底層技術的厚積薄發。
![]()
就像蓋房子,別人還在琢磨怎么把墻砌直,他們已經開始研究怎么讓整棟樓能隨時變形了。
不過實時生成也不是沒有代價,比如快速切換復雜場景時,偶爾會出現物體邊緣模糊的情況,但比起那種“卡殼式創作”,這點犧牲好像也值了。
![]()
打個比方,傳統視頻是電影膠卷,你只能從頭看到尾,游戲雖然能互動,但畫面精細度又差點意思。
而PixVerseR1想干的,就是把電影的畫質和游戲的交互捏到一起。
![]()
要實現這玩意兒,得靠三個技術支柱撐著。
比如你說“讓杯子從桌上掉下來”,它不光知道杯子要碎,還能算出來碎片怎么飛、聲音怎么響。
然后是“自回歸流式生成”,傳統模型是一幀一幀拼視頻,就像串珠子,所以容易卡殼,這個技術則是讓畫面像水流一樣連續生成。
![]()
從“樹林跳城樓”這種大場景切換都不會掉幀。
最后那個“瞬時響應引擎”更關鍵,把反應時間壓到0.3秒以內,剛好卡在人眼感知不到延遲的臨界點,不過話說回來,這技術也不是萬能的。
內測時我試過讓場景持續運行10分鐘,結果發現人物走路姿勢開始有點“鬼畜”,物理模擬出現了誤差累積。
![]()
工程師說這是為了實時性犧牲了部分長時穩定性,就像跑車為了速度得犧牲點舒適性。
如此看來,“可玩現實”現在更適合做3分鐘內的互動內容,想搞兩小時的電影級作品,怕是還得再等等。
其實這事兒最有意思的不是技術多炫,而是它可能會改變我們和內容的關系。
![]()
愛詩科技那位CEO王長虎說得挺到位,“傳統視頻是拍歷史,R1是造現在。
”當然了,行業里也不是沒人質疑,RunwayML就覺得實時生成該先搞定低分辨率的短視頻,StabilityAI還在死磕圖像生成。
![]()
這就像當年智能手機剛出來,有人覺得打電話夠用就行,有人已經在琢磨移動支付了。
說到底,PixVerseR1更像是個技術探路者。
它確實解決了“等不起”的老問題,但“可玩現實”能不能成氣候,還得看后續怎么落地。
![]()
是開放API給游戲公司做互動劇情?還是讓普通人用手機就能捏視頻?現在下結論還太早。
不過有一點肯定的是,當AI視頻從“被動觀看”變成“主動參與”,內容創作的門檻怕是要被徹底推倒了。
說不定過兩年,咱們刷到的網紅視頻,都是觀眾自己“玩”出來的呢?
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.