![]()
編輯|Youli
還記得童年的那個(gè)愿望嗎?
隨著《數(shù)碼寶貝》進(jìn)化曲的響起,屏幕前的你我或許都曾幻想過(guò):要是那只從數(shù)碼蛋中破殼而出的滾球獸,真的可以從電視屏幕那端跳出來(lái),就好了。
![]()
彼時(shí),我們只能將這種天馬行空的「美夢(mèng)」寄希望于「次元裂縫」的開(kāi)啟。再后來(lái),技術(shù)增強(qiáng)現(xiàn)實(shí)(AR)技術(shù)曾一度帶來(lái)了希望,但幾經(jīng)潮起潮落,結(jié)果仍停留在「預(yù)先制作的內(nèi)容疊加」層面,數(shù)字角色無(wú)法真正感知環(huán)境。
而現(xiàn)在已經(jīng) 2026 年了,生成式 AI、實(shí)時(shí)渲染、端側(cè)算力、感知模型同時(shí)成熟,尤其是 Sora 展現(xiàn)出的前所未有的世界模擬能力,讓大家意識(shí)到,原來(lái)虛擬內(nèi)容不再需要完全預(yù)制,可以被實(shí)時(shí)生成、驅(qū)動(dòng),并具有物理合理性。技術(shù)的狂奔第一次讓曾經(jīng)的「中二夢(mèng)」,具備了成為現(xiàn)實(shí)的可能:你真的可以從屏幕中「召喚」出一只滾球獸。
![]()
是不是很神奇?手機(jī)鏡頭對(duì)準(zhǔn)桌面,選取一張滾球獸照片,下一秒,一只滾球獸就「脫屏而出」,出現(xiàn)在桌面上,四處張望。你伸出手,它剛開(kāi)始會(huì)有點(diǎn)警惕,之后就親昵地蹭你的手心,你輕輕一捏,它會(huì)給出Q彈的物理反饋,而當(dāng)你把手?jǐn)傞_(kāi),它甚至可以被你「托」在掌心之中,就好像,這是一只「活」的滾球獸……通過(guò)一個(gè)手機(jī)攝像頭,虛擬角色第一次實(shí)現(xiàn)了與現(xiàn)實(shí)世界的融合。
這就是由初創(chuàng)公司 Xmax AI 推出的首個(gè)虛實(shí)融合的實(shí)時(shí)交互視頻模型 X1,沒(méi)有復(fù)雜的 Prompt,不需要漫長(zhǎng)的渲染等待,只需要手勢(shì)進(jìn)行交互,就可以讓虛擬世界與現(xiàn)實(shí)相連,在鏡頭中令「幻想」成真,讓用戶(hù)體驗(yàn)到實(shí)時(shí)交互的心流體驗(yàn)。
![]()
目前,Xmax AI 已通過(guò)一款技術(shù)演示型應(yīng)用 X-cam(目前開(kāi)放 testflight 下載),將 X1 的能力開(kāi)放給部分用戶(hù)體驗(yàn),感興趣的朋友可以通過(guò)文末提到的方式獲取邀請(qǐng)碼,近距離體驗(yàn)一下技術(shù)的邊界。
「虛實(shí)融合 + 實(shí)時(shí)交互」,視頻生成進(jìn)入「人人可玩」時(shí)代
過(guò)去這一年多,AI 視頻生成領(lǐng)域可以說(shuō)是遍地開(kāi)花、神仙打架。
數(shù)據(jù)顯示,2024 年全球 AI 視頻生成市場(chǎng)規(guī)模已達(dá) 6.148 億美元,預(yù)計(jì)到 2032 年將飆升至 25.629 億美元。在市場(chǎng)的強(qiáng)需求推動(dòng)下,從 Sora 到 Runway,各路玩家都在沿著「更強(qiáng)的生成能力」方向極力狂奔:卷畫(huà)質(zhì)、卷時(shí)長(zhǎng)、卷分辨率……
仔細(xì)看下來(lái),整個(gè)賽道,大多數(shù)玩家選擇的技術(shù)路線依然是文生視頻,致力于面向?qū)I(yè)領(lǐng)域的創(chuàng)作者 —— 影視、廣告、內(nèi)容工業(yè)等,打造更強(qiáng)大、更完善的生產(chǎn)力工具。
可不得不承認(rèn),在當(dāng)前的「視頻模型軍備競(jìng)賽」中,普通用戶(hù)似乎沒(méi)有參與到狂歡中,感受就是「熱鬧是他們的,我什么也沒(méi)有。」
原因很現(xiàn)實(shí),首先是上手難,當(dāng)然,很多視頻生成工具操作起來(lái)已經(jīng)很便捷,可很多時(shí)候?qū)懗鼍珳?zhǔn)的 Prompt 依然像是在編寫(xiě)代碼,而且等待時(shí)間長(zhǎng),生成時(shí)間動(dòng)輒從數(shù)秒到數(shù)分鐘,再到數(shù)十分鐘不等,缺乏即時(shí)反饋的快感。而漫長(zhǎng)的等待后,得到的也不過(guò)是一段存在于屏幕里的「只能看、不能碰」,與當(dāng)下日常生活毫無(wú)關(guān)系的虛擬視頻。
Xmax AI 敏銳地捕捉到了這一點(diǎn):AI 視頻生成要想真正走入大眾,就不能僅停留在「工具」階段,要容易上手,要讓大眾有參與感,能夠「玩」起來(lái)。
![]()
可這也就意味著,在基礎(chǔ)視頻生成能力之外,行業(yè)還需要跨越兩座「大山」:一是降低交互門(mén)檻,改變傳統(tǒng)的文生視頻工具需要專(zhuān)業(yè)想法和 Prompt 撰寫(xiě)能力的方式;二是要與現(xiàn)實(shí)世界有更多結(jié)合,人是生活在現(xiàn)實(shí)中,文生視頻模型一定程度上確實(shí)滿足了完全虛擬化的想象,可人對(duì)現(xiàn)實(shí)的幻想并沒(méi)有被滿足。
基于此,Xmax AI 走了一條截然不同的路線:推出首個(gè)虛實(shí)融合的實(shí)時(shí)交互視頻模型 X1,讓視頻生成告別鍵盤(pán)輸入,回歸人類(lèi)最本能的手勢(shì)與觸控,僅需要一個(gè)手機(jī)攝像頭,就能打破虛擬與現(xiàn)實(shí)的「壁」。
具體來(lái)看,基于 X1 強(qiáng)大的端側(cè)實(shí)時(shí)生成能力,Xmax AI 將這一技術(shù)落地為四大核心玩法:次元互動(dòng)、世界濾鏡、觸控動(dòng)圖、表情捕手…… 每一臺(tái)手機(jī)似乎都變成了連接虛實(shí)的「魔法棒」。
次元互動(dòng):這就是前面那個(gè)視頻所展示的能力,手機(jī)攝像頭拍攝現(xiàn)實(shí)場(chǎng)景,任意上傳一張角色參考圖,就可以將該角色在鏡頭中「召喚」出來(lái)。
比如下面這個(gè)小兔子,你可以在鏡頭前伸出手與它互動(dòng),捏一捏、拍一拍,甚至將把它托到手上。視頻中可以看到,當(dāng)撫摸到兔子眼睛旁位置時(shí),它會(huì)跟隨人的動(dòng)作轉(zhuǎn)頭,甚至可以看到絨毛因?yàn)橛|碰而遮蓋眼睛的情況,沒(méi)有延遲,因?yàn)樗械奈锢矸磻?yīng)都是 X1 模型實(shí)時(shí)生成的,所以,看起來(lái)就好像真的在撫摸一個(gè)真實(shí)存在的生命體。
![]()
不僅僅是動(dòng)漫角色,可以說(shuō)是任何自己喜歡的紙片人、寵物、毛絨玩具,都可以在鏡頭中「活」過(guò)來(lái)。
世界濾鏡:任意上傳一張風(fēng)格參考圖,就可以將手機(jī)攝像頭拍攝的畫(huà)面實(shí)時(shí)轉(zhuǎn)換,變成指定的風(fēng)格,例如梵高畫(huà)風(fēng)、樂(lè)高畫(huà)風(fēng)等。可以用于渲染環(huán)境,也可以用于渲染人物,甚至可以用于渲染屏幕內(nèi)容,像是正在玩的游戲畫(huà)面。
直接來(lái)看一個(gè)例子,下面視頻中的小姐姐通過(guò)選取不同風(fēng)格的參考圖,讓自己「化身」為圖片所示風(fēng)格的人物,可以是經(jīng)典動(dòng)漫中的二次元虛擬形象,也可以是樂(lè)高積木風(fēng)格。而且,當(dāng)小姐姐做出揮手或是搖頭動(dòng)作時(shí),視頻中「變身」后的人物或形象會(huì)實(shí)時(shí)跟著做出相應(yīng)的動(dòng)作。
![]()
觸控動(dòng)圖:讓靜態(tài)照片「活」過(guò)來(lái)、動(dòng)起來(lái),不再需要復(fù)雜軟件。對(duì)于任意一張照片,都可以在觸摸屏上對(duì)照片中的角色進(jìn)行拖拽控制,讓它實(shí)時(shí)運(yùn)動(dòng)起來(lái)。
比如下面視頻中動(dòng)漫風(fēng)格的小兔子,左右拖動(dòng)它的耳朵,它就開(kāi)始左右搖頭;上下?lián)]動(dòng),它就做出被拍腦袋的動(dòng)作;拖動(dòng)嘴角,它會(huì)露出微笑。「實(shí)物」也可以,給自家貓咪狗子拍張照上傳,就可以讓它揮手、掄拳,跳起舞;眨眼、吐舌、賣(mài)起萌。甚至是「惡搞」的,將劉海剪成整齊模樣的馬,也在鏡頭下開(kāi)始搖頭晃腦…… 就像在操控提線木偶,輕松賦予靜止圖像以生命力。
![]()
表情捕手:將相機(jī)鏡頭對(duì)準(zhǔn)任意的人或物體,選擇一個(gè)「大拇指」或「怒氣沖沖」的 Emoji,AI 就會(huì)實(shí)時(shí)「捕捉」對(duì)方的特征,實(shí)時(shí)生成一個(gè)神態(tài)精準(zhǔn)、魔性十足的動(dòng)態(tài)表情包。這簡(jiǎn)直就是「社交神器」,以后聚會(huì)也不用擔(dān)心冷場(chǎng),隨時(shí)就可以拿出來(lái)玩一下。
![]()
強(qiáng)大能力背后的技術(shù)挑戰(zhàn)與實(shí)現(xiàn)
是不是很好玩,即便是對(duì)技術(shù)沒(méi)什么了解,也可以輕松上手。但在業(yè)內(nèi)人士看來(lái),這不僅是產(chǎn)品的創(chuàng)新,更是工程能力的「暴力美學(xué)」。
「有趣體驗(yàn)背后,是極高的技術(shù)挑戰(zhàn)。」Xmax AI 向機(jī)器之心透露,要實(shí)現(xiàn)上述這些效果,必須同時(shí)解決當(dāng)前 AI 行業(yè)的三大痛點(diǎn):
首先是極致實(shí)時(shí),從上面的視頻中也可以看出來(lái),視頻中的人物或是形象的反應(yīng)隨時(shí)能夠跟著手勢(shì)變,給用戶(hù)產(chǎn)生一種「我在和它互動(dòng)」的感覺(jué),而這就要求延遲必須控制在毫秒級(jí),可當(dāng)前市面上的大多數(shù)所謂「實(shí)時(shí)」模型響應(yīng)往往需要數(shù)秒,難以滿足 Xmax AI 想要在交互場(chǎng)景中呈現(xiàn)的效果需求。
![]()
其次是意圖理解,Xmax AI 的想法是希望交互方式多種多樣且自然,對(duì)普通人來(lái)說(shuō)門(mén)檻足夠低,這就要求模型做到能夠自動(dòng)理解人的意圖,并實(shí)時(shí)生成精準(zhǔn)的反饋結(jié)果。可當(dāng)前大多數(shù)模型都是文生視頻、圖生視頻,無(wú)法實(shí)現(xiàn)這些手勢(shì)交互效果。比如,對(duì)于模型來(lái)說(shuō),當(dāng)人做出「捏」這個(gè)動(dòng)作時(shí),要讀懂其中的意圖,可要比讀懂一段文字難得多。
另外,還存在數(shù)據(jù)稀缺的問(wèn)題,對(duì)于整個(gè) AI 行業(yè)來(lái)說(shuō),數(shù)據(jù)都足夠重要卻又極致稀缺,更何況是相對(duì)小眾的「虛實(shí)融合交互數(shù)據(jù)」,生產(chǎn)成本高,構(gòu)造難度極大。但現(xiàn)實(shí)又是,想要實(shí)現(xiàn)好的虛實(shí)融合的效果就必須基于大量且專(zhuān)業(yè)的高質(zhì)量訓(xùn)練數(shù)據(jù)。
這些挑戰(zhàn)一度讓 Xmax AI 犯了難。
但需要注意的是,Xmax AI 是一支既懂底層算法,又懂工程化落地,還擁有敏銳產(chǎn)品嗅覺(jué)的「特種部隊(duì)」。
創(chuàng)始人史佳欣,出身于華為「天才少年」計(jì)劃,是一位典型的技術(shù)極客。聯(lián)合創(chuàng)始人梁宸,現(xiàn)任港科大(廣州)助理教授、博導(dǎo)。聯(lián)合創(chuàng)始人翁躍庭,是一位「六邊形戰(zhàn)士」型的全棧工程師。而公司核心技術(shù)團(tuán)隊(duì)則都是來(lái)自清華大學(xué) KEG 實(shí)驗(yàn)室和 HCI 實(shí)驗(yàn)室的人才,是國(guó)內(nèi)大模型領(lǐng)域和人機(jī)交互領(lǐng)域的頂尖力量。
不僅如此,團(tuán)隊(duì)核心成員也大都在字節(jié)、快手、華為、阿里等頭部 AI 大廠歷練過(guò),有著豐富的技術(shù)落地實(shí)踐經(jīng)驗(yàn)。
因此,面對(duì)上述這些挑戰(zhàn),Xmax AI 交出了一份「硬核」的技術(shù)答卷。
針對(duì)極致實(shí)時(shí)性需求,Xmax AI 進(jìn)行架構(gòu)創(chuàng)新,提出了端到端的流式重渲染視頻模型架構(gòu),實(shí)現(xiàn)了幀級(jí)別的自回歸 DiT(Diffusion Transformer),并通過(guò)多階段的蒸餾壓縮和對(duì)抗訓(xùn)練,百倍提升了每一幀畫(huà)面的擴(kuò)散采樣速度。不僅將延遲壓低至毫秒級(jí),更是通過(guò)自研的「循環(huán)回歸架構(gòu)」打破了時(shí)長(zhǎng)的限制,支持無(wú)限時(shí)長(zhǎng)的連續(xù)生成。
針對(duì)模型對(duì)意圖理解的高要求,Xmax.AI 則構(gòu)建了統(tǒng)一的交互模型架構(gòu),讓模型既能理解攝像頭透視下的空間三維關(guān)系,也能理解屏幕觸控下的平面二維操作,從而對(duì)于用戶(hù)的各類(lèi)交互行為,模型都能夠?qū)崿F(xiàn)精準(zhǔn)的意圖識(shí)別。
而針對(duì)「數(shù)據(jù)荒漠」難題,Xmax AI 則搭建了虛實(shí)融合數(shù)據(jù)的合成管線,利用半自動(dòng)化方式,低成本、批量化地生成了高質(zhì)量的交互訓(xùn)練數(shù)據(jù),構(gòu)建了難以復(fù)刻的行業(yè)壁壘。
體驗(yàn)了這么多玩法,相信大家已經(jīng)隱約感知到 Xmax AI 想做的事情了。如果說(shuō) Sora 代表的是一條極致強(qiáng)化生成能力的路線,讓 AI 學(xué)會(huì)拍電影、構(gòu)圖、運(yùn)鏡、敘事,那么 X1 則是希望 AI 能夠陪你玩,隨時(shí)出現(xiàn)在你周?chē)纳顖?chǎng)景中。
從這個(gè)角度來(lái)看,對(duì)于 Xmax AI 團(tuán)隊(duì)而言,X1 模型僅僅是一個(gè)開(kāi)始。
其實(shí)從前面 X1 的模型能力展現(xiàn)上也可以看出來(lái),Xmax AI 不是想「再造」一個(gè)專(zhuān)業(yè)的視頻創(chuàng)作工具,開(kāi)發(fā)一款 App,更是在試圖搭建下一代內(nèi)容交互引擎,重新定義用戶(hù)與 AI 生成內(nèi)容之間的個(gè)性化交互方式。
在他們的愿景里,這個(gè)新時(shí)代中,那些曾經(jīng)只能存在于影視作品和虛擬世界中的角色,不管是數(shù)碼寶貝,還是銀翼殺手式的仿生生命體,都可以走進(jìn)現(xiàn)實(shí),成為虛實(shí)融合的「數(shù)字生命體」,進(jìn)入家庭,成為用戶(hù)的虛擬陪伴、虛擬寵物等。
與此同時(shí),「萬(wàn)物可交互」也不再只是一個(gè)空想,不管是刷短視頻、看直播,還是視頻通話、線上會(huì)議,都可以實(shí)時(shí)改變視覺(jué)形態(tài),一邊看一邊玩,帶來(lái)全新的個(gè)性化體驗(yàn);社交互動(dòng)變得更立體、更有趣,攝像頭化身「精靈球」,隨時(shí)隨地「捕捉」一個(gè)好友過(guò)來(lái),對(duì) TA 進(jìn)行打扮……
也就是說(shuō),Xmax AI 所做的,是通過(guò) AI 將「幻想」拉得更近,近到可以觸碰、互動(dòng)、分享,真正融入人們的日常生活。
正如 Xmax AI Slogan 所言,Play the World through AI(用 AI 玩轉(zhuǎn)世界),讓世界觸手可「玩」。
最后,感興趣的朋友可以通過(guò) testflight 邀請(qǐng)鏈接下載 APP,下載后在登錄界面點(diǎn)擊申請(qǐng)邀請(qǐng)碼,也可以通過(guò) Xmax AI 官網(wǎng)來(lái)提前體驗(yàn)、感受這一切。這一次,你可以親自推開(kāi)那扇通往虛實(shí)融合世界的「門(mén)」。
- testflight 邀請(qǐng)鏈接:https://testflight.apple.com/join/8sWgKZeQ
- Xmax AI官網(wǎng)鏈接:https://xmax.ai/
文中視頻鏈接:https://mp.weixin.qq.com/s/xnaOGvC5_EVYxsJYxVE_xQ
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.