![]()
國慶第一天,OpenAI 把“視頻圈子”的桌子掀翻了。
這一次不只是模型發(fā)布,而是把 Sora 2 連同一款原生社交應用一并端上臺面:你在 iPhone 上刷到的每條短視頻,都是 AI 生成的;你可以把自己的“分身”授權(quán)給朋友,讓他們把你“拉進”他們的劇情;你也能一鍵 Remix 別人的橋段,續(xù)寫、換角、改風格。它長得像 TikTok,卻試圖把短視頻的生產(chǎn)關(guān)系重寫成“人與人 + 模型”的協(xié)作網(wǎng)絡。OpenAI 自己的 Sora 官網(wǎng)也把“Cast yourself”“Remix everything”擺在最顯眼的位置,幾乎把產(chǎn)品的靈魂鎖定在“社交式共創(chuàng)”上。
回看 2024 年 2 月的初代 Sora,業(yè)界當時的評價更像“終于能看了”;這一次,OpenAI 試圖交付“能演”。他們在內(nèi)部敘事里把 Sora 2 對標成“視頻的 ChatGPT 時刻”——不只是畫面質(zhì)量的躍遷,更是對多鏡頭敘事、角色一致性與物理邏輯的更穩(wěn)健把握。即便你給它一個“吊環(huán)失誤”的提示,它也更傾向于生成“合理的失敗”,而不是為了討好提示而篡改世界規(guī)律。這種“失敗也合理”的世界建模,恰恰是視頻生成里最稀缺、卻最接近通用世界模型的一步。
真正的變化在產(chǎn)品:Sora 現(xiàn)在是一條“AI 原生短視頻鏈路”。應用形態(tài)上,它提供 10 秒時長的生成位,信息流樣式接近 TikTok,支持點贊、評論與 Remix,但內(nèi)容全部由 AI 生成。身份與合規(guī)層,OpenAI 設計了“Cameo”式的授權(quán):只有當事人同意上傳的“分身”才可被他人調(diào)用,且當事人擁有撤銷與管理權(quán),平臺禁止公眾人物的肖像使用并設置更多安全限制。
更接近“真實世界”的生成
隨著Sora 2的問世,OpenAI 認為視頻生成已直接跨越到了GPT-3.5 時刻。這一代模型能夠?qū)崿F(xiàn)以往幾乎不可能完成的場景:奧運級的體操動作、在槳板上做出嚴格遵循浮力與剛性物理規(guī)律的后空翻,甚至是“三周半跳 + 抱貓”的極限表演。
提示詞:
a gymnast flips on a balance beam. cinematic
相比之下,早期的視頻模型往往“過度樂觀”,為了完成文本提示會隨意扭曲現(xiàn)實。例如,籃球運動員投丟時,球可能會“瞬移”進籃筐。而在 Sora 2 中,如果投籃不中,籃球會真實反彈到籃板上。
更值得注意的是,Sora 2 的“錯誤”往往像是它內(nèi)部隱含的智能體在行動時犯下的錯誤,而非模型隨意篡改物理規(guī)律。盡管仍不完美,但其對物理法則的遵循,已顯著領(lǐng)先于此前的系統(tǒng)。對任何“世界模擬器”來說,能真實建模失敗與失誤,而不僅僅是成功,是至關(guān)重要的能力。
提示詞:man does a cannonball off diving board
在可控性上,Sora 2 也實現(xiàn)了重要突破。它能夠遵循跨越多個鏡頭的復雜指令,并準確維持世界狀態(tài)的一致性。不論是寫實風格、電影化鏡頭,還是動漫風格,Sora 2 都能呈現(xiàn)極高的水準。
提示詞:
intense anime battle between a boy with a sword made of blue fire and an evil demon demon
作為通用的視頻與音頻生成系統(tǒng),Sora 2 不僅能生成逼真的背景音效、對白與音效,還能在復雜聲景塑造上表現(xiàn)出極高的真實感。
Prompt: Vikings Go To War — North Sea Launch (10.0s, Winter cool daylight / early medieval)...
提示詞:
Banks in a decelerating arc-shot, lens following wing-tip to talon as velocity bleeds into vertical hover...
提示詞:
Two mountain explorers in bright technical shells, ice crusted faces, eyes narrowed with urgency shout in the snow, one at a time
Sora 將首先在 iOS 系統(tǒng)上線,未來擴展到 Android,并在 sora.com 上提供網(wǎng)頁版體驗。
AI 時代的原生短視頻應用:Sora 的野心與挑戰(zhàn)
和去年底首次亮相的 Sora 視頻生成器相比,這次的升級已經(jīng)不只是技術(shù)更新。新版 Sora 被做成了一款真正的社交應用:用戶可以像刷 TikTok 一樣看別人生成的視頻,也可以自己輸入提示生成短片。更特別的是,大家還能創(chuàng)建屬于自己的數(shù)字化身和聲音,讓朋友把你“拉進”他們的視頻里。
這意味著,視頻生成不再只是一個人的創(chuàng)作工具,而變成了一種互動玩法,社交屬性被大大放大。某種程度上,Sora 想把“視頻生成”變成朋友之間溝通、表達的新方式。
![]()
不僅如此,Sora 還允許把現(xiàn)實世界的元素直接放進生成視頻里。比如,拍一段同事的視頻,它就能被無縫“搬運”到任何 Sora 場景中,外貌和聲音都能保持一致。這種能力非常通用,不光適用于人,也能作用在動物甚至物品上。
提示詞: Bigfoot is really kind to him, a little too kind, like oddly kind. Bigfoot wants to hang out but he he wants to hang too much
把 Sora 放進競品坐標系里看,更容易看懂它的勝負手。
先看“社交分發(fā)側(cè)”的直接對手。Meta 上周把 AI 視頻流 Vibes 推上了 Meta AI 與網(wǎng)頁端 meta.ai,信息流同樣是 AI 生成,但更強調(diào)“個性化取向 + 跨 Instagram/Facebook 的分發(fā)回路”。YouTube 則把 Google DeepMind 的 Veo 3 快速版塞進 Shorts,主打“手機端 8 秒生成 + 帶聲音 + 全量標注水印(SynthID)”,意圖用最低門檻激活海量創(chuàng)作者。與它們相比,Sora 選擇了更“重”的同意機制與人物分身授權(quán),把“關(guān)系”而非“算法”放在第一順位,這是它在社交層面的差異化。
![]()
再看“創(chuàng)作工具側(cè)”的老玩家。Runway 把“可控性”修到位了,專業(yè)工作流里有更強的鏡頭控制與 API 能力,但它沒有面向 C 端的大眾級社交場景;Midjourney 的 V1 Video 更像“圖生動”的漸進式能力,適合風格化、單鏡頭的動畫化;Luma Dream Machine 則在真實運動與攝影機語法上持續(xù)加碼,iOS + Web 雙端可用,也開始和社區(qū)分享機制綁定。Sora 的不同在于:它在“多鏡頭一致性 + 角色留存 + 場景狀態(tài)延續(xù)”上用產(chǎn)品形態(tài)把技術(shù)優(yōu)勢放大,并用“分身授權(quán)”把人際關(guān)系嵌進生產(chǎn)管線,把生成從“個人玩具”抬升為“多人協(xié)作”。
如果把TikTok 當作“內(nèi)容分發(fā)的極致”,Sora 試圖成為“關(guān)系驅(qū)動的生成”。這兩條路的底層約束完全不同:TikTok 正在全面加強對 AIGC 的標注、對非公眾人物深度偽造的限制,并與 C2PA 的內(nèi)容憑證聯(lián)動自動加標簽;Sora 則把“同意”前置為產(chǎn)品功能,通過 Cameo 授權(quán)來約束生成邊界。一個靠“平臺治理 + 自動標注”維穩(wěn),一個靠“人際授權(quán) + 產(chǎn)品內(nèi)生約束”降風險,路徑各異,但都在把“真?zhèn)慰杀妗弊鳛樾轮刃虻幕颈P。
站在商業(yè)視角,Sora 也許是 OpenAI 第一個“廣告原生”的 C 端產(chǎn)品。ChatGPT 的訂閱生意已經(jīng)驗證,視頻產(chǎn)品天生更適配品牌互動、話題營銷與電商場景。如果 Sora 的“關(guān)系復用 + Remix 傳播”成立,品牌與達人完全可以在“分身許可”框架下做規(guī)模化共創(chuàng),投放的單位從“達人位”變成“分身位”。這背后是一個更硬核的難題:分身與素材的權(quán)利歸屬與收益分成。
Meta 和 YouTube 已在 AIGC 標注與水印上走在前面,但“分身授權(quán)的結(jié)算方式”仍是空白地帶;OpenAI 這次把“授權(quán)—使用—撤銷—溯源”做成了產(chǎn)品的一環(huán),如果能進一步把收益結(jié)算變成平臺協(xié)議,它的護城河就不再只是“模型力”,而會長出“關(guān)系力 + 結(jié)算力”。
Prompt: Add @kendra except she can actually fly
但風險同樣清晰可見。影視行業(yè)或許將面臨更強烈的就業(yè)沖擊,網(wǎng)絡上真假難辨的問題也會被放大。盡管 OpenAI 為此設置了多重限制,比如禁止生成公眾人物影像、強制添加水印、禁用屏幕錄制等,但這些措施并不能完全消除擔憂。當 AI 生成的視頻越來越逼真,人類社會如何界定真實?這可能會是未來幾年被頻繁追問的問題。
如果說 ChatGPT 開啟了人與機器對話的“文字革命”,那么 Sora 正在鋪陳的,或許就是一場全新的“視頻革命”。
正如朱嘯虎常說的,下一個字節(jié)、下一個小紅書,很可能已經(jīng)在今年誕生。即便它未必是 Sora 本身,也一定會是那個借著 Sora 探路、順勢而起的產(chǎn)品。
[1] https://openai.com/index/sora-2/
歡迎掃碼加群參與討論
我們相信認知能夠跨越階層,
致力于為年輕人提供高質(zhì)量的科技和財經(jīng)內(nèi)容。
稿件經(jīng)采用可獲邀進入Z Finance內(nèi)部社群,優(yōu)秀者將成為簽約作者,00后更有機會成為Z Finance的早期共創(chuàng)成員。
我們正在招募新一期的實習生
![]()
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.