深度｜Sora 2橫空出世，短視頻范式即將重寫，字節(jié)可能真到了最危險的時刻

2025-10-01 02:41:16　來源: ZFinance

北京舉報

分享至

國慶第一天，OpenAI 把“視頻圈子”的桌子掀翻了。

這一次不只是模型發(fā)布，而是把 Sora 2 連同一款原生社交應用一并端上臺面：你在 iPhone 上刷到的每條短視頻，都是 AI 生成的；你可以把自己的“分身”授權(quán)給朋友，讓他們把你“拉進”他們的劇情；你也能一鍵 Remix 別人的橋段，續(xù)寫、換角、改風格。它長得像 TikTok，卻試圖把短視頻的生產(chǎn)關(guān)系重寫成“人與人 + 模型”的協(xié)作網(wǎng)絡。OpenAI 自己的 Sora 官網(wǎng)也把“Cast yourself”“Remix everything”擺在最顯眼的位置，幾乎把產(chǎn)品的靈魂鎖定在“社交式共創(chuàng)”上。

回看 2024 年 2 月的初代 Sora，業(yè)界當時的評價更像“終于能看了”；這一次，OpenAI 試圖交付“能演”。他們在內(nèi)部敘事里把 Sora 2 對標成“視頻的 ChatGPT 時刻”——不只是畫面質(zhì)量的躍遷，更是對多鏡頭敘事、角色一致性與物理邏輯的更穩(wěn)健把握。即便你給它一個“吊環(huán)失誤”的提示，它也更傾向于生成“合理的失敗”，而不是為了討好提示而篡改世界規(guī)律。這種“失敗也合理”的世界建模，恰恰是視頻生成里最稀缺、卻最接近通用世界模型的一步。

真正的變化在產(chǎn)品：Sora 現(xiàn)在是一條“AI 原生短視頻鏈路”。應用形態(tài)上，它提供 10 秒時長的生成位，信息流樣式接近 TikTok，支持點贊、評論與 Remix，但內(nèi)容全部由 AI 生成。身份與合規(guī)層，OpenAI 設計了“Cameo”式的授權(quán)：只有當事人同意上傳的“分身”才可被他人調(diào)用，且當事人擁有撤銷與管理權(quán)，平臺禁止公眾人物的肖像使用并設置更多安全限制。

更接近“真實世界”的生成

隨著Sora 2的問世，OpenAI 認為視頻生成已直接跨越到了GPT-3.5 時刻。這一代模型能夠?qū)崿F(xiàn)以往幾乎不可能完成的場景：奧運級的體操動作、在槳板上做出嚴格遵循浮力與剛性物理規(guī)律的后空翻，甚至是“三周半跳 + 抱貓”的極限表演。

提示詞:

a gymnast flips on a balance beam. cinematic

相比之下，早期的視頻模型往往“過度樂觀”，為了完成文本提示會隨意扭曲現(xiàn)實。例如，籃球運動員投丟時，球可能會“瞬移”進籃筐。而在 Sora 2 中，如果投籃不中，籃球會真實反彈到籃板上。

更值得注意的是，Sora 2 的“錯誤”往往像是它內(nèi)部隱含的智能體在行動時犯下的錯誤，而非模型隨意篡改物理規(guī)律。盡管仍不完美，但其對物理法則的遵循，已顯著領(lǐng)先于此前的系統(tǒng)。對任何“世界模擬器”來說，能真實建模失敗與失誤，而不僅僅是成功，是至關(guān)重要的能力。

提示詞：man does a cannonball off diving board

在可控性上，Sora 2 也實現(xiàn)了重要突破。它能夠遵循跨越多個鏡頭的復雜指令，并準確維持世界狀態(tài)的一致性。不論是寫實風格、電影化鏡頭，還是動漫風格，Sora 2 都能呈現(xiàn)極高的水準。

提示詞:

intense anime battle between a boy with a sword made of blue fire and an evil demon demon

作為通用的視頻與音頻生成系統(tǒng)，Sora 2 不僅能生成逼真的背景音效、對白與音效，還能在復雜聲景塑造上表現(xiàn)出極高的真實感。

Prompt: Vikings Go To War — North Sea Launch (10.0s, Winter cool daylight / early medieval)...

提示詞:

Banks in a decelerating arc-shot, lens following wing-tip to talon as velocity bleeds into vertical hover...

提示詞:

Two mountain explorers in bright technical shells, ice crusted faces, eyes narrowed with urgency shout in the snow, one at a time

Sora 將首先在 iOS 系統(tǒng)上線，未來擴展到 Android，并在 sora.com 上提供網(wǎng)頁版體驗。

AI 時代的原生短視頻應用：Sora 的野心與挑戰(zhàn)

和去年底首次亮相的 Sora 視頻生成器相比，這次的升級已經(jīng)不只是技術(shù)更新。新版 Sora 被做成了一款真正的社交應用：用戶可以像刷 TikTok 一樣看別人生成的視頻，也可以自己輸入提示生成短片。更特別的是，大家還能創(chuàng)建屬于自己的數(shù)字化身和聲音，讓朋友把你“拉進”他們的視頻里。

這意味著，視頻生成不再只是一個人的創(chuàng)作工具，而變成了一種互動玩法，社交屬性被大大放大。某種程度上，Sora 想把“視頻生成”變成朋友之間溝通、表達的新方式。

不僅如此，Sora 還允許把現(xiàn)實世界的元素直接放進生成視頻里。比如，拍一段同事的視頻，它就能被無縫“搬運”到任何 Sora 場景中，外貌和聲音都能保持一致。這種能力非常通用，不光適用于人，也能作用在動物甚至物品上。

提示詞: Bigfoot is really kind to him, a little too kind, like oddly kind. Bigfoot wants to hang out but he he wants to hang too much

把 Sora 放進競品坐標系里看，更容易看懂它的勝負手。

先看“社交分發(fā)側(cè)”的直接對手。Meta 上周把 AI 視頻流 Vibes 推上了 Meta AI 與網(wǎng)頁端 meta.ai，信息流同樣是 AI 生成，但更強調(diào)“個性化取向 + 跨 Instagram/Facebook 的分發(fā)回路”。YouTube 則把 Google DeepMind 的 Veo 3 快速版塞進 Shorts，主打“手機端 8 秒生成 + 帶聲音 + 全量標注水印（SynthID）”，意圖用最低門檻激活海量創(chuàng)作者。與它們相比，Sora 選擇了更“重”的同意機制與人物分身授權(quán)，把“關(guān)系”而非“算法”放在第一順位，這是它在社交層面的差異化。

再看“創(chuàng)作工具側(cè)”的老玩家。Runway 把“可控性”修到位了，專業(yè)工作流里有更強的鏡頭控制與 API 能力，但它沒有面向 C 端的大眾級社交場景；Midjourney 的 V1 Video 更像“圖生動”的漸進式能力，適合風格化、單鏡頭的動畫化；Luma Dream Machine 則在真實運動與攝影機語法上持續(xù)加碼，iOS + Web 雙端可用，也開始和社區(qū)分享機制綁定。Sora 的不同在于：它在“多鏡頭一致性 + 角色留存 + 場景狀態(tài)延續(xù)”上用產(chǎn)品形態(tài)把技術(shù)優(yōu)勢放大，并用“分身授權(quán)”把人際關(guān)系嵌進生產(chǎn)管線，把生成從“個人玩具”抬升為“多人協(xié)作”。

如果把TikTok 當作“內(nèi)容分發(fā)的極致”，Sora 試圖成為“關(guān)系驅(qū)動的生成”。這兩條路的底層約束完全不同：TikTok 正在全面加強對 AIGC 的標注、對非公眾人物深度偽造的限制，并與 C2PA 的內(nèi)容憑證聯(lián)動自動加標簽；Sora 則把“同意”前置為產(chǎn)品功能，通過 Cameo 授權(quán)來約束生成邊界。一個靠“平臺治理 + 自動標注”維穩(wěn)，一個靠“人際授權(quán) + 產(chǎn)品內(nèi)生約束”降風險，路徑各異，但都在把“真?zhèn)慰杀妗弊鳛樾轮刃虻幕颈P。

站在商業(yè)視角，Sora 也許是 OpenAI 第一個“廣告原生”的 C 端產(chǎn)品。ChatGPT 的訂閱生意已經(jīng)驗證，視頻產(chǎn)品天生更適配品牌互動、話題營銷與電商場景。如果 Sora 的“關(guān)系復用 + Remix 傳播”成立，品牌與達人完全可以在“分身許可”框架下做規(guī)模化共創(chuàng)，投放的單位從“達人位”變成“分身位”。這背后是一個更硬核的難題：分身與素材的權(quán)利歸屬與收益分成。

Meta 和 YouTube 已在 AIGC 標注與水印上走在前面，但“分身授權(quán)的結(jié)算方式”仍是空白地帶；OpenAI 這次把“授權(quán)—使用—撤銷—溯源”做成了產(chǎn)品的一環(huán)，如果能進一步把收益結(jié)算變成平臺協(xié)議，它的護城河就不再只是“模型力”，而會長出“關(guān)系力 + 結(jié)算力”。

Prompt: Add @kendra except she can actually fly

但風險同樣清晰可見。影視行業(yè)或許將面臨更強烈的就業(yè)沖擊，網(wǎng)絡上真假難辨的問題也會被放大。盡管 OpenAI 為此設置了多重限制，比如禁止生成公眾人物影像、強制添加水印、禁用屏幕錄制等，但這些措施并不能完全消除擔憂。當 AI 生成的視頻越來越逼真，人類社會如何界定真實？這可能會是未來幾年被頻繁追問的問題。

如果說 ChatGPT 開啟了人與機器對話的“文字革命”，那么 Sora 正在鋪陳的，或許就是一場全新的“視頻革命”。

正如朱嘯虎常說的，下一個字節(jié)、下一個小紅書，很可能已經(jīng)在今年誕生。即便它未必是 Sora 本身，也一定會是那個借著 Sora 探路、順勢而起的產(chǎn)品。

[1] https://openai.com/index/sora-2/

歡迎掃碼加群參與討論

我們相信認知能夠跨越階層，

致力于為年輕人提供高質(zhì)量的科技和財經(jīng)內(nèi)容。

稿件經(jīng)采用可獲邀進入Z Finance內(nèi)部社群，優(yōu)秀者將成為簽約作者，00后更有機會成為Z Finance的早期共創(chuàng)成員。

我們正在招募新一期的實習生

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.