網易首頁 > 網易號 > 正文申請入駐

Sora2發布，一面朝AI版TikTok，一面朝世界模型

2025-10-01 12:35:01　來源: 未盡研究

上海舉報

分享至

OpenAI發布Sora 2，稱之為視頻的GPT-3.5時刻；還推出了一個Sora 應用，“開啟一個全新的共創體驗時代”。

OpenAI更是把Sora2視為它向通用的世界模擬器又邁出的一步，要加深AI對于物理世界的理解，引領世界模型和具身智能。

視頻全部用Sora2 生成

TL;DR

相比之前版本，Sora2實現了視頻生成的一次重大飛躍：加深了對物理世界的理解，更加物理真實、逼真、可控。能夠處理復雜的動態，如體操、浮力以及物體的一致性和連貫性。

更好地遵循物理規律：能夠真實地建模成功和失敗（例如籃球投失會反彈，而不是瞬間消失）。
音頻 + 對話集成：可在視頻的同時生成同步的語音、音效和環境音效。
高可控性：能夠遵循復雜的多鏡頭指令，保持世界狀態一致，并且支持電影風格、寫實風格和動漫風格。
客串（Cameo）功能：用戶可以上傳一段短視頻/音頻，將自己的外貌和聲音插入到任意 Sora 生成的場景中。
社交應用上線：推出新的應用 “Sora”，具有類似 TikTok 的內容流、二次創作、Cameo，以及基于邀請的逐步開放。重點是創作，而不僅僅是消費。
安全與健康：提供可定制的推薦系統、家長控制、青少年保護、反霸凌內容審核，以及對個人形象使用的嚴格同意機制。
訪問與推出：初期在美國和加拿大免費開放；計劃逐步擴展。ChatGPT Pro 用戶將有專業版；API 即將上線。
長期愿景：邁向通用的世界模擬器，未來可能驅動機器人。

Sora2的同步配音，與其中的人物和所處的場景交融，包括多種語言、甚至方言的能力。看下這段視頻中，OpenAI的一位老外研究員生成出了利索的中文：

Sora應用，AI版的TikTok還是Instagram

為何不用AI生成的短視頻做成一個類似于TikTok的應用？扎克伯格這樣想過，奧特曼也這樣想過，并且憑借大模型的優勢先干出來了。

許多人也擔心可能做成一個垃圾版的TikTok，但從目前所展示的Sora應用來看，根據一些初步體驗的用戶的反饋，OpenAI對AI時代的社交有更深的理解，它想做一個真正的個人AI視頻產品，關于自己的家庭和朋友圈子。更重要的是，Sora應用有自己的模型，而且生成的視頻完全在自己的平臺上——以后不再只發送到其他的視頻平臺上了。

用戶還可以將現實世界的元素直接注入 Sora 2。例如，可以把朋友的視頻插入到任何由 Sora 生成的環境中，并準確刻畫其外貌和聲音，適用于任何人類、動物或物體。

由于Sora2具備了更強的逼真和亂真的性能，它被設計成一個邀請式的社交應用，專門用于朋友之間。這既是出于安全的考慮，也成為Sora2的一大亮點，即它的客串功能（Cameo）。測試者的反饋非常積極，認為客串功能讓這款應用與眾不同，使用起來也充滿樂趣——您必須親自嘗試才能真正體會，這是一種全新獨特的人際溝通方式。

OpenAI著重強調了它與TikTok的不同。它也有推薦算法，可以通過自然語言指導。OpenAI稱：“我們不會針對用戶在動態信息流中花費的時間進行優化，我們明確設計這款應用的初衷是最大限度地提升創作量，而非消費量。”

與免費的TikTok不同，由于預計將帶來巨大的算力成本，Sora應用可能需要進階付費。OpenAI解釋說：“其他應用的很多問題都源于其盈利模式，它鼓勵用戶做出與用戶福祉相悖的決策。坦白說，我們目前唯一的計劃是，如果需求量相對于可用計算能力過大，最終允許用戶選擇支付一定金額來生成額外的視頻。”

OpenAI“ 樂觀地認為，與現有的平臺相比，它將成為一個更健康的娛樂和創意平臺。”

一些體驗用戶反饋，這就像是溝通方式的自然演變——從短信到表情符號，再到語音備忘錄，直到現在上傳自己的視頻。

a16z合伙人Justine Moore認為：

OpenAI 正在打造的是一個社交網絡（類似最初的 Instagram），而不是一個內容網絡（像 TikTok 那樣）。

他們讓用戶能夠生成以自己、朋友和寵物為主角的視頻表情包。而且看起來，用戶的動態流會更大程度上顯示來自朋友的內容。

這種方式似乎更有前景——你并不是在和其他視頻生成玩家直接競爭，而是讓人們創造出一種全新的內容類型。

而這些視頻本身就天然更有趣 / 搞笑 / 有吸引力，因為它們的主角是你認識的人。

Sora2是GPT是3.5時刻

2022年2月16日，OpenAI推出Sora，長達1分鐘逼真的視頻驚艷了世界。OpenAI稱之為世界模擬器。12月10日，Sora1 正式推出，可以生成分辨率1080p、最長 20 秒、寬屏/垂直/方形的視頻。用戶可以自帶素材進行擴展、混音和混合，或者從文本生成全新的內容。其中的故事板工具，能讓用戶能夠精確指定每一幀的輸入，并且把它們串成一個視覺故事。之后制作20秒以內的短視頻，Sora成為利器。

Sora也承認了它的不足：仍然會產生一些不切實際的物理效果，并且難以長時間執行復雜的操作，在描繪風景、虛構人物、卡通效果和風格化內容方面表現出色，但在基本物理特性（如物體的持續性）上常常出現問題。人和動物走動時的腿部動作有時依然別扭。

但幾乎僅憑驚艷的展示效果，Sora很快掀起了視頻模型的熱潮，如Midjourney、Luma、Pika、Veo等，還有中國的Seedance、可靈（Kling）、萬相（Wan）、MiniMax等多個模型，有些已經超過了Sora較早的版本。

當初Sora使用了訓練語言大模型的方法，又結合擴散模型的方法訓練出來的，即所謂DiT 模型(Diffusion+Transformer)。如果說之前的Sora版本，就像當年GPT模型的早期版本一樣并不實用，Sora2依然不完美，但可以大規模推向消費者，就像當年基于GPT-3.5的ChatGPT一樣。但這需要APP的下載量來證明Sora的獨立應用價值。用戶也可以通過Sora.com或者ChatGPT使用Sora2。

Sora團隊負責人Bill Peebles認為，這次在物理IQ、可操控性、現實主義、音響品質、模擬世界能力等方面，實現了一次飛躍。一些測評用戶初步反饋，與目前勢頭正猛的谷歌的Veo3相比，Sora2在音響生成方面又有所提升。它的一致性和連貫性都達到了看不出破綻的地步。

假作真時真亦假

正因為如此強大的逼真和亂真功能，Sora2及其后續的競爭產品，可能對社會和經濟產生巨大的影響。它的無限創意，足以生成媲美專家設計與策劃公司出品的廣告視頻，對卡通漫畫、游戲設計將帶來革命性的影響，也加快了好萊塢和電影工業的變革。

Sora的客串功能，幾乎可以把（被）任何人放到任何一種AI生成的場景中，這將對虛假信息、普通人如何分辨媒體的真假、選舉、公共健康等諸多領域產生長期負面影響。目前Sora2采取的做法，是在所有生成視頻上都加標簽。創意產業也在密切關注，Sora2的訓練數據的來源中有沒有未經許可使用版權保護作品。

但是奧特曼是最積極向白宮和國會游說“合理使用”受版權保護的公開作品的。它目前與《紐約時報》等媒體機構的版權官司還沒有了結。

客串也涉及到肖像權的問題。OpenAI說明，只有用戶本人才能決定誰可以使用客串，并且可以隨時撤銷訪問權限或移除包含該客串的任何視頻。用戶可以隨時查看包含本人客串的視頻，包括其他人創建的草稿。OpenAI保證用戶肖像使用方面的知情同意、出處確認、防止有害內容的生成等等，“可以與 Sora 端到端地掌控您的肖像。”

社交媒體上充斥著人們用奧特曼客串的梗

算力影響

顯然算力不足是影響Sora迅速完善與推廣的一個主要因素。Sora自稱是一個現實世界模擬器，引發了自ChatGPT發布之后最大的轟動，但它始終是一個類測試的產品，沒有向ChatGPT多達7億的用戶認真推廣。一個很重要的原因，是視頻應用一旦成為殺手級的應用，將吃掉巨大的算力，但OpenAI至今并不具備這一能力。Sora2目前僅憑邀請碼才能使用，而且僅對美國和加拿大的用戶。

去年初Sora推出后不久，就有機構推算出將達到72萬張英偉達H100 卡。將全部吃掉當時Meta的65萬張卡還不夠。在Sora成為現象級之后，奧特曼就開始滿世界搞算力基礎設施，從最初提出的7萬億美元的投資，到最近內部聲稱將投資高達12.5萬億美元。

OpenAI已經進入了基建狂魔的模式。目前真正在執行的，是他去年與微軟一起提出、今年初正式推出的星際之門計劃，總計投資5000億美元。

OpenAI在2025年初數據中心其用電規模約為230MW，年底將增至2GW；到2033年更是躍升至驚人的250GW，相當于8年內增長了125倍，將吃掉差不多一個中等國家全部的電力。

英偉達似乎也對此早有準備，也宣布推出了專為長上下文推理而設計的下一代Rubin CPX芯片，大幅度降低了推理成本，預計將于2026年下半年推出，與Sora的全球推文節奏保持一致，重點滿足視頻和智能體的大規模推廣而爆發的推理需求。英偉達上周還宣布投資OpenAI千億美元，將其算力容量推向10GW級別。

One More Thing

最后，我們看下OpenAI里的一位華裔員工Michael Chang，用Sora2做的段近兩分鐘的短視頻。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.