OpenAI發布Sora 2,稱之為視頻的GPT-3.5時刻; 還推出了一個Sora 應用,“開啟一個全新的共創體驗時代”。
OpenAI更是把Sora2視為它向通用的世界模擬器又邁出的一步,要加深AI對于物理世界的理解,引領世界模型和具身智能。
視頻全部用Sora2 生成
TL;DR
相比之前版本,Sora2實現了視頻生成的一次重大飛躍:加深了對物理世界的理解,更加 物理真實、逼真、可控。能夠處理復雜的動態,如體操、浮力以及物體的一致性和連貫性。
更好地遵循物理規律:能夠真實地建模成功和失敗(例如籃球投失會反彈,而不是瞬間消失)。
音頻 + 對話集成:可在視頻的同時生成同步的語音、音效和環境音效。
高可控性:能夠遵循復雜的多鏡頭指令,保持世界狀態一致,并且支持電影風格、寫實風格和動漫風格。
客串(Cameo) 功能:用戶可以上傳一段短視頻/音頻,將自己的外貌和聲音插入到任意 Sora 生成的場景中。
社交應用上線:推出新的應用 “Sora”,具有類似 TikTok 的內容流、二次創作、Cameo,以及基于邀請的逐步開放。重點是創作,而不僅僅是消費。
安全與健康:提供可定制的推薦系統、家長控制、青少年保護、反霸凌內容審核,以及對個人形象使用的嚴格同意機制。
訪問與推出:初期在美國和加拿大免費開放;計劃逐步擴展。ChatGPT Pro 用戶將有專業版;API 即將上線。
長期愿景:邁向通用的世界模擬器,未來可能驅動機器人。
Sora2的同步配音,與其中的人物和所處的場景交融,包括多種語言、甚至方言的能力。看下這段視頻中,OpenAI的一位老外研究員生成出了利索的中文:
Sora應用,AI版的TikTok還是Instagram
為何不用AI生成的短視頻做成一個類似于TikTok的應用?扎克伯格這樣想過,奧特曼也這樣想過,并且憑借大模型的優勢先干出來了。
許多人也擔心可能做成一個垃圾版的TikTok,但從目前所展示的Sora應用來看,根據一些初步體驗的用戶的反饋,OpenAI對AI時代的社交有更深的理解,它想做一個真正的個人AI視頻產品,關于自己的家庭和朋友圈子。更重要的是,Sora應用有自己的模型,而且生成的視頻完全在自己的平臺上——以后不再只發送到其他的視頻平臺上了。
用戶還可以將現實世界的元素直接注入 Sora 2。例如,可以把朋友的視頻插入到任何由 Sora 生成的環境中,并準確刻畫其外貌和聲音,適用于任何人類、動物或物體。
由于Sora2具備了更強的逼真和亂真的性能,它被設計成一個邀請式的社交應用,專門用于朋友之間。這既是出于安全的考慮,也成為Sora2的一大亮點,即它的客串功能(Cameo)。測試者的反饋非常積極,認為 客串功能讓這款應用與眾不同,使用起來也充滿樂趣——您必須親自嘗試才能真正體會,這是一種全新獨特的人際溝通方式。
OpenAI著重強調了它與TikTok的不同。它也有推薦算法,可以通過自然語言指導。OpenAI稱:“我們不會針對用戶在動態信息流中花費的時間進行優化,我們明確設計這款應用的初衷是最大限度地提升創作量,而非消費量。”
與免費的TikTok不同,由于預計將帶來巨大的算力成本,Sora應用可能需要進階付費。OpenAI解釋說:“其他應用的很多問題都源于其盈利模式,它鼓勵用戶做出與用戶福祉相悖的決策。坦白說,我們目前唯一的計劃是,如果需求量相對于可用計算能力過大,最終允許用戶選擇支付一定金額來生成額外的視頻。”
OpenAI“ 樂觀地認為,與現有的平臺相比,它將成為一個更健康的娛樂和創意平臺。”
一些體驗用戶反饋,這就像是溝通方式的自然演變——從短信到表情符號,再到語音備忘錄,直到現在上傳自己的視頻。
a16z合伙人Justine Moore認為:
OpenAI 正在打造的是一個社交網絡(類似最初的 Instagram),而不是一個內容網絡(像 TikTok 那樣)。
他們讓用戶能夠生成以自己、朋友和寵物為主角的視頻表情包。而且看起來,用戶的動態流會更大程度上顯示來自朋友的內容。
這種方式似乎更有前景——你并不是在和其他視頻生成玩家直接競爭,而是讓人們創造出一種全新的內容類型。
而這些視頻本身就天然更有趣 / 搞笑 / 有吸引力,因為它們的主角是你認識的人。
Sora2是GPT是3.5時刻
2022年2月16日,OpenAI推出Sora,長達1分鐘逼真的視頻驚艷了世界。OpenAI稱之為世界模擬器。12月10日,Sora1 正式推出,可以生成分辨率1080p、最長 20 秒、寬屏/垂直/方形的視頻。用戶可以自帶素材進行擴展、混音和混合,或者從文本生成全新的內容。其中的故事板工具,能讓用戶能夠精確指定每一幀的輸入,并且把它們串成一個視覺故事。之后制作20秒以內的短視頻,Sora成為利器。
Sora也承認了它的不足:仍然會產生一些不切實際的物理效果,并且難以長時間執行復雜的操作,在描繪風景、虛構人物、卡通效果和風格化內容方面表現出色,但在基本物理特性(如物體的持續性)上常常出現問題。人和動物走動時的腿部動作有時依然別扭。
但幾乎僅憑驚艷的展示效果,Sora很快掀起了視頻模型的熱潮,如Midjourney、Luma、Pika、Veo等,還有中國的Seedance、可靈(Kling)、萬相(Wan)、MiniMax等多個模型,有些已經超過了Sora較早的版本。
當初Sora使用了訓練語言大模型的方法,又結合擴散模型的方法訓練出來的,即所謂DiT 模型(Diffusion+Transformer)。如果說之前的Sora版本,就像當年GPT模型的早期版本一樣并不實用,Sora2依然不完美,但可以大規模推向消費者,就像當年基于GPT-3.5的ChatGPT一樣。但這需要APP的下載量來證明Sora的獨立應用價值。用戶也可以通過Sora.com或者ChatGPT使用Sora2。
Sora團隊負責人Bill Peebles認為,這次在物理IQ、可操控性、現實主義、音響品質、模擬世界能力等方面,實現了一次飛躍。一些測評用戶初步反饋,與目前勢頭正猛的谷歌的Veo3相比,Sora2在音響生成方面又有所提升。它的一致性和連貫性都達到了看不出破綻的地步。
假作真時真亦假
正因為如此強大的逼真和亂真功能,Sora2及其后續的競爭產品,可能對社會和經濟產生巨大的影響。它的無限創意,足以生成媲美專家設計與策劃公司出品的廣告視頻,對卡通漫畫、游戲設計將帶來革命性的影響,也加快了好萊塢和電影工業的變革。
Sora的客串功能,幾乎可以把(被)任何人放到任何一種AI生成的場景中,這將對虛假信息、普通人如何分辨媒體的 真假、選舉、公共健康等諸多領域產生長期負面影響。目前Sora2采取的做法,是在所有生成視頻上都加標簽。創意產業也在密切關注,Sora2的訓練數據的來源中有沒有未經許可使用版權保護作品。
但是奧特曼是最積極向白宮和國會游說“合理使用”受版權保護的公開作品的。它目前與《紐約時報》等媒體機構的版權官司還沒有了結。
客串也涉及到肖像權的問題。OpenAI說明,只有用戶本人才能決定誰可以使用客串,并且可以隨時撤銷訪問權限或移除包含該客串的任何視頻。用戶可以隨時查看包含本人客串的視頻,包括其他人創建的草稿。OpenAI保證用戶肖像使用方面的知情同意、出處確認、防止有害內容的生成等等,“可以與 Sora 端到端地掌控您的肖像。”
社交媒體上充斥著人們用奧特曼客串的梗
算力影響
顯然算力不足是影響Sora迅速完善與推廣的一個主要因素。Sora自稱是一個現實世界模擬器,引發了自ChatGPT發布之后最大的轟動,但它始終是一個類測試的產品,沒有向ChatGPT多達7億的用戶認真推廣。一個很重要的原因,是視頻應用一旦成為殺手級的應用,將吃掉巨大的算力,但OpenAI至今并不具備這一能力。Sora2目前僅憑邀請碼才能使用,而且僅對美國和加拿大的用戶。
去年初Sora推出后不久,就有機構推算出將達到72萬張英偉達H100 卡。將全部吃掉當時Meta的65萬張卡還不夠。在Sora成為現象級之后,奧特曼就開始滿世界搞算力基礎設施,從最初提出的7萬億美元的投資,到最近內部聲稱將投資高達12.5萬億美元。
OpenAI已經進入了基建狂魔的模式。目前真正在執行的,是他去年與微軟一起提出、今年初正式推出的星際之門計劃,總計投資5000億美元。
OpenAI在2025年初數據中心其用電規模約為230MW,年底將增至2GW;到2033年更是躍升至驚人的250GW,相當于8年內增長了125倍,將吃掉差不多一個中等國家全部的電力。
英偉達似乎也對此早有準備,也宣布推出了專為長上下文推理而設計的下一代Rubin CPX芯片,大幅度降低了推理成本,預計將于2026年下半年推出,與Sora的全球推文節奏保持一致,重點滿足視頻和智能體的大規模推廣而爆發的推理需求。英偉達上周還宣布投資OpenAI千億美元,將其算力容量推向10GW級別。
One More Thing
最后,我們看下OpenAI里的一位華裔員工Michael Chang,用Sora2做的段近兩分鐘的短視頻。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.