![]()
“視頻生成只是開始,Sora 2映射出OpenAI的真正野心。
10月24日,距離新一代視頻生成模型Sora 2及其驅動的社交應用Sora App發布后近一個月的時間,在蘋果的App Store,它依然排名第一,似乎在印證著OpenAI創始人Sam Altman所說的Creativity could be about to go through a Cambrian explosion(創造力將走向寒武紀大爆發)。
實際上,Sora2至今仍然是邀請制,而且僅在美加可訪問,手機端只有iOS版本,這種情況下Sora2在上線后的24小時內仍沖到了App Store的第三位;10月3日,Sora應用在上線第四天便迅速登頂App Store,超過了長期占據前兩位的ChatGPT和Gemini,僅美加地區頭兩天的下載量就達到16.4萬次,首周則收獲62.7萬下載量。
![]()
來源:App Store
如果說2024年初發布的初代Sora模型可視為視頻領域的“GPT-1時刻”,那么Sora 2則直接邁入了視頻領域的“GPT-3.5時刻”。
然而,若將Sora 2僅僅視為一個更強大的“視頻生成工具”,無疑會低估其劃時代的意義。它的核心價值并非簡單地生成更逼真、更連貫的視頻,而在于它首次大規模地驗證了構建“世界模型”(World Model)的技術可行性,這標志著AI正從一個被動響應、處理信息的內容工具,演變為一個能夠主動理解、預測并模擬物理世界規則的“現實引擎”(Reality Engine),并進一步影響到真實的人類世界,人類開始廣泛接納AI生成的視頻內容,成為社交媒體的一部分。
OpenAI宣布,“Sora 2初期將免費開放,并提供充足的使用額度。”可以預見,Sora百萬級用戶數乘以視頻生成,隨之而來的將是巨大的算力消耗。這背后的支撐力量,則是OpenAI與英偉達、AMD、Oracle等科技巨頭不久前聯合啟動的“萬億級算力擴張計劃”。而Sora App此次病毒式傳播如同不斷加熱的巨大算力熔爐,正在驅動一場顛覆式的應用生態革命。而這場革命的結果,或將成為全球AI基礎設施又一次重大考驗和重塑。
解構引擎:世界模型的技術基石
AI生成視頻(AI Generated Video)并非一個全新的概念。其基本原理通常是基于擴散模型(Diffusion Models)、Transformer架構、生成對抗網絡(GANs)等方法,將用戶輸入的文本或圖像提示(Prompt)作為初始條件,AI系統則會利用經過海量視頻數據訓練的模型逐幀或批量生成符合描述的像素信息,并最終合成視頻片段。
在Sora出現之前,這個賽道已經群雄逐鹿,Runway、Pika等明星創業公司,以及Google、Meta、X等科技巨頭都已推出了自己的文生視頻產品。
![]()
來源:百度百科、機器之心微信公眾號、國泰海通證券研究
然而,這些AI視頻工具普遍受困于幾大核心技術難點。首先是物理一致性,模型生成的物體運動往往違背常識,例如籃球會憑空入筐,模型缺乏對重力、慣性等基本物理規律的理解。其次是對象持久性,視頻中的角色或物體在暫時被遮擋后再次出現時,其外觀、形態常常會發生突變,模型無法維持一個對象在時空中的穩定存在。最后是時間連貫性,長視頻中,場景、光影、角色狀態容易出現閃爍或不合邏輯的跳變。
2024年2月,OpenAI推出的初代Sora在一定程度上修補了早期AI視頻的結構性缺陷,但若細看每一幀,物理錯位與邏輯跳脫的“穿幫”仍屢見不鮮,它更像一位天賦卓絕卻尚未參透世界規律的“模仿者”,距離真正理解現實的“創造者”仍有一段距離。
Sora 2的出現,標志著AI視頻生成從“模仿”邁向“理解”的質變。之所以OpenAI將其譽為視頻領域的“GPT-3.5時刻”,引申含義表明其突破是全方位的。最引人注目的進步在于其內隱的物理規律建模能力——Sora 2能夠精準模擬奧運體操運動員在鞍馬上完成復雜動作的動態平衡,或槳板愛好者在水面后空翻時激起的水花與浮力反饋。在Sora2,模型已不再只是拼接像素,而是在學習海量真實世界視頻后,內隱地形成了對重力、流體動力學、剛體碰撞與光影交互的復雜認知結構,從而實現了前所未有的“邏輯自洽”的動態模擬。
OpenAI官網表示,該模型在可控程度方面也有巨大躍進,能夠遵循跨越多個鏡頭的復雜指示,同時精確保持狀態與現實相符,而且在寫實、電影和動畫風格上表現出色。
與之相輔相成的,是其在多模態數據流同步生成上的突破。Sora 2首次原生集成了音頻生成能力,不僅能生成與畫面情境匹配的環境音,還能生成同步的角色對話,并確保口型與發音的精準對齊。這需要一個高度復雜的多模態融合架構,確保視聽邏輯的一致性。
這些關鍵突破的本質,已經超越了“視頻生成”的范疇,共同指向一個更深層次的目標——構建一個能夠模擬現實世界的AI模型,即“世界模型”的雛形。
根據英偉達(Nvidia)的定義,世界模型是理解現實世界動態,包括其物理和空間屬性的生成式 AI 模型。它以文本、圖像、視頻和運動數據為輸入,通過學習來內化環境的物理規律,從而對運動軌跡、受力變化以及感官數據中的空間關系進行建模和預測。這也是英偉達提出物理AI(Physical AI)概念的基礎。
Sora 2亦是在這一理念下構建的。它在多個模塊中引入了世界模型的思想,包括視頻潛空間的動態建模、時序一致性的物理約束,以及跨模態的生成控制機制,非簡單地“拼接鏡頭”,而是讓文本到視頻的生成過程更像是在“模擬一個連續的物理世界”。
順著這一思路,Sora 2的架構設計也隨之發生根本變化。首先,Sora 2從基礎Diffusion模型升級為Diffusion Transformer混合架構,顯著提升了模型的表達能力與訓練效率;其次,深度集成可微分物理引擎,使生成的視頻不僅視覺真實,更具物理一致性;同時,Sora 2引入時空建模(Spatial-Temporal Modeling)技術,并在訓練階段采用多階段蒸餾與跨模態對齊策略,將視覺、運動、語義信息融合進一個連續的潛在世界中。
因此,這些能力意味著Sora 2不再只是一個將文字轉化為視頻的生成模型,而是開始具備“世界模型”的特征,它能在內部模擬世界的動態邏輯、保持跨場景的物理一致性,并基于這種理解生成連貫、可推理的虛擬現實。
![]()
來源:https://cursor.cv/sora-2-technical-architecture-analysis.html
Sora 2的出現,再次將AGI(通用人工智能)技術路線之爭推向風口浪尖。過去,人們更多地聚焦于如何通過規模化與涌現機制打造通用大模型,而當世界模型逐漸走向現實,新的共識開始形成:在通往AGI的演化路徑上,或許應當區分兩類核心模型,“世界模型”負責理解與模擬現實、預測環境變化;“策略模型”則基于這種理解制定決策與行動。
正如@0xThoughtVecto0r在X(Twitter)上所言:“應當將世界模型與策略模型分開,先訓練世界模型去預測輸入、生成模擬回合(synthetic rollouts),再讓策略模型在這些虛擬環境中學習。”
這一觀點恰好揭示了傳統AI視頻生成,與以Sora 2為代表的“具備世界理解”模型之間的根本區別:前者只是在連續幀間進行插值;后者則通過內部建模,理解時間、空間與物理的關聯,使生成結果具備邏輯一致性與動態連貫性。通過學習真實世界視頻的時空規律,構建出一個可泛化的“世界認知空間”,從而讓生成過程更像是在“重演現實”,而非簡單的幀拼接。
而在世界模型的構建上,也有觀點上的分歧。圖靈獎得主、Meta首席AI科學家Yann LeCun則代表了另一種對“世界模型”的理解。他認為,僅靠語言符號間的統計關系(如大語言模型)無法實現真正的智能,AI必須擁有一個能夠“預測世界未來狀態”的內部表征體系,也就是一個“會想象的世界模型”。為此,他提出了聯合嵌入預測架構(JEPA,Joint Embedding Predictive Architecture),試圖讓AI在內部構建一個可推理、可預測的想象世界,并在此基礎上發展出理解、規劃與行動能力。
與這一理論思路相呼應的,是Google DeepMind的實踐路線。相較于OpenAI傾向規模化涌現的策略,Google更重視模型的可控性、可編輯性與物理一致性。其最新發布的Dreamer 4模型,也是一種以世界模型為核心的智能體架構。它通過在《Minecraft(我的世界)》等內部環境中進行 “想象訓練(imagination-based training)”,借助高效的Transformer架構與可微分物理機制,能夠在不依賴外部交互的情況下準確模擬環境動態,從而實現策略學習與行為決策。這意味著,Google并非僅在視頻生成上追求真實,而是在更底層通過內部世界的構建,推動AI對現實規律的自我理解。
![]()
Dreamer 4通過強化學習在其世界模型內部學習解決復雜控制任務,來源:https://arxiv.org/abs/2509.24527
從Sora 2的現實世界建模,到LeCun的內在想象空間,再到Google的智能體訓練閉環,“世界模型”這一概念正在從生成范式擴展到認知范式。這場關于“真正的世界理解”的爭論,也逐漸演化為兩種技術哲學的分歧:通向AGI的路徑,究竟是依靠海量數據驅動下的模式涌現,還是通過具備因果推理與預測能力的全新認知架構,目前仍無定論。
引擎的驅動:
應用與商業生態的范式遷移
Sora 2不僅僅是一個技術升級,它所驅動的Sora App和API,如同一臺大功率引擎,開始驅動上層應用和商業生態發生深刻的范式遷移。其中,最根本性的變革,在于它宣告了“AI Native(AI原生)”應用時代的真正到來。
過去,我們將AI視為一種“增強”能力,在現有軟件中加入AI功能,稱之為“AI+”。例如,在視頻剪輯軟件中加入AI摳圖,在文檔工具中加入AI寫作助手,但在這些應用中,AI是輔助性的,核心流程依然是用戶與傳統軟件界面的交互。而Sora App則是一個徹底的AI Native產品:AI不再是插件,而是驅動整個應用的核心引擎;用戶交互的主界面不再是復雜的側邊欄,而是簡單的對話框;應用提供的價值不再是有限的功能集,而是基于用戶想象力的、無限的生成可能性。
在這種AI Native范式下,平臺底層架構也發生了顛覆性變化。以TikTok為代表的現有短視頻平臺,其架構是圍繞“存儲與分發”構建的,核心任務是將用戶上傳的有限內容,通過高效的推薦算法精準地推送給海量用戶;而Sora App則是一種“實時生成與計算”的平臺架構,在這個新范式下,個人內容創作與群體消費不再是割裂的兩個環節,而是融為一體、實時發生,為前所未有的用戶體驗和社區生態創造了可能。
我們還看到Sora App帶來兩個全新的功能,Cameo(數字分身)與Remix(二次創作)。Cameo功能允許用戶通過錄制簡短的個人音視頻來創建可供調用的“數字分身”,并在AI生成的各種奇幻場景中“客串”出演,極大地滿足了個性化表達的需求;而Remix功能則讓平臺上的任何一個AI視頻都能成為用戶再創作的起點,極大地降低了內容創作的門檻。這兩個功能的結合,構建了一個強大的用戶增長與留存飛輪,也正是Sora App能在嚴苛的邀請制下依然登頂App Store榜首的關鍵所在,它證明了用戶對這種全新互動模式的狂熱追捧。
![]()
Cameo 和Remix功能,來源:Sora2 App – App Store
同時,在這種新架構之上,Sora 2開放的API還將催生出最短路徑的商業轉化模式。例如在電商領域,平臺不再需要提前錄制模特視頻,而是通過API調用,可以根據用戶的身材數據、偏好風格,實時生成一個由用戶第一視角的虛擬形象,動態展示商品。從商業流程來看,賣家只需提供產品模型和核心賣點,電商平臺便可根據用戶的興趣標簽,實時生成一段獨一無二的帶貨短片。更進一步,當這種生成能力與支付系統打通,一條從“激發興趣”到“完成購買”的無縫商業轉化鏈路就此形成,其轉化效率可能遠超當前的圖文和短視頻廣告。
這亦與OpenAI前段時間與Stripe合作推出的ACP(Agentic Commerce Protocol,代理商務協議)相得益彰。ACP旨在讓AI Agent能夠代表用戶完成從瀏覽、比價到最終支付的全流程交易。當Sora App強大的電商內容生成和社交傳播能力,與ACP協議驅動的交易能力相結合,一個 “創意-內容生成-支付” 的商業閉環便初具雛形,為接下來的商業模式演化鋪平了道路。
![]()
來源:OpenAI
https://developers.openai.com/commerce
放眼更廣闊的內容產業,Sora 2更將成為 “生產力基建”,其通過自動化生成數字資產,重塑整個生態。在廣告與影視行業,創意團隊可以將更多精力投入到核心構思上,而將分鏡繪制、場景預演、甚至部分特效鏡頭的制作,交給Sora完成,很大程度降低了制作成本、縮短周期;在游戲開發領域,游戲中的NPC對話、過場動畫、動態場景背景,都可以由Sora引擎根據游戲實時狀態動態生成,創造出真正“千人千面”的開放世界體驗;在工業設計中,設計師可以快速將產品草圖轉化為動態的3D演示視頻,在不同材質、光照和環境下的效果一目了然,從而加速產品迭代和決策過程。
當然,技術的指數級進步也必然帶來新的挑戰。更高的真實感提升了虛假視頻的迷惑性,社會對視頻作為證據的信任將面臨嚴峻考驗,同時,版權和肖像權的復雜問題也使得Sora的推廣與應用,必須依賴強有力的內容審核與合規機制。
Sora 2生成的視頻已達到以假亂真的程度,這將導致深度偽造(Deepfake)信息泛濫,版權糾紛呈爆炸式增長。從上線第一天開始,無數用戶就大量使用Disney(迪士尼)、任天堂(Nintendo)等公司的IP形象生成視頻,美國電影協會(Motion Picture Association,MPA)公開指控 Sora 出現未經授權使用其會員內容,Charles Rivkin敦促OpenAI“立即采取果斷行動”解決版權問題。日本內閣府特命擔當大臣城內實、數字大臣平將明等多位官員表示,政府已強烈意識到問題的嚴重性,要求OpenAI停止侵犯版權。
![]()
Sora生成大量IP形象內容
來源:https://copyrightlately.com/sora-2-copyright/
OpenAI CEO Sam Altman(薩姆·奧爾特曼)迅速宣布對Sora 2的兩項重要調整:第一,Sora將提供更精細的控制選項,使得角色版權方,能夠自主決定是否允許用戶使用其角色進行二次創作,并設定創作的具體規則,這種新形式將被稱為“互動同人小說”(interactive fan fiction);第二,在賦予版權方更多控制權的同時,Sora還計劃探索新收費模式,可將部分收入與授權使用其角色的版權方進行分成。未來,Sora可能會形成一個“創作者+IP方+平臺”三方分賬的生態系統。
隨著需求的增長,合規性也正催生全新的衍生技術賽道。例如,C2PA等開放技術標準將變得至關重要,能夠在視頻生成時嵌入不可篡改的元數據用于內容溯源。類似阜博集團(Vobile)的視頻指紋技術,能夠為海量原創和AIGC內容生成唯一的身份標識,在全網范圍內進行侵權檢測和追蹤。同時,面對每日可能數以億計的AIGC視頻,開發能夠快速、精準識別侵權、偽造內容的AI審核系統,本身就是一個巨大的市場。
引擎的燃料:對AI基礎設施的終極考驗
如果說“世界模型”是驅動未來的引擎,那么AI基礎設施,特別是算力,就是這臺引擎賴以運轉的唯一燃料,Sora 2的出現,對AI基礎設施提出了前所未有的考驗。根據Factorial Funds的早期測算,僅訓練Sora1模型就需要4200~10500 塊英偉達H100 GPU訓練上1個月,而在推理階段,單塊H100每小時最多只能生成約5分鐘的視頻。
從Sora 1過渡到Sora 2,如前所述,其視頻生成能力實現了顯著提升,尤其在物理準確性、時序連貫性與多模態融合方面都有突破,但這些進步的背后,相較過去則是幾何倍數的計算成本。語言模型僅需處理一維的文本序列,而視頻模型則要同時應對空間、顏色與時間,共四維數據,更重要的是,為了模擬物理世界并維持時空一致性,推理時需連續幀級采樣與解碼,因此單位請求的GPU時長與顯存占用更高;另外不斷增長的海量數據對存儲要求也極高。
Sora App目前采用邀請制和免費模式,更像是一場大規模的公測和數據收集,考慮到高昂的推理成本,這種 “免費午餐” 大概率無法持久,Sam Altman亦表示,未來可能的收費邏輯是,高性能算力將提供給付費用戶。
以Sora 2為代表的視頻生成任務,正在倒逼AI芯片和硬件加速演進。這類任務對顯存帶寬(HBM Bandwidth)的需求甚至超過了對算力(FLOPS)的需求,因為模型需要頻繁地在顯存中讀寫海量的權重參數和中間狀態。因此,擁有更大容量、更高帶寬HBM的GPU將更具優勢。這也加速了ASIC(專用集成電路)的崛起,Google的TPU、亞馬遜的Trainium等自研芯片,可以通過針對性設計,在視頻推理任務上實現比通用GPU更高的能效比。
此外,為了訓練和運行Sora 2這樣龐大的模型,單卡已無可能,必須通過高速互聯技術(如英偉達的NVLink)和更高速的光模塊將計算單元連接成大規模集群,對800G甚至1.6T光模塊的需求正因此而激增。
算力還與能源密切相關。根據國際能源署(IEA)發布的《Energy and AI(能源與人工智能)》的報告稱,到2030年,全球數據中心的電力需求將達到約945太瓦時,其中AI將是這一增長的最重要驅動力,預計到那時,與AI相關的計算任務所消耗的電力將比當前水平增加四倍以上。
OpenAI的整體應對策略,則是Sam Altman提出的“萬億級算力擴張計劃”。該計劃旨在未來幾年內構建數個超級數據中心(即星門,Stargate),部署數百萬塊AI芯片,其目標就是為訓練和運行遠超Sora 2的下一代世界模型提供基礎。OpenAI與英偉達(提供GPU)、甲骨文(提供云基礎設施)的深度戰略合作,正是這一宏偉計劃的體現。
![]()
OpenAI位于得克薩斯州的Stargate數據中心,來源:Inside OpenAI's Stargate Megafactory with Sam Altman | The Circuit,https://www.youtube.com/watch?v=GhIJs4zbH0o
10月6日,OpenAI宣布將通過最多1.6 億股AMD普通股的認股權證形式,與AMD展開深度合作,后者將為其下一代AI基礎架構提供算力支持,目標規模高達6千兆瓦GPU。僅一周后(10月13日),OpenAI又宣布與半導體巨頭博通(Broadcom)聯合開發定制化AI加速器,規模可達10千兆瓦。通過這項合作,OpenAI能夠將自身在前沿模型研發與產品化過程中的經驗直接嵌入硬件設計中,從底層釋放出更高層次的性能與智能潛力。
![]()
AI生態的資本流向
來源:摩根斯坦利研究(Morgan Stanley Research)
算力之爭不僅在OpenAI與芯片廠商之間上演,也早已蔓延至Google、Amazon、Meta等科技巨頭之間,并迅速波及國內。阿里巴巴在9月的云棲大會上宣布,正推進總規模達3800億元的AI基礎設施建設,并計劃進一步加碼投資。與此同時,字節跳動的“即夢”、快手的“可靈”等國產視頻生成模型相繼崛起,其背后離不開日益成熟的國產自主算力體系支撐。可以說,AI的競爭早已超越算法與模型層面,而進入以基礎設施為核心的新階段——誰掌握了最強大、最高效的算力,誰就握有通往“世界模型”時代的鑰匙。
總體而言,Sora 2所引發的連鎖反應,正推動整個AI技術體系的重構。從上層應用架構到下層算力基座,技術范式正被重新定義。對技術從業者與數據專業人士而言,這不僅意味著新的挑戰,也預示著前所未有的機遇。
過去,我們主要關注的是“如何實現”某個功能;而未來,我們的核心價值將更多地體現在“能想象出什么”應用場景。AI的現實引擎已然啟動,如何駕馭它、與之對話,將成為新的核心競爭力。具體而言,以下幾個方向值得技術從業者重點關注:
1.掌握與“引擎”對話的能力:精通Prompt Engineering,能夠用精準、結構化的自然語言或多模態指令駕馭復雜的生成模型,將成為一項基礎技能。更進一步,結合行業知識(Know-how)進行多模態應用開發,將AI引擎的能力與具體業務場景深度融合,將創造巨大價值。
2.投身內容合規的新戰場:隨著AIGC內容的井噴,數字水印、內容溯源、AI審核等技術將從邊緣走向舞臺中央,成為維護數字世界信任和秩序的關鍵基礎設施。
3.追求極致的“引擎”效率:對于更底層的系統和算法工程師而言,模型優化(量化、蒸餾、剪枝)、分布式訓練與推理系統的工程實現、以及針對特定任務的硬件加速,將是永恒的課題,也是降低AIGC成本、推動其普惠的關鍵所在。
Sora 2打開了一扇通往新世界的大門。門后的世界,既充滿了不確定性,也蘊藏著無限可能。對于每一個技術從業者來說,現在正是學習、適應并準備好迎接這場變革的最佳時機。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.