![]()
新智元報道
編輯:定慧
【新智元導讀】Runway Gen-4.5這波有點厲害!
剛剛更新的Runway Gen-4.5擊敗谷歌Veo3,重奪AI視頻王座!
在Artificial Analysis的榜單中Runway以1247的ELO分數拿下第一。
![]()
在觀看了RunwayGen-4.5的宣傳視頻后,被其中的一句話所打動:
我們創造了一個,你可以用來創造一切的的產品。
RunwayGen-4.5此前代號為WhisperThunder。
Gen-4.5采用最先進技術,在視頻生成的運動質量、提示詞遵循度和視覺保真度方面樹立了全新標桿。
![]()
以下是一些驚艷的例子。
RunwayGen-4.5在視頻模型的預訓練數據效率和后訓練技術方面均取得顯著進步,并成為用于世界建模的新基礎模型。
Gen-4.5在ArtificialAnalysis文本轉視頻排行榜中獲得1,247Elo積分,創下新標準并超越了全球所有其他AI視頻模型。
![]()
Runway是第一家將文生視頻技術真正做成可供大眾使用的SaaS產品的公司。
在2023年初,Runway率先推出了Gen-1(視頻生視頻)和Gen-2(文生視頻)。
當時谷歌的ImagenVideo和Meta的Make-A-Video還停留在實驗室演示階段,而Runway直接讓普通用戶通過網頁就能生成視頻。
![]()
它是第一個讓「AI視頻生成」成為獨立商業賽道的公司,甚至早于OpenAI的Sora(Sora發布于2024年初)。
Gen-4.5實現了前所未有的物理精確度和視覺精度。
物體以逼真的重量、動量和力量運動。
液體以恰當的動力學特性流動。
表面細節以極高的保真度渲染。
而像發絲和材質編織這樣的精細細節在運動和時間內保持連貫。
在復雜場景、精細構圖、物理準確性上都表現出色,并且能生成富有表現力的角色。
Gen-4.5能夠處理從照片級真實感和電影感,到風格化動畫的廣泛美學風格,同時保持連貫的視覺語言。
Gen-4.5從初期研發、預訓練、后訓練到推理的整個開發過程完全基于英偉達GPU完成。
盡管能力有了飛躍,Rnway仍表現出視頻生成模型常見的若干限制:
因果推理:效果有時會先于原因出現(例如,門在按下把手之前就打開了)。
物體恒存性:物體可能在幀間意外消失或出現(例如,杯子被遮擋后消失)。
成功偏差:動作異常容易成功(例如,瞄準不佳的射門仍能得分)。
Runway創始人最新訪談
Runway Gen 4.5如何重塑模擬引擎革命?
Runway ML創始人Cristóbal Valenzuela訪談剛剛曝光!
![]()
視頻模型正從娛樂工具轉向世界模擬引擎,這是否預示AGI新時代的曙光?
Cristóbal Valenzuela在 Gen 4.5模型社區投票登頂視頻競技場排行榜后,與Lukas Biewald展開深度對話,剖析視頻建模領域的挑戰與創新。
視頻AI的終局是「世界模擬器」嗎?
以小博大:專注與效率的勝利
采訪一開始,Lukas就拋出了一個尖銳的問題:「Runway作為一個創業公司,是如何與擁有無限資源的谷歌競爭的?」
Chris的回答非常坦誠。七年前Runway剛成立時,甚至沒人覺得「視頻模型」是一個值得投入的領域。如今雖然行業已被引爆,且巨頭紛紛入局,但Chris認為資源仍然不是決定性因素。
- 專注(Obsession):
相比大廠的廣泛布局,Runway擁有一支對視頻生成愿景極度癡迷的團隊。
- 效率(Efficiency):
當你沒有幾千億美元可以揮霍時,你必須在訓練和推理的效率上極度創新。「在有限資源下做到世界第一,迫使我們變得更具創造力。」
![]()
二級標題煉丹的玄學:技術中的「品味」
Gen 4.5為什么能大幅領先?Chris提到了一個有趣的詞——「品味」(Taste)。
這里的「品味」指的不僅僅是生成畫面的美學風格,更多是指「如何訓練模型的直覺」。
模型訓練沒有單一的「魔法按鈕」。
它關乎成千上萬個參數的微調、無數個Tips&Tricks的組合。
Chris引用了Ilya Sutskever的觀點,認為現在是「擁有更大算力的基礎研究回歸之年」。誰更擅長做基礎科學實驗,誰就能領先。
超越語言:視頻模型即「世界模型」
這是本次采訪中最核心的觀點。
Chris認為,理解視頻模型的最佳方式,是將其視為「通用模擬引擎」(Universal Simulation Engines)。
- 語言的局限:
語言模型(LLM)受限于語言本身——語言只是人類對現實的一種抽象,而非現實本身。
- 觀察數據的力量:
視頻模型通過學習大量的觀察數據,能夠捕捉到物理世界的規律,如因果關系、空間與時間的連續性、物體恒存性等。
實測案例:Chris舉了一個內部測試的Prompt例子:「一只袋鼠推著另一只坐在嬰兒車里的小袋鼠」。
這不僅需要模型理解復雜的生物運動,還要處理攝像機的跟隨運鏡。
Gen 4.5能夠完美處理這種復雜的物理交互,證明了它不僅僅是在生成像素,而是在理解物理世界。
![]()
未來的應用:從電影到機器人
如果視頻模型是「模擬引擎」,那它的應用場景將遠超現在的影視制作:
- 非線性娛樂體驗:
未來的游戲或互動內容可能不再是預先制作好的,而是實時生成的、可交互的「夢境」。
- 具身智能(EmbodiedAI):
有開發者已經開始利用Runway生成合成視頻數據,用來訓練機器人的手臂操作。
- 個性化學習:
想象一下,你想學習任何知識,AI都能實時為你生成一段專屬的教學視頻。
在采訪的最后,Chris并沒有回避關于安全性的問題。
面對「AI生成內容對兒童限制過多」的抱怨,他表示這確實是一個艱難的平衡,但未來或許會出現類似流媒體平臺的「兒童模式」,把控制權交給家長。
Runway的野心從未止步于「視頻剪輯工具」。
正如Chris所言,他們正在構建的是一種新的媒介,一種能夠模擬萬物的智能系統。
我們首先模擬的是娛樂和媒體,但你會看到,這些模型將開始模擬遠超于此的一切。
參考資料:
https://runwayml.com/
秒追ASI
?點贊、轉發、在看一鍵三連?
點亮星標,鎖定新智元極速推送!
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.