![]()
文章轉載于機器之心
終于,幾天前登上 Artificial Analysis 榜首的 現出了真身。
它就是 Runway 最新發布的 Gen-4.5。
作為當前 SOTA 視頻模型,Gen-4.5 在視頻生成的運動質量、提示詞遵循度以及視覺逼真度方面樹立了全新的行業標準。
![]()
另外,作為目前全球評價最高的視頻生成模型,Runway Gen-4.5 的 ELO Score 分數超越了 Veo 3/3.1、Kling 2.5 和 Sora 2 Pro,具備前所未有的視覺逼真度與創意控制能力。
![]()
Artificial Analysis 最新視頻榜單前十名分別如下:
![]()
Runway Gen-4.5 能夠生成電影級、極為逼真的畫面,同時為創作者提供無限的創作自由,并對生成過程中的每一個細節進行精確掌控。
2023 年 2 月,RunWay 的 Gen-1 發布,這是首個面向公眾的視頻生成模型。它開創了一種全新的創意表達方式,也催生了一個全新的產品類別。
2023 年 7 月,Gen-2 率先支持了文生視頻 + 圖生視頻(比 PIKA 和 Sora 都要早)。從那時起,Runway 不斷引領行業,讓視頻模型變得更強大、更可控,從基礎模型的大幅提升,到全新的控制方式以及更廣泛的上下文能力。
今天發布的 Gen 4.5 或許也會引領行業,作為一個較小的團隊,AI 社區的很多人都對此表示了敬意。
此次,Gen-4.5 將視頻生成的前沿推向更遠,它在預訓練數據效率和后訓練技術方面都取得了重大突破。Gen-4.5 在動態可控的動作生成、時間一致性以及多種生成模式下的精確可控性方面樹立了新的行業標準。在 Artificial Analysis 的文本生成視頻基準評測中,Gen-4.5 獲得 1247 Elo 分數,目前位居榜首,超越所有其他模型。
Gen-4.5 保持了 Gen-4 的速度與效率,在不犧牲性能的前提下帶來突破性質量提升。在所有訂閱方案中均提供相近的價格,使全球領先的視頻生成能力能夠被不同規模的創作者與組織使用。Runway 也將把所有現有的控制模式(圖生視頻、關鍵幀、視頻到視頻等)帶到 Gen-4.5 中。
接下來看 Gen-4.5 的幾大特性。
1
精確的提示詞遵循能力
Gen-4.5 在物理準確性和視覺精細度方面達到了前所未有的水平。物體的運動呈現真實的重量、動量與力感;液體流動符合正確的動力學特性;表面細節以極高的保真度呈現;而諸如發絲、材質紋理等微小細節在運動和時間維度上也能保持一致與穩定。
復雜場景:能夠以高精度呈現結構精巧、元素豐富的多層次場景。
Camera is panning and trucking across a kitchentable with different objects placed on the counter.The light is low, it comes through a window,casting shadows and dappled light.
精細的構圖:能夠對物體與角色進行精確的定位,并呈現流暢自然的運動效果。
A polar bear sits huddled inside a clear frozen iceblock, strapped securely to a small silver utilitytrailer.The camera follows the trailer pulled by acord at eye level, then pans to the right to reveal agoat pulling the trailer.
物理精確性:具備真實可信的物理表現,包括逼真的碰撞效果與自然的運動方式。
富有表現力的角色:能夠呈現細膩的情感、自然而流暢的肢體動作,以及栩栩如生的面部細節。
Close-up shot. A left hand grips the edge of amirror.We can see an old man in the mirror as hetilts it up and down.
1
風格化控制與視覺一致性
Gen-4.5 能夠覆蓋廣泛的美學風格,從照片級真實感與電影質感到風格化動畫,同時保持統一連貫的視覺語言。
照片級真實:畫面細節與準確度逼真到難以與真實影像區分。
A young woman with straight blonde hair and afreckled complexion sits quietly, looking upthrough her lashes with a vulnerable expression,
非寫實風格:具備風格化、富有表現力的運動效果,藝術表達不受寫實限制。
Behind view of a lonely wanderer walking througha dark and mysterious forest.Classic fantasy filmfeaturing richly saturated early color photographypaired with theatric styling.
生活切片:以真實可信的細節呈現日常場景與環境。
The scene shows a the TV that has a 9O's dogcartoon.A hand comes in to turn it off.The camerapans downwards to reveal"Runway" written incereal in a bowl with milk, then back upwardstoward the fridge to reveal"Whisper Thunder'written in alphabet magnets.
電影質感:視覺表現具有強烈的情感張力,呈現深邃的空間感與電影般的精致效果
A kid on the back of a Mandrill, next to a group ofMandrills running on a plain.Cinematic, fastmotion blur, handheld documentary film style, lowangle.
1
部署與局限性
Runway 表示,Gen-4.5 基于 NVIDIA 架構構建,其在整個流程中 —— 包括早期研發、預訓練、后訓練以及推理階段 —— 均完全運行于 NVIDIA GPU 之上。
Runway 與 NVIDIA 深度合作,從訓練效率到推理速度,全方位推動視頻擴散模型優化的技術邊界。得益于推理運行在 NVIDIA Hopper 和 Blackwell 系列 GPU 上,在保證質量的同時實現性能最優化。
盡管能力大幅提升,Gen-4.5 仍表現出一些視頻生成模型普遍存在的局限性,包括如下:
因果推理:效果有時會先于原因出現(例如,門把手尚未被按下,門就已打開)。
物體永久性:物體可能在幀間意外消失或出現(例如,一個杯子被遮擋后突然消失)。
成功偏差:動作過于容易成功(例如,一個瞄準不佳的踢球仍然能夠進球)。
這些局限性在針對世界模型的研究中尤為關鍵,世界模型需要準確表現環境中動作導致的結果。Runway 正在積極探索解決這些問題的方法.
官方博客地址:https://runwayml.com/research/introducing-runway-gen-4.5
點個“愛心”,再走 吧
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.