![]()
新智元報道
編輯:元宇
【新智元導讀】馬斯克親自站臺,grok-image-video-720p在46萬次盲測投票中加冕第一,這款xAI「壓箱底」的視頻模型,不僅在基準測試上超過了谷歌Veo 3.1 Fast,使用成本也更低。
剛剛,AI視頻領域又迎來洗牌!
xAI的Grok圖像轉視頻模型(grok-image-video-720p)登頂「Image-to-Video Arena」排行榜,以1404分的超高ELO評分力壓群雄,位居第一。
馬斯克親自發帖為自家Grok Image模型站臺,稱它每周都在迭代優化。
![]()
這次,xAI真是拿出了「壓箱底」的東西,他們將Grok Imagine稱作為自己目前最強悍的「視頻+音頻」生成模型。
無論是想讓一張靜態梗圖「活」過來,還是憑空用一句話變出大片,甚至是對復雜的電影級鏡頭進行精細打磨,它都能輕松搞定。
X平臺上,網友用Grok制作的視頻已經迅速刷屏,涵蓋電影特效、動畫制作、日常生活等種種場景。
從一些基準測試上來看,Grok-imagine-video-720p不僅擊敗了谷歌強大的Veo模型,而且生成成本也更低。
有網友驚呼,這不僅是AI視頻工具的一次進化,更可能直接推動該領域重新「排座次」。
![]()
還有網友猜想,Grok的強勢出擊,或將掀起新一輪生成式視頻技術的軍備競賽。
![]()
揭秘Grok Imagine
能干活、成本低的多模態六邊形戰士
Grok Imagine是xAI傾力打造的視頻-音頻生成模型,該模型的最新版本Grok Imagine 1.0于2026年2月初發布。
支持生成10秒長的720p高清視頻,并在運動平滑度、原生音頻質量(如情感表達的聲音)以及提示詞遵循能力上均實現了跨越式升級。
相比較2025年10月發布的Imagine v0.9版本,它將核心聚焦于視覺質量、多模態能力,成本和延遲的平衡,真正做到了支持端到端的創意工作流。
用戶可以通過文本描述或上傳圖像來動畫化內容,還支持后續指令微調場景。
具體而言,Grok Imagine展現了三大核心「殺手锏」:
視頻生成與指令遵循能力
Grok Imagine的視頻生成能力,主要用來從零開始創建短視頻(通常10-15秒長,支持480p或720p分辨率)。
它能處理多種輸入方式,比如直接用文字描述場景、動作、燈光和心情來生成視頻,或者上傳一張靜態圖片,讓AI給它「加戲」變成動態視頻。
在視頻生成方面,Grok Imagine擁有業界領先的指令遵循能力。你給出的指令再復雜,它也能精準理解并執行。
零門檻的視頻編輯能力
視頻編輯功能更像是給現有視頻「動手術」,Grok Imagine可以讓你能輕松修改內容,而不用專業軟件。
它支持重新設計場景(比如換背景或風格)、添加或刪除物體(例如加個道具或去掉多余元素)、控制動作(調整運動軌跡、速度或相機角度)。
操作起來簡單:上傳視頻文件或URL,然后描述你想改啥,比如「把這個視頻里的車換成飛船,加點爆炸效果」。
AI就會根據你的指令生成編輯后的版本,還保持原視頻的核心元素。
視頻編輯適合電影剪輯、廣告調整或內容優化,編輯后視頻還能帶原生音頻。
更快速度與更低成本的平衡
在性能表現方面,不僅要變強,還要變快。
因為如果生成速度太慢、價格太貴,大家根本不敢放開手腳去嘗試。
因此xAI團隊專門針對延遲、并發量和成本進行了極限優化。
這讓Grok Imagine不僅跑得快,而且用起來更省錢。
它強調高質量、成本和延遲的平衡,支持端到端的創意工作流,包括視頻生成、編輯和音頻同步。
評測霸榜,力壓谷歌
在基準測試中,Grok Imagine在圖像轉視頻領域表現出色,尤其在用戶偏好投票和性價比上。
在Image-to-Video Arena(arena.ai)排行榜上,Grok-image-video-720p以1404分位居第一(基于46.5萬投票,34個模型),領先Google Veo-3.1-audio-1080p(1402分)。
![]()
https://arena.ai/zh/leaderboard/image-to-video
這是一個基于用戶盲測投票的平臺,使用Elo評分系統。評測強調真實世界視頻質量和保真度,而非自動化指標。
在另一個獨立排行榜Artificial Analysis Image to Video Leaderboard上,Grok以1337 ELO分領先,評估標準包括質量、生成速度和價格。
Grok-image-video在風格、主題和格式一致性上得分高,它的API定價約$4.20/分鐘,低于谷歌Veo 3.1 Fast等競品。
![]()
https://artificialanalysis.ai/video/leaderboard/image-to-video
在一些第三方的專業評測中,Getimg.ai認為Grok Imagine最突出的特點是以視頻形式精準遵循指令,當提示詞描述動作、節奏或轉場時,該模型通常能做出看似經過深思熟慮而非偶然的回應。
比如,Grok-image-video在原生音頻(唇同步、自然對話)和電影指令遵循(如平移、變焦)上出色。
Grok-image-video的另一個特色,是它很好地解決了低延時這一用戶使用痛點。
AI視頻模型在使用場景中,僅靠原始質量已不再足夠,往往需要多輪交互,等待結果的時間過長會抑制用戶嘗試的意愿,尤其是當每次生成都代價高昂時。
基準測試顯示,Grok Imagine在綜合考量質量、延遲和成本時表現出色。
這意味著你可以自由地生成、調整和重新生成視頻,而不會覺得每次輸入提示都是一種負擔。
Lovera Digital將Grok與Google Veo 3比較,發現Grok易用性高,適合短視頻社交內容,但視頻質量有時抖動。
它的最佳用例是快速原型,評分表顯示其在創意短片上競爭力強。
Grok Imagine在第三方評測中被視為高效、音頻強的選手,尤其適合創意和快速生成,但需注意一致性和安全問題。
如果你想親自體驗一下Grok Imagine,目前可以通過官網(grok.com/imagine)和APP免費試用,或通過API集成(Grok Imagine API)。
參考資料:
https://x.com/elonmusk/status/2026330684630130739%20
https://x.com/teslaownersSV/status/2026322222206648339
https://arena.ai/zh/leaderboard/image-to-video
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.