![]()
機器之心發布
就在昨天,全球 AI 視頻生成領域迎來了一場 “超級地震”——OpenAI 竟然意外叫停了萬眾矚目的 Sora 2 項目。
![]()
然而,就在行業巨頭調整研發節奏的同一周,開源社區迎來了一波扎實的技術推進。一家位于北京的 AI 初創公司,在 GitHub 上連續三天釋出了其核心技術棧 ——依次開源了 150 億參數的 “演繹級” 音視頻同出大模型、重新定義算力上限的分布式 Attention 組件,以及旨在突破顯存瓶頸的全局編譯框架
這家持續向開發者社區貢獻底層技術的公司,正是Sand.ai。今天,我們就來深度拆解這家公司的技術脈絡,看看這支中國團隊是如何在當前的行業轉折期中,走出一條獨立的視頻生成技術路線。
![]()
連續三天開源:一場自頂向下的技術拆解
第一天:演繹級音視頻基座daVinci-MagiHuman
針對當前 AI 視頻 “表演僵硬” 與 “音畫不同步” 的痛點,Sand.ai 聯合上海創智學院(SII)GAIR 實驗室,開源了 150 億參數的音視頻同出大模型。該模型采用單流 Transformer 架構,將文本、視頻與音頻進行統一聯合建模,徹底告別了復雜的跨注意力分支。
![]()
視頻鏈接:https://mp.weixin.qq.com/s/o_McSh4rXjB1btMhCO6fQg
第二天:分布式 Attention 組件MagiAttention v1.1.0
為了支撐超大模型的訓練與極速生成,團隊發布了深度適配 Hopper 與 Blackwell 架構的算力組件。它通過構建原生的 Group Collective 通信內核(以 NVLink 替代冗余的 RDMA 傳輸)來大幅降低跨機通信量,并引入 Dispatch Solver 實現全局負載均衡。
![]()
第三天:訓推一體全局編譯框架MagiCompiler
針對大模型開發中 “速度與顯存難以兼得” 的技術矛盾,Sand.ai 釋出了基于 torch.compile 深度優化的即插即用編譯框架。它通過整圖 / 整層編譯、啟發式自動重計算以及 JIT Offload 調度,全面接管了計算調度與顯存生命周期。實測顯示,在推理端甚至能讓 RTX 5090 以近乎實時的速度運行超大視頻模型。
![]()
團隊介紹:“少數派” 的技術信仰
Sand.ai 成立于 2024 年,創始人是曹越博士。熟悉計算機視覺(CV)發展史的朋友對他絕對不陌生:在微軟亞洲研究院(MSRA)期間,曹越作為核心作者發表的《Swin Transformer》一舉拿下了 ICCV 最佳論文獎(馬爾獎),目前其 Google Scholar 引用量已逼近 6 萬次。聯合創始人張拯同樣是該論文的核心作者。
![]()
這是一支具有極強科研與工程背景的團隊。成立不久,Sand.ai 便完成了由源碼、今日、經緯等領投的多輪融資。有了充足的資金支持,Sand.ai 并沒有選擇直接跟隨行業主流的 Sora 路線。當大部分團隊都在追捧 DiT(Diffusion Transformer)架構時,他們堅信:通過自回歸(Autoregressive)預測視頻塊序列來生成視頻的世界模型,才是更接近物理世界第一性原理、且具備更強 Scaling 能力的終局。據悉,近期 Sand.ai 又快速完成了一輪數千萬美金融資。
目前,Sand.ai 旗下主要布局了兩款核心模型,分別針對影像創作周期中的不同核心訴求:
Magi-1:近期,實時生成的 “自回歸世界模型” 正成為全行業追捧的熱門方向,但 Sand.ai 早在近一年前,便發布了全球首個自回歸視頻生成大模型 Magi-1。它徹底告別了傳統 AI 視頻的 “慢動作” 與死板感,實現了極具爆發力的流暢動作、無限長度續寫,以及精細到 1 秒的時間控制。
![]()
GAGA-1:國內首個推出的音畫同出生成模型,主打 “AI 演員” 級別的極致表現力。解決了行業內最頭痛的 “人物不一致” 和 “表情太假” 問題,在物理規則連貫性和原生音畫同步上屢破紀錄。
![]()
在深耕底層架構與開源基建的同時,Sand.ai 展現出的另一層核心壁壘,是其將前沿技術轉化為實際應用的產品化能力。
據了解,Sand.ai 中較為低調的小團隊還推出了一款 Video Agent,主要面向海外市場。據市場反饋,該產品目前在海外大受好評,主要體現在一鍵直出視頻創作流程的智能化水平方面,海外商業化增長勢頭強勁,值得行業持續關注。
結語:Advance AI to Benefit Everyone
當 Sora 2 按下暫停鍵,AI 視頻的故事并沒有結束。Sand.ai 連續三天的開源不僅展示了其在模型、算力和編譯框架上的全棧技術實力,更向我們展示了一家頂級 AI 公司應有的姿態:既有仰望星空的技術信仰,又有腳踏實地的底層死磕,更有擁抱世界、造福開發者的開源胸懷
正如 Sand.ai 致力于將前沿技術轉化為觸手可及的生產力工具,將 “AI 演員” 和 “通用視頻生成” 變為現實。這種對底層的堅守與對應用的探索,正是實現 “Advance AI to Benefit Everyone” 這一宏大愿景的必經之路。
技術的突破從來不是一蹴而就的。在這條布滿荊棘但充滿希望的道路上,我們有理由相信,像 Sand.ai 這樣擁有清晰技術信仰、兼具科研與工程能力的 “少數派” 團隊,正悄然改變著視聽生成的未來。我們也期待,有更多擁有相同信仰、渴望在 AI 浪潮中留下扎實腳印的人才,能與他們并肩前行,共同推動 AI 技術的普惠發展。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.