![]()
文|白 鴿
編|王一粟
繼通用大模型之后,螞蟻又將“觸手”延伸到世界模型的賽道。
1月30日,螞蟻集團旗下靈波科技發布并開源了全球首個基于自回歸范式的“視頻-動作”世界模型(Video-Action World Model)LingBot-VA。
而在此之前,螞蟻靈波科技已經連續3天發布3款開源大模型,包括高精度空間感知模型LingBot-Depth、具身大模型LingBot-VLA、世界模型LingBot-World。
可以看到,基于這四款大模型,螞蟻靈波科技的技術已經覆蓋了具身智能所需要的空間感知、通用操作、世界建模與閉環控制四大能力。
顯然,這并非是簡單的一次技術發布,而是一次系統性、戰略性的技術布局亮相。
事實上,此前螞蟻在具身智能賽道的布局,更多是以投資為主。但自2025年8月螞蟻靈波科技正式成立以來,短短數月時間,就發布了這一套完整的技術體系,螞蟻在具身智能賽道的動作如此之迅速,已經完全超出了行業對其預期。
毫無疑問,具身智能是當前AI市場中最火熱的場景之一。今年CES之后,物理AI更成為行業主流趨勢,無數玩家爭相布局。
但是,盡管行業火熱,現如今卻仍處于早期階段,行業技術路徑尚未收斂,并未形成統一的技術范式,VLA/世界模型、仿真/真實數據之爭仍然不絕于耳。
與此同時,國內具身智能產業鏈中,更多企業是聚焦在本體制造或垂直場景落地,軟件棧更多依賴外部AI公司,極少有企業系統性投入底層通用模型研發。
“螞蟻靈波科技,是一個做具身智能底座的公司,所以我們更希望能夠看到基座模型能力的提升。”螞蟻靈波CEO朱興如此說道。
在沒有競爭的地方競爭,是后來者能夠進行突圍的關鍵因素之一。
避開宇樹、銀河通用等明星企業的優勢賽道,螞蟻靈波科技這種更專注于做底層基礎模型能力的打法,在全球具身智能尚未形成統一技術范式的當下,或許正是那個“定義基座”的關鍵時刻。
那么,螞蟻靈波科技這套技術體系到底能夠達到業內什么水準?以及在仍處于“戰國時代”的具身智能賽道中,螞蟻靈波科技又能夠怎么實現差異化突圍?
機器人聰明的第一步:眼、手、腦要協同
具身智能的本質,是讓機器像人類一樣進行“感知-決策-行動”這一套完成閉環的動作能力。
這其中,實現這一切的起點,是“看見”的能力。
然而,在家庭、工廠、倉儲等真實復雜場景中,透明物體、高反光表面、強逆光環境等始終是機器人視覺系統的“噩夢”。
原因在于,傳統雙目或結構光深度相機在這些場景下往往失效,導致深度圖缺失、噪聲嚴重,進而直接影響抓取、避障等下游任務的可靠性。
![]()
此次螞蟻靈波科技首發高精度空間感知模型 LingBot-Depth ,就是為了解決機器人 “ 看見 ” 的問題。
那它是怎么解決這個問題的?
核心在于“掩碼深度建模”(Masked Depth Modeling,MDM)技術。
具身智能的“看”,是建立在基于傳感器設備收集外部環境信息,所構建的三維深度圖。
而三維深度圖的本質,是給現實世界每個像素標注距離的“全視角距離地圖”。
但實際采集時,反光物體(如玻璃、鏡子)測不出深度、遮擋角落數據空白、暗光環境數值出錯等問題,會形成被稱為“掩碼區”的缺失或錯誤區域,就像一張好好的畫被摳了好幾個洞。
螞蟻靈波科技的這套技術,充當的就是“AI工匠”的角色。
其通過分析同一視角普通彩色(RGB)圖的視覺線索與場景常識,如圖像中的紋理、輪廓及環境上下文信息等,對這些“破洞”進行像素級精準補全和修正,從而輸出完整、致密、邊緣更清晰的三維深度圖。

基于此,可以讓機器人從基礎的看得見,能夠向看得更清、更準突破。
目前,該模型的性能已通過權威驗證:
在NYUv2、ETH3D等基準測試中,相對誤差(REL)較PromptDA、PriorDA等主流方法降低超70%,稀疏SfM任務中RMSE誤差下降約47%,樹立了新的精度標桿。
更關鍵的是,它并非單純算法創新,而是與硬件深度協同的成果,是基于奧比中光Gemini 330系列雙目3D相機的芯片級原始數據訓練驗證。
實測中,不更換硬件的前提下,該相機在透明玻璃、強逆光等極端場景下輸出的深度圖,完整性與邊緣銳利度均優于Stereolabs ZED等國際領先產品。
而這一突破的意義,遠超“看得更清”。
畢竟,當前行業多數方案仍依賴昂貴的激光雷達或定制結構光模組,成本動輒數千美元。
而LingBot-Depth讓百美元級雙目相機具備工業級魯棒性,直接打通了服務機器人、物流分揀、家庭助理等大規模商用場景的成本瓶頸。
如果說LingBot-Depth解決了“眼睛”的問題,那么LingBot-VLA和LingBot-World則分別構建了機器人的“手腦”與“內心世界”。
LingBot-VLA是一款面向真機通用操作的具身智能基座模型,核心優勢在于極強的泛化能力。
業界皆知,長期以來,由于本體差異、任務差異、環境差異等,具身智能模型落地面臨嚴重的泛化性挑戰。開發者往往需要針對不同硬件和不同任務重復采集大量數據進行后訓練,直接抬高了落地成本,也使行業難以形成可規模化復制的交付路徑。
那么,LingBot-VLA解決這一問題,最關鍵的一點,就在于全部采用真實世界的機器人操作數據,而不是使用仿真數據。
其數據規模從最初的3000小時,一路擴展到20000小時,全部源自真實物理世界。
更重要的一點,這些數據不僅僅是來源于單一形態的硬件機器人,而是使用了9種不同品牌和構型的雙臂機器人,包括AgileX、Agibot G1、Galaxea R1Pro/R1Lite、Realman Rs-02、Leju Kuavo 4 Pro、青龍機器人、ARX Lift2以及Bimanual Franka。
![]()
據公開資料顯示,螞蟻靈波科技的團隊自2023年開始,就與星海圖、松靈機器人等展開合作,在真實實驗室里,通過遙控操作的方式,讓機器人完成成千上萬次抓取、放置、組裝等動作。
這就使其具備了很強的泛化性,能夠讓同一個“大腦”可以無縫遷移至不同構型的機器人,并在任務變化、環境變化時保持可用的成功率與魯棒性。
在上海交通大學開源的具身評測基準GM-100(包含100項真實操作任務)測試中,LingBot-VLA在3個不同的真實機器人平臺上,跨本體泛化平均成功率相較于Pi0.5的13.0%提升至15.7%(w/o Depth)。
另外,在引入深度信息(w/Depth)后,隨著空間感知能力的增強,其平均成功率進一步攀升至17.3%,刷新了真機評測的成功率紀錄,驗證了其在真實場景中的性能優勢。
在RoboTwin 2.0仿真基準(包含50項任務)評測中,面對高強度的環境隨機化干擾(如光照、雜物、高度擾動),LingBot-VLA憑借可學習查詢對齊機制,高度融合深度信息,操作成功率比Pi0.5提升了9.92%,實現了從虛擬仿真到真實落地的全方位性能領跑。
值得一提的是,與高精度空間感知模型LingBot-Depth相互配合,LingBot-VLA還能獲得更高質量的深度信息表征,通過“視力”的升級,真正做到“看得更清楚、做的更明白”。
但想要具身智能擁有更高階的能力,就需要“預測未來”。
LingBot-World是一個開源的、支持長時序物理一致推演的世界模型,也是一個專為交互式世界模型設計的開源框架。
其主要有三個核心優勢:
能穩定生成近10分鐘的連續畫面,就算鏡頭移開再回來,里面的物體也不會變形或消失;
每秒能生成16幀畫面,操作后1秒內就能看到反饋,還能響應鍵盤鼠標操作和文字指令(比如調天氣、改畫風);
通過混合多種數據訓練,不用額外訓練就能適配新場景,比如上傳一張街景照就能生成可交互的視頻。
這三個核心優勢,也對應了世界模型所必須具備的核心能力,長時記憶能力、風格泛化性以及動作代理能力,目前全球只有谷歌DeepMind的Genie3具備類似能力。
值得一提的是,繼螞蟻靈波開源了Lingbot-world世界模型后,谷歌也宣布開放了體驗平臺,世界模型的開源開放的窗口被打開了!
可以看到,Genie3開放體驗,讓全球對世界模型的關注進一步加速,但相比較來說,螞蟻靈波已經把世界模型用到具身智能上能直接操作機器人了。
畢竟,螞蟻靈波科技不僅開源世界模型,還將其與VLA深度打通:“VLA負責輸出動作,世界模型則在執行前進行成千上萬次推演,評估不同方案的物理后果,最終選出最優路徑。”
這種“先思考、再行動”的架構,正是人類智能的核心特征之一。
它解決了當前具身智能普遍存在的“短視操作”問題,即只能完成幾步簡單動作,而無法規劃復雜流程(如廚房做飯、工廠裝配)。
綜合來看,螞蟻靈波科技這三款大模型產品都并不是獨立存在的產品,而是能夠相互結合補充,成為一套體系化的具身智能技術底座。
同時,盡管螞蟻靈波科技只做具身智能的大腦,但他們的這個大腦并不是空中樓閣,而是基于軟硬件一體化,以及真實場景數據所打磨出來的,能夠真正解決具身智能的泛化能力弱等問題。
更為重要的一點,是性價比,成本低,效果好,這使其能夠真正應用到具體場景當中。
具身智能終極進化,讓機器人學會“自主想象”
在一些簡單的場景中,通過眼、手、腦的協同,機器人能夠做的任務有很多了。但在復雜任務中,機器人做任務的成功率卻并不高。
舉個例子,煎牛排并不是只需要做把牛排放進去煎的動作,更要能夠自主判斷這個牛排是三分熟、五分熟還是全熟,這對于現階段的具身智能模型來說,是一個極大的挑戰。
而判斷牛排的熟度,所需要考慮就不僅是怎么做,更多還是要具有邏輯思考和判斷因果關系能力。
那么,怎么才能讓具身智能懂因果關系?
這就是此次螞蟻靈波科技四連發的最后一款重磅模型所要解決的問題。
LingBot-VA,是基于自回歸范式的“視頻-動作”世界模型(Video-Action World Model),它不僅能生成視頻,還能在生成未來畫面的同時推演并輸出動作序列,實現了“先想象,后行動”,直接驅動機器人在物理世界中完成復雜操作。
其核心在于提出了“因果自回歸世界建模”的新思路。
一般來說,傳統的世界模型是將“看”“想”“做”拆分為獨立模塊;而Video-Action自回歸模型在一個端到端框架內完成全部任務:
看:編碼當前視頻;
想:在潛在空間中模擬未來多步演化;
做:通過反向梯度或規劃器優化動作序列以達成目標。
其關鍵突破在于,具身智能的動作不再是“外部輸入”,而是模型內部可優化的變量。
而LingBot-VA實現這一能力的背后,主要有三個技術亮點:
其一,MoT架構,采用Mix-of-Transformer架構,將高維視頻Token與低維動作Token映射到統一潛空間。
理解這個架構前,我們先搞懂2個關鍵詞:
視頻Token是機器人攝像頭拍的畫面,被拆解成的關鍵信息塊(比如桌子、杯子的位置、形狀特征),畫面信息多、細節雜,所以叫“高維”;
動作Token是機器人要做的動作,拆解成的簡單指令(比如機械臂抬30厘米、夾爪張2厘米),信息簡潔,所以叫“低維”。
而MoT架構就是給這兩種完全不同的信息,設計了統一的處理框架,同時還能根據“畫面”和“動作”的不同特點分開優化處理(不用兩套系統各干各的)。
說白了,就是讓機器人能把“看到的環境”和“要做的動作”精準對應,如看到杯子在左邊,立刻匹配“機械臂左移”的動作,既不會讓畫面和動作脫節,又能節省計算資源,機器人反應更快。
其二,閉環推演,讓模型在每一步生成時都會納入真實世界的實時反饋,確保持續生成的畫面與動作不偏離物理現實,有效解決幻覺問題。
語言大模型的“幻覺”是瞎白話,而機器人的“幻覺”則是瞎猜動作,比如沒看到杯子還伸手去抓,或者抓了東西沒確認,就腦補“抓到了”繼續下一步,最后全錯。
閉環推演就是給機器人加了“實時核對”的機制,即做一個動作(比如伸手抓杯子),立刻用攝像頭看真實環境的變化(到底抓到沒、杯子位置變沒變),把這個真實反饋和自己預想的結果對比,不對就馬上調整下一步。全程不腦補、不瞎猜,確保每一步動作都和當下的真實環境匹配,從根上避免了因“想當然”而出錯。
其三,異步推理能力,是機器人一邊執行當前動作(比如正在拿杯子),一邊規劃下一個動作(比如下一步倒水),不用等當前動作做完再想,效率翻倍。
不過,在LingBot-VA中,“異步推理”并非簡單的“邊做邊想”,而是一套結合實時反饋修正、緩存管理、并行計算調度的完整技術方案。
其核心是解決“同步推理時計算與執行相互等待”的latency瓶頸,同時避免“盲目并行導致的軌跡漂移”。
基于此,LingBot-VA不僅考題通過率拉滿,還解決了機器人容易“越做越歪”的老毛病。
![]()
真機評測中,LingBot-VA在多項高難操作任務上性能超越業界標桿 Pi0.5
在機器人行業公認的LIBERO、RoboTwin兩大測試基準中,這套架構讓復雜任務的成功率分別達到98.5%和92%+,相當于在標準考題里幾乎都能做對,成績遠超之前的技術。
更關鍵的是,其解決了長時漂移的問題。
傳統機器人做多步驟復雜任務(比如開冰箱→拿牛奶→關門),可能第一步開冰箱有點小誤差,后面沒校準,誤差越積越大,最后拿不到牛奶還撞冰箱。
而LingBot-VA因為每一步都有閉環反饋校準,小誤差會被及時修正,不會累積,不管任務有多少步驟,機器人的動作都能保持準確,不會越做越歪。
值得一提的是,該大模型還具備快速適配能力,得益于大規模多源數據預訓練,面對全新的機器人平臺或任務(無論是單臂、雙臂還是長時序操作),僅需5到10條演示數據即可完成適配。
通俗理解,傳統機器人學新任務、適配新機型,得喂成百上千的教學視頻,花大量時間訓練。
LingBot-VA在面對新機器人(比如換個新機械臂)或新任務(比如教機器人拿快遞)時,只需要30~50條數據進行后訓練,它就能快速學會并適配,不用重新大規模訓練,學新東西的速度和成本都大幅降低。
從行業視角看,LingBot-VA的出現,標志著具身智能正從“模仿學習”向“生成式推理”躍遷。過去,機器人依賴大量人類演示;未來,它們將具備自主想象、評估、選擇的能力。
如DeepMind在Genie論文中所言:“我們不是在教機器人如何行動,而是在教它如何想象世界。”
從基模到應用,螞蟻的AGI“野心”
盡管螞蟻只做具身智能的大腦,但其從一開始就沒打算單打獨斗。
LingBot-Depth是與奧比中光聯合研發;數據采集階段用到了星海圖、松靈的硬件平臺;預訓練階段有樂聚、庫帕思等多家企業提供高質量數據支持。
而得益于其此前的資本布局,螞蟻在具身智能底座成型后,更容易實現其商業化落地。
此前,螞蟻已經投資了宇樹科技、星塵智能等從上游靈巧手到下游場景應用的全鏈條企業,還通過合資公司等形式與智元機器人保持緊密合作。
由此來看,隨著自研團隊(螞蟻靈波科技)與被投企業(星塵、首形、靈心巧手等)協同發展,螞蟻有望在2026–2028年推動人形機器人在零售、文旅、金融網點等場景實現規模化商用。
當然,這種“自研基座+生態協同”的模式,也剛好契合了行業發展的關鍵節點。
2024-2025年上半年,具身智能行業還處在“Demo比拼期”,但從2025年下半年開始,市場將進入大量的“訂單驗證期”,商業交付能力,成為了衡量具身智能企業的關鍵因素之一。
因此,邁入2026年,具身智能賽道玩家必須要拿到實際的訂單,甚至開始有實際交付,才能證明公司具備從產品設計、供應鏈穩定到市場需求的全鏈條閉環產品落地能力。
螞蟻靈波科技“專注基座”的選擇,也恰好踩中了行業痛點:
很多機器人企業有本體制造能力,卻缺乏底層通用模型,螞蟻靈波科技的開源戰略,則讓這些企業能低成本接入頂尖技術。
隨著“螞蟻靈波科技”系列連續發布四款具身領域大模型,螞蟻的AGI戰略,已經實現了從數字世界到物理感知的關鍵延伸。
![]()
這也標志著,螞蟻“基礎模型-通用應用-實體交互”的全棧路徑已然清晰。
而螞蟻集團AI戰略的核心,可以理解為“雙輪驅動”:一邊用AI深耕應用場景(生活、金融、醫療三大賽道),一邊不放棄基礎大模型研發,探索智能上限。
通用語言大模型上,螞蟻百靈大模型已經躋身萬億參數模型陣營;AI應用領域,螞蟻旗下的AI健康應用阿福,成為國內首個月活超千萬的AI健康應用;11月則發布了全模態通用AI助手“靈光”。
而此次深度布局具身智能賽道,則是其將AI從虛擬世界帶入物理世界的關鍵探索。
在全球具身智能尚處“戰國時代”的今天,群雄逐鹿之下,螞蟻的選擇清晰而堅定:不做封閉的“黑盒”,而做開放的“地基”。
顯然,在行業從“講故事”轉向“看落地”的2026年,筑基者比造車者更稀缺,也更關鍵。
這場物理世界AI從“看清”到“想象”的進化,才剛剛開始。而螞蟻,顯然已經站在了地基之上。
此外,除了自身技術產品體系外,在探索AGI這條路上,螞蟻也一直做開源生態的布局。
據螞蟻靈波科技CEO朱興介紹,螞蟻集團堅定以開源開放模式探索 AGI,為此打造 InclusionAI,構建了涵蓋基礎模型、多模態、推理、新型架構及具身智能的完整技術體系與開源生態。
這一開源開放的核心策略,不僅能加速螞蟻 AGI 版圖的擴張,更能匯聚海量生態伙伴,成為推動 AI 應用從移動互聯網向物理世界邁進的關鍵動力。
縱觀其在AI賽道上的諸多動作,可以看到螞蟻已完成了從通用基礎大模型,到AI應用,再到物理AI世界的體系化技術能力和產業應用的生態布局。
顯然,在這場邁向AGI的道路上,螞蟻已正式上站上AI競爭的牌桌,開始跟全球玩家掰手腕。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.