<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      對話螞蟻靈波首席科學家沈宇軍:2萬小時真機數據,用“慢功夫”做具身智能|甲子光年

      0
      分享至



      在基座模型階段,螞蟻靈波選擇那條“慢”但正確的路。

      作者|周悅

      編輯|王博

      1956年的好萊塢電影《禁忌星球》里,有一個名叫Robby的機器人。

      它力大無窮、邏輯嚴密,卻被設定了一條不可違背的禁令——不能傷害人類。這是人類對機器人走入現實世界最早的想象之一。


      Robby機器人(圖左),圖片來源:電影《禁忌星球》

      七十年后,這個名字在螞蟻集團(以下簡稱“螞蟻”)內部被重新提起。從Robby到Robbyant,最終定格為旗下具身智能公司的名字“螞蟻靈波”。

      此前,外界對螞蟻靈波的認知,大多停留在2025年外灘大會上那臺會炒菜的R1機器人,一個生動直觀,但更像技術層面展示的Demo。


      Robbyant-R1,圖片來源:螞蟻靈波

      但在2026年1月底,這種印象被迅速改寫。

      短短一周內,螞蟻靈波密集發布了四個具身智能模型:LingBot-Depth、LingBot-VLA、LingBot-World、LingBot-VA,并同步開放了模型權重、代碼。LingBot-Depth還將開源200萬對高質量RGB-深度配對數據集,LingBot-VLA 開源了完整后訓練工具鏈。

      不同于行業常見的“半開源”,這幾乎是一次將工程體系整體攤開的發布,在開源社區引發不小反響。

      其中,LingBot-World引發的關注度最高。作為世界模型,它能夠生成高保真高動態的物理交互場景,效果直觀,肉眼可見,迅速登頂X平臺科技板塊熱榜和Hugging Face熱門論文榜。

      但如果只看這一次“出圈”,反而容易忽略螞蟻靈波真正的選擇。

      在具身智能領域,技術路線尚未收斂,選擇并不少。螞蟻靈波選擇的,卻是一條更慢但更扎實的路線。

      在 VLA 模型的訓練中,螞蟻靈波團隊聯合星海圖、松靈機器人等合作伙伴,積累了涵蓋 9 種主流雙臂機器人配置、總計約20,000 小時的真實世界操作數據,是當前開源社區中真機數據規模最大的VLA 模型。在 GM-100 的真機測評中,取得了標志性意義的高分,超越了Pi0.5。

      同時,螞蟻靈波團隊還堅定布局具身世界模型,率先推出了業界首個自回歸視覺—動作世界模型。這背后是螞蟻靈波作為具身世界模型拓荒者,對下一代具身模型技術路線的判斷。LingBot-VA 發布不到一周,英偉達也發布了 VA 模型。

      螞蟻靈波為什么偏要選擇這條難走的路?

      近期,在接受「甲子光年」專訪時,螞蟻靈波首席科學家沈宇軍給出的判斷是:具身智能仍處于“GPT-1時刻”。在他們看來,數據稀缺、范式未定,這是一場沒有捷徑可走的硬戰。

      這一判斷并非憑空而來。

      在學術訓練之外,沈宇軍經歷過從算法研究到真實落地的反復試錯。這讓他對模型能力與工程現實之間的差距格外關注。正因此,他更傾向于將當前階段視為具身智能的“GPT-1 時刻”,而不是押注短期可見的效果。

      基于“GPT-1時刻”這一判斷,螞蟻靈波團隊構建了一套打持久戰的完整體系:

      • LingBot-Depth:解決感知層“看不清”的問題,為上層模型提供穩定、精準的視覺輸入;

      • LingBot-World:負責世界模擬與數據生成,緩解真實數據不足的問題;

      • LingBot-VLA:基于海量真實數據,學會如何執行基礎動作;

      • LingBot-VA:引入因果預測,探索更高層次的規劃和控制能力。

      沈宇軍將這套體系形容為“四個模型‘一盤棋’”,它們是同一系統中的不同模塊,而非彼此獨立。

      在團隊內部,圍繞取舍的爭論并不少見,甚至會“拍桌子吵架”。但一旦方向定下,所有人又會擰成一股繩死磕到底。這也決定了這支團隊的氣質:一支愿意啃硬骨頭的隊伍。

      從百靈大模型,到靈光、阿福等AI助手,再到今天把模型推向物理世界的靈波,螞蟻在AI路徑上補上了此前缺失的一段,一條“基礎模型-通用應用-實體交互”的全棧路徑,正在清晰浮現出來。

      1.四個模型“一盤棋”

      甲子光年:螞蟻集團一直被看做金融科技企業,這次突然密集發布四個具身智能模型,確實讓很多人意外。首先好奇一個問題,螞蟻靈波這個名字有什么特殊的來歷嗎?

      沈宇軍:這挺有意思的。Robby是好萊塢科幻電影(《禁忌星球》)里最早的機器人名字之一。而我們團隊又來自螞蟻,所以就叫Robbyant

      而在中文里,Robby的音譯正好是“靈波”,跟我們的百靈大模型(Ling)一脈相承。具身模型叫LingBot,既是Ling系列的延伸,同時讀快一點也很像“靈波”,代表了我們對機器人靈動、敏捷的最初想象。

      甲子光年:帶著螞蟻的光環,又正好撞上Google Project Genie的時間點上發布,你們覺得當前的反饋符合預期嗎?

      沈宇軍:整體上還是符合預期。我們是2024年11月成立,過去一年幾乎沒有對外發聲。

      具身智能模型跟大語言模型不太一樣,C端用戶很難立刻感知。更多還是同行、專業人士的反饋。我們也更愿意把評價權交給社區——模型、代碼、權重、數據集都開源了,好不好用,由社區來給出真實判斷。

      甲子光年:這次一口氣開源了LingBot-Depth、LingBot-VLA、LingBot-World、LingBot-VA四個模型。這是四個模型框架是一開始就規劃好的嗎,還是迭代出來的?

      沈宇軍:從一開始我們就比較篤定。機器人最終要部署在物理世界里,繞不開兩個核心問題:一是輸入端,也就是機器人能獲取哪些信號;二是智能端,拿到這些信號之后,如何形成決策。

      這次發布的一些模型,比如 LingBot-VLA、LingBot-VA,都是我們在這兩個方向上的探索。但坦率講,我們也清楚,這還遠遠不夠。我們更希望,具身智能最終能形成一套屬于自己(螞蟻靈波)的范式。

      對我們來說,內部始終只有“一盤棋”。這四個模型是同一張大拼圖里的不同模塊,只是隨著進展逐步釋放出來。所以這次大家看到的這些模型,其實只是這盤棋中的一些局部碎片。

      甲子光年:這四個模型之間怎么串成一條完整的路徑?

      沈宇軍:機器人最終部署在物理世界里,傳感器誤差和硬件誤差是繞不開的現實問題。LingBot-Depth對應最底層感知能力,輸入層數據質量,基本決定智能層上限,未來螞蟻靈波的大多數模型都會用到它。

      比如在LingBot-VLA里,我們展示過一個用法,把LingBot-Depth的特征蒸餾進去,解決空間盲視的問題。

      這次發布的LingBot-World和LingBot-VA,則是探索性的嘗試。

      整個行業目前都面臨同一個問題:數據依然緊缺。在數據有限的情況下,想真正通過Scaling Up把模型能力完全釋放出來,為時尚早。

      在無法完全釋放Scaling Up潛力的情況下,我們階段性地借助了數字世界中已經完成Scaling的模型能力,如多模態和視頻生成模型,來作為過渡。

      我們一直在嘗試把這些數字世界中預訓練好的能力,引入到具身智能里,這正是LingBot-VLA和LingBot-VA出現的背景。當然,在實踐中我們也發現,它們本身同樣存在局限。

      而LingBot-World則是我們在驗證技術路線時的“沿途下蛋”。

      甲子光年:這也正是外界最好奇的點。LingBot-World在C端的關注度最高,很多人覺得它更像AIGC或視頻生成,為什么你們反而說它是“沿途下蛋”?

      沈宇軍:確實有不少人會覺得,LingBot-World看起來和具身智能有點遠,但其實不是這樣。

      在內部,LingBot-World和LingBot-VA并不是兩條獨立路線,而是耦合得非常深,甚至可以說是同一套技術體系的不同側重,前者更多使用通用數據,后者更多使用具身數據。

      底層的數據引擎、代碼框架和優化方法,都高度共通。只是這次對外發布時,我們沒有把這些細節全部展開。

      之所以說它是“沿途下蛋”,是因為在最早做具身智能時,我們并不能確定視頻生成這條路一定能走通,而世界模型這個方向可以更快給我們反饋,比如長時間推理能力和生成質量。

      如果一項技術在世界模型里都跑不通,它在具身智能中大概率也走不遠;反過來,視頻生成能力越強,其實對機器人是有正向收益的。從這個角度看,這些模型最終指向的都是同一個目標:具身智能

      甲子光年:這套架構大概是什么時候定型的?中間有過自我懷疑的時刻嗎?

      沈宇軍:大概在2025年11月左右,我們已經看到了比較有希望的結果,那時每一條路線大概都做到了80%。倒沒有覺得“完全走不通”的時刻,但真正難的是后面那20%。那是一種持續的消耗感。我們沒有哪一刻想過放棄,更多是覺得“煎熬”。因為從驗證到真正達到工業級標準,這個過程比我們最初預想的要困難得多。

      甲子光年:下一步的目標是什么?

      沈宇軍:這次發布之后,我們對這兩套模型的邊界有了比之前更清楚的認識——不敢說已經完全明晰,但至少看到了各自的短板。

      往下看,我們大致會采取“兩條腿走路”的方式:一方面持續積累具身智能數據;另一條方面等數據量達到一定規模后,從零搭建真正面向具身智能的預訓練模型,而不再依賴VLM或視頻生成模型。這條路徑有點類似自動駕駛的發展過程。

      在數據尚未積累到那個階段之前,這兩套模型仍然會結合使用。至于具體如何結合,可以關注我們后續的工作。

      2.LingBot-VA是關鍵下注

      甲子光年:這次發布的LingBot-VA技術路線備受關注。它的出發點是什么?想要解決主流VLA路線的什么痛點?

      沈宇軍:當前主流VLA路線的邏輯是“看圖說話”:給一張圖像,加上預訓練好的語言或視覺語言模型,預測下一步動作,這條路是有效的。

      但在機器人領域,它缺失了一個關鍵要素Dynamic Prior(動態先驗)。機器人本身在學動作,而圖片本身沒有動作信息。

      所以一個很自然的想法是,能不能引入視頻層面的先驗?因為視頻本身記錄了人和物體的動作。這也是LingBot-VA模型設計中最簡單、也是最直接的一層哲學。

      當模型已經見過各種各樣的操作視頻之后,即便在下游只用少量任務數據進行fine-tune或adaptation,它本身也已經具備了動作層面的經驗。

      甲子光年:這種引入“視頻先驗”的思路在實際任務中有什么具體優勢?

      沈宇軍:最大的優勢是記憶能力。舉個例子,讓機器人擦三次盤子。對VLA來說,第一次擦完和第二次擦完,看到的畫面(Observation)幾乎是一樣的。

      如果沒有記憶,模型就會陷入“看到盤子——去擦”的死循環,一直擦下去。但LingBot-VA采用的是自回歸結構,天然具備比較好的記憶能力。在這些 memory test(記憶測試)上,它的表現會顯著優于VLA架構。

      其次是少量樣本下的泛化能力。現在機器人在部署到新的環境時,通常都需要重新采集一些數據。而VA的核心優勢在于,它的視頻先驗已經編碼了大量的動態信息。

      模型中學到的動作先驗越強,在面對沒有見過的新場景時,模型進行 adaptation 所需要的新數據就越少。

      甲子光年:在LingBot-VA模型里,最難的部分是偏模型結構本身,還是在推理系統和工程化部署上?

      沈宇軍:難點主要在工程部署這一塊。模型結構本身的收斂,我們其實在比較早期就已經跑通了。后續更多的工作,主要集中在數據的scaling up,以及訓練效率的優化上,但這些本質上都屬于infra層面的事情。

      真正給我們帶來比較大挑戰的,是模型在真實系統里的部署,這也是我認為目前VA相比VLA 的一個明顯劣勢。

      在真機部署中,我們遇到的第一個問題就是延遲顯著上升。測試結果顯示,VLA 通常可以控制在100 毫秒左右,而 VA 往往需要300–400毫秒,差距主要來自視頻生成帶來的額外開銷。

      因此,我們在工程上投入了大量精力去做異步推理框架以及系統側的加速優化

      甲子光年:這似乎有個矛盾,VA好像去掉了中間的language(語言)層,這聽起來更像人類的肌肉記憶或者下意識的動作,理論上應該推理速度更快,但實際驗證推理反而更慢,這矛盾嗎?

      沈宇軍:我覺得不矛盾。首先需要澄清,VA并不是沒有language,模型仍然通過語言來接收人類指令,這一點和直覺理解可能不太一樣。

      第二是關于推理速度。速度更多取決于工程和infra(基礎設施)層面的優化,而不是模型范式本身。更現實的問題是,現有的工程基礎設施,能否支撐這種范式把速度提上來,這也是接下來需要解決的核心問題。

      最終都是輸入輸出形式相同,差異在于中間的對齊順序。傳統VLM是先對齊vision和language,VLA則是在這個vision–language空間里,再把action往里對齊。

      而VA強調的是另一條路徑:先對齊 video(motion、dynamics)和 action,也就是先解決“怎么動”。最終都是輸入輸出形式相同,差異在于中間的對齊路徑。

      第二點是推理速度。VA在理念上確實更接近人類的肌肉記憶或下意識動作,這個理解沒問題。

      現在慢,并不是因為這種范式本身慢,而是因為實現方式還依賴像素級的視頻生成,需要先把畫面“畫”出來。這一步在訓練階段很有價值,但對實時推理并非必要。

      從長期看,隨著具身數據規模擴大,更適合機器人實時執行的預訓練模型會出現。到那時,基于動作和動態的“肌肉記憶”,反而可能比當前這種顯式推理更快。

      甲子光年:LingBot-VA真機部署時遇到哪些典型問題?

      沈宇軍:最大的問題還是幻覺。視頻模型有時候會“無中生有”,比如桌上明明沒有瓶子,模型生成畫面里卻多了一個瓶子,導致機械臂去抓空氣。

      目前的解法是提高刷新率,一幀一幀地生成和修正。只要刷新得夠快,利用真實世界的觀測不斷校準,單幀的幻覺就不會累積錯誤。另一個方向是后訓練獎勵模型、引入強化學習去約束幻覺,這也是持續探索的方向。

      甲子光年:再聊聊LingBot-World。它發布時正好撞上Google Project Genie更新,C端討論很熱烈。你們怎么看待 LingBot-World 和 Genie3、Sora這兩個模型的異同?

      沈宇軍:我其實不太想用“差異”這個詞來形容,更準確地說是定位不一樣

      如果和Sora放在一起看,我覺得通義萬相、Sora、Veo 3、可靈,這些本質上是一條賽道,它們的目標是做視頻生成的基模

      而我們和 Genie3并不是在做一個基模,我們是基于已有模型,在后面做世界建模相關的事情。嚴格來說,我們更像是視頻生成體系里的一個子方向,而不是最大的那條主賽道。

      LingBot-World生成場景,視頻來源:螞蟻靈波官網

      甲子光年:如果把LingBot-World和Genie 3做一個更直接的對比呢?

      沈宇軍:Genie 3發布更早、迭代更久,很多關鍵能力并沒有開源,我們也很難做真正意義上的對比。

      還有一個繞不開的因素是算力體系。Google 很大的優勢在于TPU。舉個例子,TPU架構對Ring Attention(環狀注意力)這類技術非常友好。但在GPU體系下,卡間的通信帶寬會受到限制,要在工程上實現同等性能,難度大得多。

      我們的模型是真正開源出來的。如果開發者想改模型結構、想做二創,那在LingBot-World這條路線上,這是可以做的。

      甲子光年:你們的世界模型最終會走向哪里?會獨立成一個產品嗎?

      沈宇軍:LingBot-World并不是一個獨立存在的終點,它最終一定會回到機器人。

      開發世界模型是為了驗證視頻生成路線在具身智能中到底行不行——這叫“沿途下蛋”。如果視頻生成都做不好,那基于視頻的機器人控制就更別想了。

      可以期待下一版LingBot-World,會和機器人更貼近。到那個階段,大家可能就不會再覺得LingBot-World和LingBot-VA像是兩條分開的線。

      LingBot-VA已經在這一步做了一些探索。

      3.具身智能Scaling Law的“隱形陷阱”

      甲子光年:在LingBot-VLA的論文標題里,你們用了一個詞Pragmatic(務實的)。為什么要特意強調“實用性”?

      沈宇軍:這次更多是面向開源社區。過去半年里,“超越Pi0.5”的說法很多,但實際情況是,Pi0.5依然是被大量高校和研究者實際使用的好模型。既然大家還在用,它一定有價值。

      我們強調pragmatic,不是為了宣稱超越誰,而是希望把模型真實地交出來,讓社區自己評測。所以這次發布里,我們沒有刻意談“超不超越”,而是把模型、后訓練與加速優化的完整代碼一并開源。

      很多“開源”其實只是“半開源”,但這次我們把模型、代碼,甚至部分數據集都放出來,尤其LingBot-VLA連后訓練代碼庫也全部開放。只有真正被用起來,問題才會暴露,這正是我們開源的初衷。


      LingBot-VLA模型概要,圖片來源:螞蟻靈波官網

      甲子光年:驗證ScalingLaw用了2萬小時數據和9種機器人構型。這對外界來說可能只是一個數字,但在工程上究竟意味著什么?

      沈宇軍:外界容易輕視工程,覺得無非是把2000小時的數據難度乘以10倍。但我們發現復雜度是指數級上升的。很多“坑”只有數據量大到一定程度,才會發現并且掉進去。這背后有三個原因。

      第一,國內真正訓練過2萬小時規模VLA、還把模型開源出來給社區用的公司很少。2萬小時訓練數據背后,前端采集量遠不止2萬小時,中間有數據漏斗:采集、清洗、篩選都會損耗。

      第二,我們做 LingBot-VLA 不是為了證明能力,而是希望社區真的能用起來。所以除了模型本身,我們在代碼庫、訓練流程和復用性上都下了很多功夫,目標不是demo,而是可落地。

      第三,也是最重要的一點:這種規模的數據和模型,本質上是一個系統工程。包括數據如何組織、管線如何設計、如何穩定處理;這次我們做了大約300個任務的評測,同時跑五六個模型,本身就是非常復雜的工程協同。

      這種復雜度,不是單一科研機構能解決的。我們先把這些坑踩一遍,再把結果開源給社區。


      LingBot-VLA 9種機器人本體,圖片來源:螞蟻靈波官網

      甲子光年:哪些“坑”讓你們覺得很suffer?

      沈宇軍:很多所謂的“坑”,只有在數據量達到一定程度才會暴露出來。比如數據規模上來后,存儲怎么設計?高并發訪問、訓練調度怎么做?多團隊協作時流程如何對齊?

      如果系統設計不到位,就會出現大量隱性問題:數據被重復處理、被刪掉又重新拉回;某一輪質檢沒通過,但信息沒同步,下游仍然當成合格數據;模型訓練異常,最后追溯發現問題出在很早期的數據處理階段。排查這些問題的成本,遠遠高于調模型或換結構。

      其實模型架構本身,我們很早就定型了。但從架構定型到最終發布,中間消耗精力最多的,并不是算法設計,而是系統工程、流程設計和協同問題。

      所以這次把模型、代碼、后訓練腳本盡量完整地開源,希望后來的研究者不用再從 0 到 1 把這些坑重新踩一遍,站在新的起點往前走。

      4.“我們還在GPT-1時刻”

      甲子光年:在具身智能數據路線上,你們堅定地選擇了“真機數據”,而對“合成數據”持保留態度。為什么?

      沈宇軍:這兩條路線這兩年討論很多,我們的選擇相對明確:在具身智能的基座模型階段,更傾向真實數據。

      我們更堅定選擇真實數據,是基于工業界的判斷。真機采集降本的速度,會快于物理引擎質變的速度。

      如果是“成本高”,隨著設備升級和工具鏈成熟,行業總能把價格打下來;但如果是“物理保真度”不夠,那需要基礎科學和頂級人才的漫長攻關。

      作為一家做基座模型的公司,我們必須讓模型學習真實的物理規律。當然,仿真數據在后訓練階段依然有價值,但在基座模型階段,我們選擇那條“慢”但正確的路。

      甲子光年:這次推進如此徹底的開源(包括代碼和數據管線),背后的考量是什么?

      沈宇軍:原因很簡單。不想做井底之蛙,也不想讓大家重復造輪子。具身智能還處在技術路線未收斂的早期。只靠內部評測,很容易陷入思維盲區;只有讓社區用起來,才能發現那些我們預料不到的bug和用法。

      學界不缺想法,缺的是一個“能站上去的底座”。我們提供底座,讓大家在此基礎上往前走,而不是每個人都從0到1去復現一遍基礎工作。

      甲子光年:你們有沒有考慮過做一款自己的機器人本體?

      沈宇軍:從個人直覺上判斷,機器人很難出現一種構型通吃所有場景的情況。平整地面適合輪式,復雜地形需要足式。不同場景對負載、速度、成本的要求天差地別。

      如果具身智能想在足夠多的真實場景落地,它必須是跨本體的。除非未來真出現了通用本體,但在現階段,我們更傾向于做一套適配不同身體的通用大腦。

      甲子光年:類比語言模型,你覺得具身智能模型現在大概處在什么階段?什么時候能被看作GPT-3時刻?

      沈宇軍:我個人覺得可能還在GPT-1階段

      一個核心問題是,行業里還沒有一個真正屬于具身智能的原生預訓練模型。我們在用多模態模型、視頻模型,是在拼湊能力。

      它們各有優勢,也有明顯短板,如果我們想改底層邏輯,會發現改不動,因為沒有一個為物理世界量身定制的基座。

      我認為GPT-3時刻是數據量足夠大,從頭訓練出了那個原生的具身基座那時它不再是生成視頻,而是天生理解物理交互、高效執行動作。

      甲子光年:那什么時候算是ChatGPT時刻?

      沈宇軍:在我看來,ChatGPT時刻發生在有了基模之后,大家找到了一種方式,讓它可以非常快速地適配不同機器人和不同任務。

      比如one-shot、five-shot,人類示范幾次,它就能學會一個新任務。如果做到這一步,機器人行業才真正具備大規模發展的可能性——任何團隊只要采幾條數據、微調一下就能跑通新任務——機器人行業才真正具備了大規模爆發的可能。

      甲子光年:距離GPT-3時刻還有多遠?

      沈宇軍:我個人的判斷是,至少三年。這個時間其實可以拆成三步:

      • 第一,解決數據怎么采(高效采集);

      • 第二,解決數據怎么選(質量分布與Scaling);

      • 第三,真正訓出原生基礎模型。

      如果樂觀一點看,也許可以一年解決一個關鍵問題。如果整個行業是在一起加速,我個人認為2026、2027、2028年,有可能分別跨過這些節點。

      5.螞蟻靈波的“MagicMoment”

      甲子光年:螞蟻切入具身,出乎很多人意外,做具身智能,你們真正的“獨門武器”是什么?

      沈宇軍:如果一定要選一個最核心的優勢,我會先說團隊本身

      這支團隊在想象力、工程能力和“啃硬骨頭”的耐力上,都非常強。大家過去分散在不同技術方向,各自積累了不少能力,借著機器人這個新賽道,真正擰成了一股繩。

      另一點也需要客觀地說,螞蟻集團在AI方向上的長期投入,為我們提供了非常扎實的基礎設施底座

      無論是算力、存儲,還是整體工程體系,這些能力本身并不是為靈波單獨準備的,但在這次快速迭代過程中,起到了關鍵支撐作用。

      甲子光年:聽說你們內部在研發過程中也有不少爭論?

      沈宇軍:是的。但我們最大的優勢是彼此相信。大家的爭執不是為了針對個人,而是為了技術路線。我們允許激烈的沖突,但一旦事情定下來,所有人都會沿著既定方向死磕。

      這一點我其實挺自豪的。對于一個以Researcher(研究員)為主的團隊,最怕的不是沒人才,而是人才太多、方向不統一,最后變成一盤散沙。

      甲子光年:在大廠做研究,會面臨OKR的壓力嗎,你們如何平衡學術探索和商業落地?

      沈宇軍:這是一個OKR方式的問題。我不認為我們擁有絕對的“學術自由”,我們擁有的是“路徑自由”

      首要原則是目標不能變,手段可以變。今年要攻克這個問題,此路不通就換條路,但一旦定下目標,這座山頭必須拿下。

      其次是不做空中樓閣。我們做的一切研究,哪怕短期落不了地,也必須是奔著“未來能落地”設計的。如果一個Idea純粹為了新穎性,完全不考慮落地,我們堅決不做。

      甲子光年:回看過去一年,對你個人或團隊來說,有沒有一個特別的Magic Moment?

      沈宇軍:我會選2025年11月底。那是LingBot-Depth模型第一次在真實測試中跑贏現有方案的時刻,這打響了第一槍,讓我們相信這條路能走通。

      我們第一次看到一個接近工業級標準、真正“走得通”的結果,也讓我們開始認真思考能不能把這些模型串起來,作為一個整體來推進,甚至一起開源。

      在那之前,大家其實都很辛苦,但一直沒有看到一個明確的正反饋。那一刻算是第一次看到方向是對的。從那之后,團隊整體的信心明顯提升。

      另一個對我個人比較有感觸的節點,是2026年1月15日,四個模型全部封版。那意味著模型不再迭代,只為發布做準備。對我來說,更像是給自己、也給團隊交了一份階段性答卷。

      甲子光年:封版那一刻,團隊有沒有什么儀式感的慶祝?比如吃頓大餐,或者給自己放個假?

      沈宇軍:那倒沒有,封版后只是代碼不再動了,但人還得接著熬。過去這一年,我們取消了原本的團建,大家都很拼,一直到模型正式發布,才稍微喘了一口氣。

      甲子光年:不過我們看近期看國內外開發者對這些模型的評價還不錯。

      沈宇軍:反饋到底算不算好,其實我們自己不敢下判斷,我不喜歡夸大成果。這次的技術報告,我們堅持只陳述客觀事實。既然選擇了開源——模型給了,代碼給了,權重也給了——那評價權就在社區開發者手里。喜歡也好,不喜歡也好,我們更希望聽到真實的聲音。

      甲子光年:2026年,你們有什么計劃?

      沈宇軍:我認為有三個重點。

      • 第一,數據的scale up,這是最核心的基礎。

      • 第二,我們已經比較清楚地看到了多模態和視頻生成各自的短板,接下來會更有針對性地補這些問題,把它們的優勢真正發揮出來。

      • 第三,是移動能力。這次發布主要集中在操作(manipulation),移動相關還沒有展開。今年在移動和探索能力上,我們會有一些新的進展。

      機器人遲早會遇到一個問題:被放進一個完全陌生的環境時,怎么辦?沒有高精地圖、沒有GPS,只告訴它“我要去某個地方”,它能不能自己探索、找到路徑。我覺得這是機器人真正落地時,非常基礎、也非常關鍵的能力。

      甲子光年:如果把靈波當成一個人來看,你們覺得他現在大概幾歲?

      沈宇軍:那就是一歲吧。靈波去年成立,到現在正好一歲。

      (封面圖來源:電影《禁忌星球》)

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      程瀟為什么被稱為“奶瀟”?看了這張圖片后秒懂,不愧是內娛身材數一數二的女明星!

      程瀟為什么被稱為“奶瀟”?看了這張圖片后秒懂,不愧是內娛身材數一數二的女明星!

      背包旅行
      2026-02-02 15:03:55
      下課僅 1 個月!曼聯棄帥竟要接手歐洲豪門,穆里尼奧成最大推手

      下課僅 1 個月!曼聯棄帥竟要接手歐洲豪門,穆里尼奧成最大推手

      瀾歸序
      2026-02-12 03:14:56
      碧桂園楊惠妍被通報批評

      碧桂園楊惠妍被通報批評

      時間財經
      2026-02-11 16:57:30
      3度遷徙!張本智和官宣遷居德國,日本隊措手不及,妹妹會跟風嗎

      3度遷徙!張本智和官宣遷居德國,日本隊措手不及,妹妹會跟風嗎

      卿子書
      2026-02-01 14:59:33
      董璇夫婦帶老人三亞過年,小年夜吃海鮮大餐,張維伊過年不孤單了

      董璇夫婦帶老人三亞過年,小年夜吃海鮮大餐,張維伊過年不孤單了

      觀察者海風
      2026-02-11 22:11:28
      彭德懷欲用4個師圍殲陸戰一師,毛澤東急電:人數不夠,加上26軍

      彭德懷欲用4個師圍殲陸戰一師,毛澤東急電:人數不夠,加上26軍

      歷史龍元閣
      2026-02-11 08:15:10
      破案了!看了牢A的直播后,終于知道宋祖兒為什么會被全網黑了!

      破案了!看了牢A的直播后,終于知道宋祖兒為什么會被全網黑了!

      樂悠悠娛樂
      2026-01-22 08:57:21
      說句扎心的大實話,咱們在南海的“牌”,一開始爛到家了。

      說句扎心的大實話,咱們在南海的“牌”,一開始爛到家了。

      南權先生
      2026-01-27 15:44:44
      以總理被曝向特朗普提要求:與伊朗的協議不應設置到期時間

      以總理被曝向特朗普提要求:與伊朗的協議不應設置到期時間

      財聯社
      2026-02-12 02:44:05
      王室默契!索菲公爵夫人戴凱特同款圍巾,10 年老西裝穿出高級感

      王室默契!索菲公爵夫人戴凱特同款圍巾,10 年老西裝穿出高級感

      述家娛記
      2026-01-15 15:52:25
      女子婚禮穿低胸婚紗遭熱議,現場尷尬全程用紙巾遮擋。

      女子婚禮穿低胸婚紗遭熱議,現場尷尬全程用紙巾遮擋。

      特約前排觀眾
      2026-02-11 00:05:07
      吉利與欣旺達和解,獲6億賠償,極氪召回超3.82 輛汽車

      吉利與欣旺達和解,獲6億賠償,極氪召回超3.82 輛汽車

      車圈小隆哥
      2026-02-12 02:08:51
      醫生忠告:肺癌早期不是咳嗽,而是頻繁出現這3癥狀,千萬別忽視

      醫生忠告:肺癌早期不是咳嗽,而是頻繁出現這3癥狀,千萬別忽視

      健康之光
      2026-02-09 16:40:05
      女兒接母親去美國養老,過海關時,外孫女突然用中文說了句話,她當場愣住,連夜買了回國的機票

      女兒接母親去美國養老,過海關時,外孫女突然用中文說了句話,她當場愣住,連夜買了回國的機票

      LULU生活家
      2026-01-27 13:35:37
      7年敗光2個億,鄒市明冉瑩穎共同發文,終究還是踏出了這一步

      7年敗光2個億,鄒市明冉瑩穎共同發文,終究還是踏出了這一步

      明天見灌裝冰塊
      2026-02-12 01:25:24
      南加州一比基尼咖啡廳被查封!十多名咖啡女郎被捕

      南加州一比基尼咖啡廳被查封!十多名咖啡女郎被捕

      大洛杉磯LA
      2026-02-11 16:26:02
      西方不賣還不讓造?荷蘭70萬的平衡車,國產一出手,600拿下

      西方不賣還不讓造?荷蘭70萬的平衡車,國產一出手,600拿下

      瘋狂小菠蘿
      2026-02-11 15:46:02
      印度2nm成功流片!

      印度2nm成功流片!

      中國半導體論壇
      2026-02-11 22:26:02
      出大事了,被俘烏克蘭特工終于開口,兩大秘密曝光,普京不再手軟

      出大事了,被俘烏克蘭特工終于開口,兩大秘密曝光,普京不再手軟

      斜煙風起雨未
      2026-02-12 02:10:50
      一次性出手8公斤金條!金價高位震蕩,千萬元級套現頻頻

      一次性出手8公斤金條!金價高位震蕩,千萬元級套現頻頻

      環球網資訊
      2026-02-11 08:52:13
      2026-02-12 04:15:01
      甲子光年
      甲子光年
      中國科技產業化前沿智庫
      3343文章數 9256關注度
      往期回顧 全部

      科技要聞

      V4來了?DeepSeek 灰度測試新版本

      頭條要聞

      遭特朗普威脅 卡尼一個電話打過去:47億美元我們付的

      頭條要聞

      遭特朗普威脅 卡尼一個電話打過去:47億美元我們付的

      體育要聞

      搞垮一個冬奧選手,只需要一首歌?

      娛樂要聞

      大孤山風波愈演愈烈 超50位明星扎堆

      財經要聞

      廣州前首富被判無期 200億集資窟窿何償

      汽車要聞

      比亞迪最美B級SUV? 宋Ultra這腰線美翻了

      態度原創

      藝術
      旅游
      本地
      公開課
      軍事航空

      藝術要聞

      書法界800年的金字招牌,估值高達10位數!

      旅游要聞

      賞花玩雪享園趣 觀燈看展迎馬年

      本地新聞

      下一站是嘉禾望崗,請各位乘客做好哭泣準備

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      特朗普:若美伊談判失敗 或再派一支航母打擊群

      無障礙瀏覽 進入關懷版