![]()
來源:機器之心
在人工智能的發展歷程中,有一位科學家幾乎貫穿了整個深度學習時代 —— 他就是 Yann LeCun。
許多人第一次接觸神經網絡,往往就是通過他在上世紀提出的手寫數字識別系統LeNet。這一早期的卷積神經網絡模型不僅成功應用于銀行支票識別,也為后來席卷全球的深度學習浪潮奠定了重要基礎。
與如今大量研究者將目光投向生成式 AI 不同,LeCun 近年來一直在強調另一條更長期的研究路線:構建能夠理解世界并進行規劃的 「世界模型」(World Model)。
在他看來,當前模型雖然在文本與圖像生成上表現驚艷,但仍然缺乏一種關鍵能力 ——對現實世界進行建模,并預測未來可能發生的變化。
圍繞這一愿景,來自 Meta 與 New York University 等機構的研究者(其中也包括 LeCun 團隊的成員)最近發布了一篇新論文,嘗試解決世界模型中的一個基礎問題:如果我們希望 AI 在潛在空間中進行規劃,那么這種表示空間應該具備怎樣的結構?
![]()
論文標題:Temporal Straightening for Latent Planning
論文鏈接:https://arxiv.org/pdf/2603.12231
視覺特征的「曲率陷阱」
這項研究的核心靈感源自神經科學中的一個著名假設 ——感知直道化(Perceptual Straightening)。人類視覺系統在處理自然視頻流時,傾向于將復雜的視覺輸入轉化為在大腦皮層中軌跡更平直的表征,從而預測物體的運動。
研究指出,雖然預訓練編碼器能夠學習到豐富的語義表示,但其在潛在空間中形成的時間軌跡通常具有較高的曲率,這使得基于該表示進行規劃變得更加困難。
這種高曲率帶來了兩個致命問題:
距離失效:在復雜的潛空間中,簡單的歐幾里得距離無法準確反映到達目標狀態的真實難度(測地距離)。
規劃不穩定:基于梯度的規劃算法在彎曲的景觀中極易陷入局部最優,導致智能體在任務中「原地打轉」或邏輯斷層。
![]()
預訓練視覺編碼器所編碼的潛在軌跡通常高度彎曲(DINO),這增加了預測和規劃的難度。本文引入了一個幾何約束,在此空間中可行的軌跡更加平直(Ours)。
時間直道化
為了解決這一問題,研究團隊引入了一個幾何約束 ——曲率正則化器(Curvature Regularizer)。
傳統的潛空間規劃通常學習一個編碼器 和一個預測器 。但在復雜的動態環境中,相鄰狀態在潛空間中的軌跡往往是劇烈彎曲的。
為了實現「拉直」,研究團隊提出了基于曲率(Curvature 的約束。在潛空間中,定義連續三個時間步的表征為 。
1. 曲率的數學定義
直道化的核心是要求潛空間中的運動軌跡盡可能接近勻速直線運動。公式上,這體現為相鄰兩個時間步的「位移向量」應該盡可能一致:
如果軌跡是完全筆直且勻速的,那么這兩個向量應該相等。
2. 曲率損失函數
論文引入了以下損失函數來懲罰軌跡的彎曲程度:
或者使用單位向量的夾角余弦值來衡量方向的一致性:
這個正則項會強制編碼器 將原始視覺輸入映射到一個平滑的空間中,使得狀態轉移在該空間內表現為線性演化。
![]()
訓練與規劃示意圖。在訓練過程中,一方面最小化預測嵌入 與目標分支中帶有停止梯度的目標 之間的預測損失,另一方面最小化嵌入的局部曲率。在規劃過程中,我們使用訓練好的預測器進行時域 的展開推演,并在嵌入空間中選擇能夠最小化預測最終狀態與目標之間成本的最優動作。
通過這種方式,模型共同學習了一個更「平滑」的編碼器和一個更「直覺」的預測器。這種「拉直」操作產生了兩個神奇的效應:
歐幾里得距離 = 測地距離:在拉直后的空間里,兩個點之間的直線距離就能精準代表從 A 態轉移到 B 態的成本。
改善目標條件調節:規劃目標對路徑的引導變得更加線性且穩定。
![]()
直道化前后的潛空間軌跡對比。 上方的 PushT 示例展示了一個旋轉動作,下方的 UMaze 示例展示了智能體從左上角移動到右上角的過程,其中星號表示目標。直道化產生了更少彎曲且更平滑的軌跡,并使歐幾里得距離能夠更真實地反映通往目標的測地線進展(即實際步數)。
實驗結果:攻克「傳送門」迷宮
為了驗證這一理論,研究團隊設計了一個極具挑戰性的實驗環境:Teleport-PointMaze(帶傳送門的點迷宮)。
在這個迷宮中,當智能體觸碰右側墻壁時會瞬間「傳送」到左側,這種瞬時的位置跳躍對傳統的預訓練編碼器(如 DINOv2)是巨大的災難。
![]()
不同編碼器的潛在曲率與開環 GD 成功率對比。余弦相似度越高表示曲率越低。此處比較了具有空間特征的模型,并報告了平均逐塊余弦相似度。在編碼器類型相同的情況下,曲率的降低通常會導致成功率的提升。
研究通過計算潛空間中任意點與目標點(Target)之間的 均方誤差(MSE),生成了距離熱力圖。
![]()
PointMaze 的距離熱力圖(藍色表示小值,紅色表示大值)。黃色五角星代表目標位置,計算其嵌入與迷宮中所有其他狀態嵌入之間的歐氏距離。圖 b 和圖 c 使用了經過平直化正則化訓練的 ResNet,其輸出特征 。經過平直化處理后,潛在距離能夠準確反映到達目標所需的最小步數。
DINOv2 (a):其熱力圖呈現出支離破碎的斑塊,完全無法反映迷宮的物理拓撲結構,規劃算法在此空間內幾乎是「盲目搜索」。
無直道化的投影器 (c):雖然經過了任務微調,但熱力圖依然顯示出嚴重的扭曲,無法正確識別傳送門的連接性。
時間直道化(b):神奇的事情發生了 —— 熱力圖顯示出的梯度非常平滑,且完美契合了地標真值(d)。這意味著在直道化后的空間里,簡單的歐氏距離就能精準指導智能體穿過傳送門。
世界模型研究的新線索
隨著世界模型研究不斷發展,越來越多學者開始關注:什么樣的表示才真正適合規劃?
這篇論文給出了一個簡單但有啟發性的答案:在一個好的 latent space 中,時間軌跡應該盡可能是直線。
這種設計不僅可以提高規劃效率,還可能影響未來許多研究方向,例如機器人控制、視頻世界模型、自動駕駛……
或許正如 Yann LeCun 所強調的那樣:真正的智能,離不開一個能夠理解并預測世界的模型。
而讓「時間變直」,可能正是通往這一目標的重要一步。
閱讀最新前沿科技趨勢報告,請訪問21世紀關鍵技術研究院的“未來知識庫”
![]()
未來知識庫是 “21世紀關鍵技術研究院”建 立的在線知識庫平臺,收藏的資料范圍包括人工智能、腦科學、互聯網、超級智能,數智大腦、能源、軍事、經濟、人類風險等等領域的前沿進展與未來趨勢。目前擁有超過8000篇重要資料。每周更新不少于100篇世界范圍最新研究資料。 歡迎掃描二維碼或訪問https://wx.zsxq.com/group/454854145828進入。
截止到2月28日 ”未來知識庫”精選的百部前沿科技趨勢報告
(加入未來知識庫,全部資料免費閱讀和下載)
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.