![]()
新智元報道
編輯:傾傾
【新智元導讀】高分模型未必懂科學,有的只是在「死記硬背」!MIT揭秘:模型越聰明,對物質的理解就越趨同。既然真理路徑已清晰,我們何必再深陷昂貴的算力競賽?
現在的AI for Science,就像一場「多國峰會」,大家用不同的語言描述同一件事。
有人讓AI讀SMILES字符串,有人給AI看原子的3D坐標,大在不同的賽道上比誰預測得準。
但有一個問題:這些AI是在「找規律」,還是真的理解了背后的物理真相?
在MIT的一項研究中,研究員把59個「出身」不同的模型湊在一起,觀察它們在理解物質時,隱藏層表達是否相同 。
![]()
論文鏈接:https://arxiv.org/abs/2512.03750
結果非常驚人:雖然這些模型看數據的方式天差地別,但只要它們變得足夠強大,它們對物質的理解就會變得極度相似 。
更神奇的是,一個讀文字的代碼模型,竟然能和一個算受力的物理模型在「認知」上高度對齊 。
它們沿著不同的路,爬到了同一座山峰的頂端,開始共同描繪物理與現實的「終極地圖」。
真理的匯合:為什么頂尖模型越長越像?
為了驗證這些模型是否真的在靠近真理,研究者引入了一個關鍵指標:表征對齊度。
簡單來說,就是看兩個模型在處理同一個分子時,它們腦子里的思路有多相似。
結果發現,性能越強的模型,思維方式就越接近。
在實驗中,隨著模型預測物質能量準確度的提升,這些模型在表達空間里會自發地向同一個方向靠攏。
![]()
性能與認知的同步:能量預測越精準,模型與頂尖基座的思維方式就越趨同。每個點代表一個模型;點大小對應模型大小。
盡管這些AI的架構千差萬別,但它們在處理同一批分子數據時,其特征空間的復雜度竟然壓縮到了一個非常窄的范圍。
無論模型外殼多么復雜,它們最后抓取的都是最核心、最精簡的物理信息 。
![]()
化繁為簡:雖然AI架構各異,但它們提取的物質特征在數學復雜度上卻「殊途同歸」。
這一特征在Orb V3這樣的模型上更加明顯。
![]()
跨架構的表征對齊:矩陣中的深色區域顯示了Orb V3等高性能模型與其它嚴謹物理模型(如MACE、EqV2)之間強烈的共鳴。
通過更自由的訓練,它們可以更精準地對齊物理規律。
這也說明,當喂給AI的數據足夠多、訓練方式足夠對路,它甚至能越過人類現有的公式,自己摸索出物質運行的本質規律。
這種收斂現象表明,AI并沒有胡思亂想,它們正在合力挖掘物質世界那個唯一、真實、且客觀的底層邏輯 。
不止分子,連「貓」都一樣!
你以為這種「英雄所見略同」只發生在科學AI里?大錯特錯!
有研究者把純文本的語言模型(比如GPT系列)和純圖像的視覺模型(比如CLIP或DALL·E背后的模型)拉出來比對,結果發現,它們對「貓」的理解,竟然越來越像!
![]()
在語言模型里,「貓」的向量表示會緊緊靠近「毛茸茸」「喵喵叫」「寵物」「抓老鼠」這些詞。
在視覺模型里,「貓」的向量則靠近胡須、圓眼睛、軟毛、優雅的尾巴等視覺特征。
![]()
本來兩個模型一個只看文字、一個只看圖片,壓根沒交集。
但模型規模越大、性能越強,這兩個完全不同模態的「貓」表示,就在線性空間里越靠越近,仿佛在共享同一個「貓的本質」!
這意味著AI不管從文字、圖像、分子結構還是3D坐標切入,只要足夠強大,就會在內部悄悄趨向同一個對現實的「內在圖景」。
高分不是真理,警惕「迷路」的AI
高性能模型都在山頂匯合,那剩下的模型都在干什么?
研究者發現,性能不佳的模型有兩種「死法」:一種是各想各的,在錯誤的道路上漸行漸遠;另一種則是集體變笨,雖然想的一樣,但都漏掉了關鍵信息。
有些模型雖然跑分不錯,但思維方式卻非常孤僻。
比如MACE-OFF,它在處理某些分子任務時表現很強,但它的表征對齊度卻極低,完全不能融入主流高性能模型。
它可能只是在特定領域里找到了某種規律,一旦跨出這個舒適區,它的經驗就很難轉移到其他科學任務上。
![]()
圖中白色的點代表模型從未見過的分子結構。可以看到,模型在處理這些結構時誤差(MAE)激增,且表征完全偏離了正常的物理分布。
而當AI遇到訓練數據里從未出現過的物質時,它們往往會放棄思考,一起擺爛,或者集體走進算法設計者留下的「舒適區」,丟掉了物質最核心的化學特征。
由此可見,訓練數據不僅僅是模型的養料,更是決定模型能否觸碰真理的基礎。
如果數據不夠多樣,哪怕模型的架構再精妙,也終究只是在原地踏步,無法進化成真正的通用基座模型。
真理唯一,我們離算力自由還有多遠
既然實驗已經證明,不同的AI都在向同一種物理理解靠攏,那我們還有必要堆昂貴的顯卡,從頭訓練一個超級大模型嗎?
很顯然,沒有。而且AI已經替我們找到了一條捷徑——「模型蒸餾」。
研究發現,規模較小的模型,通過模仿那些高性能基座模型的「思維方式」,也能表現出驚人的潛力。
我們不再需要盲目追求參數量的堆砌,而是利用「真理收斂」的特性,把大模型的知識復刻到更輕量、更高效的小模型身上。
![]()
圖中圓點的大小代表模型參數量。可以看到,即使是較小的模型,只要其表征能與最佳性能模型對齊,同樣能在分子能量預測任務中獲得極高的準確度。
這對未來模型的開發具有深遠的意義。
Orb V3向我們展示了「苦澀的教訓」的另一種解法:通過大規模訓練和聰明的正則化手段,簡單的架構同樣能學到那些昂貴的、強加物理限制的模型才有的理解力 。
![]()
多元架構的對比(部分):論文評估了包括Orb、MACE、DeepSeek在內的近60種模型,為科學家的選擇提供了定量依據。
在未來,評估一個科學AI的標準將變得更加多元。我們不僅看它當下的「考分」,更要看它是否踏入了「真理的收斂圈」。
一旦我們掌握了這種對齊的邏輯,科學發現將不僅是巨頭們的算力競賽,更多輕量級、針對特定場景的AI將如雨后春筍般涌現,真正實現「算力自由」下的創新爆發。
MIT的研究給狂熱的AI競賽澆了一盆冷水,但也指了一條明路。
科學AI的進階之路,不再是更復雜的架構,也不是更漂亮的物理公式,而是看誰能更穩地進入那個「收斂圈」。
我們不需要沉默算力競賽,因為真理的路徑已經清晰——所有聰明的模型都在往一處跑,那么通過「表征對齊」來實現模型的輕量化和知識遷移,就成了最務實的工程方案。
未來的科學,將屬于那些懂得利用收斂性來降低成本的人。
參考資料:
https://the-decoder.com/scientific-ai-models-trained-on-different-data-are-learning-the-same-internal-picture-of-matter-study-finds/
https://arxiv.org/abs/2512.03750
https://www.quantamagazine.org/distinct-ai-models-seem-to-converge-on-how-they-encode-reality-20260107/
秒追ASI
?點贊、轉發、在看一鍵三連?
點亮星標,鎖定新智元極速推送!
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.