![]()
人工智能研究的最新目標,尤其是在追求“通用人工智能”(AGI)的實驗室中,是一個被稱為“世界模型”(world model)的概念:這是一種AI內部攜帶的環境表征,就像一個計算型的雪球玻璃球。AI系統可以借助這個簡化的內部模型,在真正執行任務之前,先對預測和決策進行評估。
深度學習領域的幾位重量級人物——Meta的楊立昆(Yann LeCun)、Google DeepMind的德米斯·哈薩比斯(Demis Hassabis)和加拿大魁北克人工智能研究院Mila的約書亞·本吉奧(Yoshua Bengio)都認為,要構建真正聰明、科學且安全的AI系統,世界模型是不可或缺的。
實際上,心理學、機器人學和機器學習等領域幾十年來一直以不同方式使用類似的概念。你大腦中現在可能就有一個“世界模型”在運行——正是它讓你知道不該走到一列行駛中的火車前面,而不必真的先去試一試。
那么這是否意味著,AI 研究者終于找到了一個所有人都能達成共識其含義的核心概念?引用一位著名物理學家的話:“你是在開玩笑吧。”世界模型聽起來簡單明了,但一如既往,人們在細節上完全無法達成一致。比如:模型中應該包含什么內容?精度要達到什么水平?它是與生俱來的,還是通過學習獲得的,或者兩者的結合?我們又該如何確認模型的存在?
了解這一概念的起源會有所幫助。早在1943年,也就是“人工智能”這個術語被提出的12年前,年僅29歲的蘇格蘭心理學家肯尼斯·克雷克(Kenneth Craik)發表了一本影響深遠的小冊子,他在里面提出了這樣的設想:“如果有機體在腦中攜帶著一個外部現實的‘小尺度模型(small-scale model)’……它就能夠先行嘗試各種備選方案,判斷出其中哪一個最好……從而做出更全面、更安全、更有能力的反應。”
克雷克關于心智模型或心智模擬的設想,預示了在20世紀50年代重塑心理學并至今仍主導認知科學的“認知革命。更重要的是,它直接把認知與計算聯系在一起:克雷克認為,“并行或建模外部事件的能力”,是“神經機制”與“計算機器”共有的“根本特征”。
新興的人工智能領域也迅速采納了世界模型的方法。在20世紀60年代末,一套名為SHRDLU的AI系統令人驚艷:它用一個簡易的“積木世界”來回答有關桌面物體的常識問題,比如“一個金字塔能支撐一個方塊嗎?”然而,這類手工構建的模型無法規模化,難以應對更為真實環境的復雜性。到了上世紀80年代末,人工智能與機器人學先驅羅德尼·布魯克斯(Rodney Brooks)則干脆放棄了世界模型,他那句名言廣為流傳——“世界本身就是其最佳模型(the world is its own best model)”,而“顯式表征……只會礙事”。
讓克雷克的設想重煥生機的是機器學習的崛起,尤其是基于人工神經網絡的深度學習。深度神經網絡不再依賴脆弱的手寫規則,而是通過反復試驗,在訓練過程中逐漸構建出內部的環境近似模型,并用來完成如駕駛虛擬賽車等狹窄定義的任務。
最近幾年,隨著支持聊天機器人(如 ChatGPT)的“大語言模型(LLM)”展現出許多“意外”能力——比如通過emoji推斷電影名稱,或玩黑白棋等,這讓世界模型成為一個頗具解釋力的思路。對杰出的AI專家而言,如杰弗里·辛頓(Geoffrey Hinton)、伊利亞·蘇茨克弗(Ilya Sutskever)與克里斯·奧拉(Chris Olah),答案幾乎是不言自明的:在某個深埋于LLM龐大“虛擬神經元”叢林的角落里,一定存在著一個“外部現實的小尺度模型”,正如克雷克當年所設想的那樣。
但現實(至少目前來看)并沒有那么理想。現在的生成式AI更像是在學習“啟發式集合”:成百上千條互不關聯的經驗法則,可以在特定場景下給出近似的應對,但無法整合成一個自洽的整體,有時它們甚至相互矛盾。這就像盲人摸象的故事:一個人摸到象鼻,以為大象像蛇;另一個人摸到腿,以為像樹;還有人摸到尾巴,說像繩子。當研究者嘗試從大語言模型內部找回世界模型的證據——例如,對黑白棋(Othello)棋盤的一種連貫的計算表征——他們尋找的是整頭大象。而他們真正找到的,卻是這里一點“蛇”、那里一截“樹”,再加上一段“繩子”。
當然,這些啟發式規則并非一無是處。大語言模型可以在其數萬億個參數中編碼數以“袋”計的此類規則——而俗話說,“數量本身就是一種質量”。正因如此,正如哈佛大學與麻省理工學院的研究者近期所發現的,只通過語言數據就幾乎完美地生成從曼哈頓任意兩點之間的導航路線,盡管這個模型根本沒有學會整個街道網絡的連貫世界模型。
那如果“一點蛇、一截樹、一些繩子”就能完成任務,為何還要執著于整只大象?答案只有一個詞:魯棒性。當研究人員隨機封閉曼哈頓1%的街道,LLM的導航能力就明顯崩潰了。如果它內部擁有的是一個一致且連貫的街道地圖,而不是在每個街角以相互矛盾的“最佳猜測”拼接成的一張極其復雜的補丁式網,它完全可以輕松繞開障礙。
即便是簡單的世界模型也能帶來諸多益處,不難理解為什么所有大型AI實驗室都在拼命研發它們,為什么學術界也越來越關注它們。一個魯棒且可驗證的世界模型,或許未必能發現通用人工智能的“黃金城”,但至少有望提供一種在科學上站得住腳的工具,用來消除AI幻覺、支持可靠推理,并提升AI系統的可解釋性。
這就是世界模型的“是什么”和“為什么”。至于“怎么做”,依然是個未知數。Google DeepMind和OpenAI認為,只要有足夠多的“多模態”訓練數據——比如視頻、三維模擬和超越文本的其他輸入——世界模型會在神經網絡中自然“凝聚”出來。與此同時,楊立昆則認為,構建世界模型需要完全不同于生成式AI的全新架構。在構建這個“計算型的雪球玻璃球”的征途中,沒有人手握能預測未來的水晶球。但這一次的終極目標,也許的確配得上圍繞通用人工智能的那股熱度。
作者:John Pavlus
譯者:琴心
原文:https://www.quantamagazine.org/world-models-an-old-idea-in-ai-mount-a-comeback-20250902/
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.