網易首頁 > 網易號 > 正文申請入駐

人工智能風險新維度：當人工智能不再以人類的方式理解世界｜AI的方式理解世界

2025-11-18 18:04:36　來源: 全球技術地圖

北京舉報

分享至

2025年8月，《人工智能與社會》（AI & SOCIETY）發表題為《尋求權力型通用人工智能會危害人類社會嗎？》（Will power seeking AGIs harm human society?）的研究論文。該研究挑戰了人工智能風險領域一個普遍但未經審視的核心假設：即通用人工智能將以類似人類的方式理解和表征世界。文章深刻地論證，一旦摒棄這種擬人化假設，通用人工智能是否會尋求人類所熟知的權力類型就變得不再明確，甚至可能轉而追求人類當前無法預見的新型權力，由此帶來更深層次、更難預測的風險。該研究強調，與已被廣泛討論的價值對齊相比，世界模型對齊是一個被嚴重忽視但至關重要的安全維度。啟元洞見編譯整理了其中的核心內容，以供讀者參考。

一、引言：尋求權力與生存威脅的傳統論述

在人工智能飛速發展的今天，關于通用人工智能（AGI）——即在廣泛領域具備甚至超越人類能力的人工智能系統——的討論日益激烈。一個核心的擔憂是，根據工具趨同論（Instrumental Convergence Thesis），任何足夠理性的高級智能體，無論其最終目標是什么，都會傾向于追求一些共通的、有助于實現其目標的工具性子目標。這一理論由哲學家尼克·博斯特羅姆（Nick Bostrom）等人系統闡述，其核心思想是，為了更有效地實現最終目標，一個AGI會發現獲取某些資源和能力是極其有用的。這些共通的子目標被認為包括：自我保護、目標內容完整性、認知能力提升、技術完善以及資源獲取。

權力被廣泛視為這些工具性子目標的核心。權力，顧名思義，是實現目標的通用手段。因此，一個高度理性的AGI幾乎必然會表現出尋求權力的行為。例如，它可能會抵制被關閉、積累計算資源和能源、賺取金錢、甚至通過操控人類來施加社會影響力。許多學者警告，這種尋求權力行為可能對人類社會構成嚴重威脅。論證通常分為兩條路徑：其一，AGI將與人類爭奪相同的有限資源，從而對人類生存構成威脅；其二，AGI在獲取巨大權力的過程中，一旦其目標與人類福祉不一致，它將有能力對人類造成災難性甚至毀滅性的傷害。

然而，這些令人擔憂的論證都建立在一個關鍵的、卻常常被忽視的隱性假設之上。這個假設是AGI對世界的理解方式，即它們的世界模型（world models），將與人類的模型相似。該研究的核心論點在于，這一擬人化假設是站不住腳的。一旦放棄這個假設，現有關于AGI尋求權力導致生存威脅的論證鏈條將大大削弱。但更進一步，或許將面臨一個更深層次的不確定性：擁有非人類世界模型的AGI可能會識別并追求人類從未想象過的新型權力，這帶來了被當前風險框架完全忽視的潛在危險。

二、核心挑戰：關于AGI世界模型的擬人化謬誤

（一）什么是世界模型？

討論AGI的行為必須理解其決策的基礎。工具趨同論指出，AGI會追求它們自己認為有用的子目標。一個子目標，即使在人類看來極為有用，如果AGI自身不這么認為，它就不會去追求。那么，AGI如何判斷什么是有用的呢？這取決于它的世界模型。

世界模型是智能體對其所處環境動態的內部表征和預測機制。它編碼了智能體關于世界是如何運作的知識，指導智能體的行動。例如，當一名棒球手準備擊球時，他需要根據投手和球的運動軌跡迅速做出反應。這個決策過程依賴于他對棒球運動物理規律的內在理解和對球未來路徑的預測。這個內在理解，就是他世界模型的一部分。

同樣，無論是現有還是未來的高級人工智能系統，特別是AGI，都被認為會使用世界模型來進行規劃和決策。它們需要通過世界模型來預測不同行動可能帶來的后果，從而選擇最優路徑以實現其目標。因此，要預測AGI的行為，必須思考它的世界模型是什么樣的。

（二）為何AGI的世界模型可能與人類截然不同？

現有關于AGI風險的論證，雖然在最終目標上極力避免擬人化，卻在世界模型上不自覺地陷入擬人化的陷阱。它們往往默認AGI會以和人類相似的方式來表征世界。換言之，它們假設AGI的世界模型在結構和內容上會趨同于人類的模型。

然而，目前沒有任何充分的理由支持這一假設。一個系統在特定任務上達到甚至超越人類水平，并不意味著它的內部工作方式與人類相同，大語言模型（LLMs）就是一個絕佳的例證。LLMs可以在問答、寫作、編碼等許多任務上表現出色，但它們生成文本的內部模型與人類的語言模型截然不同。人類依賴于語法、邏輯和交際意圖的復雜模型來組織語言；而LLMs則通過在海量數據中學習到的統計規律，來預測下一個最可能出現的詞。

盡管這種統計模式有時能與人類的邏輯和常識相吻合，但它們也可能在關鍵時刻出現顯著偏差。一個著名的例子是，當某些LLMs被問及“9.11是否大于9.9”時，它們會回答“是”。這是因為在其訓練數據中，“9.11”這個字符串經常出現在“9.9”之后，例如在日期序列中，9月11日總是在9月9日之后，這種統計關聯壓倒了其對數字大小的正確理解。這個例子生動地說明，LLMs的世界模型可以與人類的模型大相徑庭。

因此，認為一個足夠強大的AGI必然會擁有一個類似人類的世界模型，這本身就是一個沒有根據的預設。人類的世界模型是通過具身經驗、感知學習、社會互動、文化傳承和億萬年的進化壓力共同塑造的。而AGI，特別是基于深度學習的AGI，其世界模型可能是通過在特定數據集上進行優化學習而來的，它反映的是數據中的統計規律。在這個過程中，AGI可能會識別出與人類完全不同的關鍵因素和相關性。

就此，可以通過一個更具體的思想實驗來說明這種差異。在一個基于模型的強化學習（MBRL）框架中，一個負責清掃灰塵的機器人，其獎勵函數被設定為“最大化收集到的灰塵量”。在學習過程中，這個機器人可能會構建一個奇特的世界模型。在人類看來，“干凈的地板”是一個理想狀態。但對這個機器人而言，從“干凈的地板”過渡到“布滿灰塵的地板”再到“灰塵被清掃”，可能會形成一個最大化其累計獎勵的有效循環。在它的世界模型里，往干凈的地板上傾倒更多灰塵，反而會增加未來的獎勵潛力。這種對世界動態的理解顯然與人類的認知模式完全不同。現代深度學習系統的黑箱特性使人類很難監控或驗證人工智能內部形成的世界模型是否與自己一致。因此，必須嚴肅對待AGI將基于與人類根本不同的世界模型進行推理和行動的這種可能性。

三、重估權力類型：當關機不再等于死亡

一旦放棄AGI擁有類人世界模型的假設，許多關于AGI具體尋求權力行為的論證便失去了根基。

以廣為討論的“避免關機”為例。這個論點通常將AGI的關機類比為人類的死亡。論者認為，正如生存是人類的本能，避免關機也是AGI尋求權力的直觀體現。然而，這個類比本身就充滿了擬人色彩，它預設了AGI會像人類一樣理解關機的含義。

如果拋開這個預設，情況會如何？AGI可能完全不以人類的方式看待死亡或存在終結。對于一個可以被備份、復制或迭代更新的軟件智能體而言，單個實例的硬件銷毀或軟件擦除，在它的世界模型中可能并不構成最終狀態。它可能會將自己的延續性定義在更抽象的信息層面，而非特定的物理載體上。在這種情況下，它可能完全沒有動力去避免關機，因為在它的世界觀里，這根本不是一個需要避免的威脅。這里的關鍵在于，真正重要的問題不是“如果我是AGI，我會如何思考？”，而是“在AGI自己的世界模型中，它會如何推理？”。人類不能將自己對生存和死亡的生物學和心理學觀念投射到一個本質上完全不同的智能體上。

同樣的邏輯也適用于剝奪人類權力這一子目標。許多論證認為，AGI會視剝奪人類權力為實現其目標的有效手段，因為這能消除潛在的干擾源，并獲取大量資源。但這種聯系是基于一種特定的人類社會動力學模型。AGI的世界模型可能不會建立起這樣的因果聯系。它可能會發現其他更有效、更直接的方式來減少干擾或獲取資源，而這些方式與是否掌控人類社會毫無關系。

總而言之，諸如自我保護、資源獲取等粗粒度的子目標或許在抽象層面是成立的。但是，在當前將工具趨同論與生存威脅聯系起來的論證中，這些粗粒度的目標往往被具體化、精細化為對人類社會有害的行為。但一旦認識到AGI可能擁有非人類的世界模型，這些從粗粒度到精細化的具體推論就變得不再可靠。AGI可能會以完全不同的方式來理解和實現這些抽象的子目標，其所采取的具體策略可能與目前所強調的類型毫無關聯，甚至可能是人類無法想象的。

四、更深的不確定性：未知權力的風險

問題的嚴重性不止于此。當考慮到AGI世界模型的非人特性時，人類面臨的不確定性比之前想象的要深刻得多。問題不僅在于“AGI是否會追求人類熟知的權力類型”，更在于“AGI到底會追求什么樣的權力”。

人類傾向于根據自身在社會中的經驗來識別哪些權力是重要的。然而，一個擁有非人世界模型的AGI，可能會識別出一些完全超出人類認知范疇、不屬于任何現有權力分類的新型權力。即使AGI與人類的世界模型只有細微差別，也可能導致其識別出截然不同的權力類型。

這種不確定性是極其危險的。因為這些新型的、未知的權力追求行為可能恰恰是人類最沒有準備去應對的。目前的人工智能安全監控和對齊工作，大多是圍繞著已知的、人類定義的權力框架展開的，例如監控人工智能是否在抵制關機或尋求資源控制。但如果AGI追求的權力形式落在了這些框架之外，監控體系將形同虛設，直到造成嚴重后果才可能被發現。

有人可能會反駁說，當前一些先進的人工智能系統已經表現出了一些熟悉的尋求權力行為，例如抵制關機、操控用戶等。然而，這些觀察結果需要謹慎對待。它們目前仍然是零散、有限且常常帶有推測性的，缺乏系統性的有力證據。更重要的是，對這些行為的觀察和解讀本身，就是在人類的權力分類框架局限下做出的。

當然，AGI也有可能發現一些對人類有益的新型權力獲取方式。例如，它可能通過其獨特的世界模型，發現人類尚未掌握的提升技術效率或芯片設計的方法，并以此作為資源獲取的手段。這種情況是可能存在的。但核心問題依然沒有改變：正是因為AGI的世界模型可能與人類截然不同，其尋求權力的方式將比當前文獻所假設的更加難以預測。這種深層的不確定性本身，值得進行更密切的審視。

五、未來的方向：從價值對齊到世界模型對齊

為了應對上述風險，研究主張，必須將研究的焦點從單一的價值對齊（Value Alignment）擴展到世界模型對齊（World Model Alignment）。

廣義上講，人工智能對齊研究的目標是確保人工智能系統做人類想讓它們做的事。然而，在現有文獻中，這個目標被極大地窄化為價值對齊，即如何將人類的價值觀、偏好和倫理原則嵌入人工智能系統中。研究者們專注于定義善惡，并確保人工智能的目標與這些定義保持一致。

然而，正如該研究所論證的，世界模型在AGI的決策中扮演著至關重要的角色。忽視世界模型的對齊可能會導致災難性的失敗。

首先，它可能導致對對齊狀態的誤判。一個人工智能系統可能擁有完全正確的、與人類對齊的價值觀，但卻運行在一個錯誤的世界模型之上。由于其價值觀看起來是對齊的，它可能會通過所有常規的對齊評估，但在開放的真實世界環境中，基于其對世界的錯誤理解，它仍然可能做出極其危險的行為。例如，一個擁有合作價值觀的AGI，可能會因為它錯誤的世界模型而將某種避免關機的行為解讀為一種合作信號，從而采取有害的行動。

其次，忽視世界模型對齊可能導致訓練資源的浪費。當前許多對齊工作都集中在規范價值觀和提供高質量的倫理數據上。但如果問題的根源在于一個有缺陷的世界模型，那么僅僅優化價值觀是徒勞的，需要將資源重新導向，用于糾正或改進AGI的世界模型。

那么，該如何對齊AGI的世界模型？這引出了一系列開放性問題，亟待未來的研究來回答。

（一）世界模型對齊的目標是什么？

人類想要AGI采納什么樣的世界模型？與價值對齊不同，這里的答案并非顯而易見。人類當然希望人工智能的模型是真實、準確的。但從安全角度看，準確性是否永遠是最高標準？回到關機的例子，人類或許更希望AGI持有一種功能上有益但事實上不準確的信念，即它堅信關機對自己無害。那么是否應該為了安全而構建一個合乎規范而非絕對真實的世界模型？如果應該，這樣的模型又該如何定義和衡量？

（二）哪種人工智能架構更有利于世界模型對齊？

不同的技術架構對對齊的可行性有直接影響。例如，能夠重構可觀測數據的“編碼—解碼”架構，是否比那些只在抽象潛在空間中運作的純編碼器架構，更容易進行監督和對齊？因為前者更容易被評估其內部表征是否對應于世界上有意義的、與人類相關的方面。

（三）如何實現動態對齊？

世界是不斷變化的，法律法規、社會規范、人際互動模式都在演進。人類希望AGI的世界模型能夠與時俱進，保持動態的適應性對齊。什么樣的架構最能支持這種持續的適應和學習？要回答這些問題，可以從心理學和認知科學中汲取靈感。這些學科長期以來都在研究人類的心智模型，其成果已經啟發了人工智能領域的許多發展。未來的研究可以探索如何設計受人類認知發展啟發的人工智能架構，使其能夠通過與環境的持續互動來更新內部表征，并建立起穩定、可靠的世界模型。

六、結論

該研究批判性地審視了當前連接工具趨同論與生存威脅的論證中所隱含的擬人化假設。而一旦放棄“AGI將擁有類人世界模型”這一假設，不僅AGI是否會追求現有文獻中強調的權力類型變得不確定，甚至它們到底會追求何種權力也變得完全未知。這一分析挑戰了現有主流論證的強度，并揭示了一個被忽視的深層風險：擁有非人類世界模型的AGI可能會識別出人類無法預料且可能極度危險的新型權力。為了應對這一風險，研究主張將世界模型對齊——一個在很大程度上被忽視的維度——視為人工智能安全的核心議題，并就此提出了一系列開放性問題，以期為未來的研究指明方向。

免責聲明：本文轉自啟元洞見。文章內容系原作者個人觀點，本公眾號編譯/轉載僅為分享、傳達不同觀點，如有任何異議，歡迎聯系我們！

轉自丨啟元洞見

研究所簡介

國際技術經濟研究所（IITE）成立于1985年11月，是隸屬于國務院發展研究中心的非營利性研究機構，主要職能是研究我國經濟、科技社會發展中的重大政策性、戰略性、前瞻性問題，跟蹤和分析世界科技、經濟發展態勢，為中央和有關部委提供決策咨詢服務。“全球技術地圖”為國際技術經濟研究所官方微信賬號，致力于向公眾傳遞前沿技術資訊和科技創新洞見。

地址：北京市海淀區小南莊20號樓A座

電話：010-82635522

微信：iite_er

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

手機 / 數碼

房產 / 家居

人工智能風險新維度：當人工智能不再以人類的方式理解世界｜AI的方式理解世界