網易首頁 > 網易號 > 正文申請入駐

劉永謀：有益AI，能否解決超級AI的控制問題？| 讀書

2025-09-15 18:00:57　來源: 科學的歷程

湖北舉報

分享至

*中國人民大學吳玉章講席教授劉永謀首發于微信公眾號，保留一切知識產權，侵犯必究。

羅素（Stuart Russel）是AI領域的大咖，他的《AI新生》一書提出一種控制AI的設想，即建構有益AI。該設想的核心是所謂有益機器原則：

1.機器的唯一目標是最大限度地實現人類的偏好。

2.機器最初不確定這些偏好是什么。

3.關于人類偏好的最終信息來源是人類行為。

顯然，這是指導AI研發人員的原則，而不是輸入AI的指令。該原則具有很強的工具主義色彩，即AI應該設計為實現人類偏好的機器，而TA自身是沒有目標的。這一點我非常贊同，與有限AI的工具論主張是一致的。

與有限AI不同的是，羅素希望AI主動預測人的目標，又隨時可以被關機。這里的危險在于：AI可能比人更知道自己的偏好，這有可能使得它的預測成為人類行動的“應然”，甚至TA可能誘導甚至操控人類行動。這就有走向AI實體論的味道了。

羅素也意識到類似想法存在巨大危險。于是，他用偏好替代目標概念。這就是上述三原則中沒有目標而只有偏好的原因。

偏好是經濟學和決策理論的基本術語——我博后做的是決策理論研究——衡量的是人在在幾種選擇或方案范圍中的喜好程度，往往與經濟利益、享樂消費相連。與偏好相連的術語是效用，它是偏好的數學測量。

大家都在講AI價值對齊。技術人員說是偏好對齊和效用最大化，哲學家說的是人類目標與AI目標的一致，甚至是人類主流價值觀指導AI的運算、輸出和行動。這里面的差距有多大，大家可以研究一下。因此，我說過，目前的AI對齊問題日益演變成純粹技術問題，與人文反思、倫理研究關系不大。

然而，這恰恰說明技術性的AI對齊——實際上是AI偏好對齊——是可行的、起作用的。不能說偏好對齊與價值對齊完全沒有關系，起碼在物質性的人類福祉目標上方向一致。反過來，羅素的有益AI與宏大的AI價值對齊理想天差地別。

按照羅素的想法，機器不應該沒有目標，TA必須以人的目標為目標。這是我極為贊同的。我的質疑在于：

第一，偏好對齊根本談不上控制了AI，而且隨著超級AI的出現——我理解，羅素式工具性的超級AI主要是在預測和滿足人類AI偏好的超凡能力上——實體性一面大大增強，免不了讓AI預測的應然“覆蓋”人類自主選擇的結果。

第二，我懷疑人類有沒有穩定的、一致的、可測量的偏好存在。即使有益AI目標并不高大上，但這個問題仍然無法解決。偏好比較有范圍，不同范圍數值會不一樣。偏好主要處理有形的尤其是經濟問題，對于精神問題無法解決，比如某人在唯物主義與唯心主義之間偏好不是偏好考慮的問題。

人的偏好是變化的，人與人也不一樣。我甚至認為，人的目標在完全確定之前是不確定的，在完全確定之后可能不斷變化。換言之，目標只有在“現在”才存在。

當然，我沒有否認AI偏好預測在經濟領域的應用。在我看來，羅素的理論主要關注的是AI在經濟世界中運用。我覺得這應該還是會有成效。

因此，羅素支持超級AI的理由就是最常見的想法，即有了超級AI，人類可以擁有更偉大“也許更好”的文明，可以解決重大問題，如人類永生、超光速旅行、氣候變化等。對此類觀點，我的反駁是：第一，要與超級AI的毀滅性后果相比較。第二，基本上包括羅素在內沒人否認這樣的生存性風險。第三，羅素對更偉大文明的渴望，我不是很贊同，因為它可能并不美好。這樣的文明比如三體文明。第四，沒有超級AI，我們變得偉大會慢很多，但人類可以自己思考，而且不用擔心被滅絕。

建設美好世界的路有千萬條，不必選擇迅速但極其危險的道路。

羅素的有益AI理論之下，暗含著他對智能的行為主義理解：

人類是智能的，因為我們的行動有望實現我們的目標。

機器是智能的，因為它們的行動有望實現它們的目標。

機器是有益的，因為它們的行動有望實現我們的目標。

按照這種理解，有智能不一定有意識、有自由意志。所有的生命體或有機體均有智能，只要它們能用行動實現自己的目標。這種目標不一定是在人類大腦中浮現的念頭，也可能是一種本能，只要它能驅動有機體的刺激-反應行動。

這是典型的行為主義觀點。人類的所謂目標，其實不是自由意志，而是更大的自然文化、社會環境和文化環境所演化塑成的無意識。最近有實驗宣稱，面對刺激人做出反應，比腦中產生念頭要快，也就是行為在目標之前而不是之后。

按照這樣的想法，僵尸、寵物乃至一切有生命的東西，都是智能體。于是，AI時代并非有些人說的雙智社會，而是泛智社會。這樣的圖景其實是我所稱的AI擬人論的世界，或者是“泛靈論的復興”。

羅素的觀點中，我最為贊同的是：

人工智能的歷史一直被一句咒語所推動：“越智能越好。”我確信這是一個錯誤，不是因為我隱隱地害怕被人工智能取代，而是因為我們理解智能的方式有誤。

我不知道“智能”應該如何正確理解，只覺得現在的理解有錯。但是，我強烈贊同：為人類福祉計，機器用不著太聰明，我們需要的是能力強大的工具，而不是一個超越我們的智能體。

羅素沒有說什么是“過于智能的AI”，只是說TA不好。他想在“過于”上玩一個騎墻。而我的有限AI直接反對超級AI的研發進路：AI發展的路有千萬條，不必走這條危險的道路，然后為如何關機、隔絕盒中等問題絞盡腦汁。

從根本上說，我討論的不是控制超級AI，而是控制人，尤其是控制從事有關研發工作的科技專家，讓他們不要去走危險的路。我的想法最大的問題是過于理想主義，人類比超級AI的控制難度不會小。

實際上，我們能做的不是控制，而是社會文化的全面綜合性引導。它很可能最終失敗，但這并不妨礙我們在超級AI滅絕之前做西西弗斯式的嘗試。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.