網易首頁 > 網易號 > 正文申請入駐

劉永謀 | 超級智能治理：究竟是控制超級AI，還是監管搞超級AI的人？

2025-09-17 17:56:38　來源: 科學的歷程

湖北舉報

分享至

*中國人民大學吳玉章講席教授劉永謀首發于微信公眾號，保留一切知識產權，侵犯必究。

基本上所有人包括AI研發人員，都同意通用AI、超級AI的應用存在重大風險，應該對TA們的加以控制。實際上，最早提醒大家注意超級智能生存性風險的恰恰是AI專家。當然，我懷疑：這種呼吁很大程度上是AI宣傳術，炒作AI覺醒問題以獲得社會的關注。

為什么？因為他們一邊高呼超級AI有風險，一邊反對監管AI發展。有一種回應性解釋是：AGI、ASI暫時還實現不了，還需要幾十年。可是，他們又隔三差五地宣布通用AI已經在某個產品中實現了，甚至某個產品已經出現意識了。

如果超級AI在五十年左右會出現，鑒于它可能導致文明危崖性質的風險，現在考慮監管超級AI有問題嗎？回過頭來，如果大家提前預計到核能有毀滅世界的風險，你覺得人類應該提前多久討論如何監管核能呢？比如，提前就禁止核能用作武器。

我的意思是說，按照現在的形勢，現在就開始討論超級AI的監管或治理問題并非多余。

在《超級智能》中，波斯特洛姆花了大量篇幅討論如何控制超級AI的能力和動機，涉及到沙盒、關機和對齊等大家熟悉的技術性方法。沙盒就是要將超級AI隔絕于某種“金屬盒子”中，關機指的是關鍵時候我們能將超級AI電源切斷，而對齊是從效用-偏好上控制超級AI的目標。他承認這些方法都不百分百消除風險，但是可以綜合作用，并非可以不斷完善。

然而，我覺得超級AI治理的關機不是控制超級AI，而是控制搞超級AI的人，尤其是研發和運行超級AI的人。

第一，現在超級AI還沒有，如果風險巨大，可以禁止研發超級AI。這不等于不發展AI，而是說AI發展的路千萬條，這條路可以不選。就像我們可以研發核能利用，但是禁止搞原子彈。

第二，起碼在控制超級AI的問題解決之前，可以暫停研發超級AI。

第三，問題在于即使國家禁止，AI專家可以私下搞超級AI，原因可能是極個別專家覺得超級AI沒什么風險，或者干脆是不在乎，甚至可能就是因為金錢誘惑甘愿被邪惡勢力利用。

第四，即使在控制超級AI方法找到，超級AI可以安全運行之后，以AI專家為典型的人的問題仍然存在。這正是目前核武器擴散面臨的情況。

羅素的有益AI理論恰恰看到這一點，才提出指導AI專家的有益機器三原則。而在波斯特洛姆那里，這一問題被稱為“第一委托代理問題”，直接就被忽略了。

我重讀了《超級智能》，波斯特洛姆的關于控制的觀點十分混亂。比如，他提出超級AI可以被構建為四種類型，即神諭、精靈、主權、工具。所謂神諭，指的是超級AI只是個超級問答系統。按照他所說的超級AI在任何方面都強過人類的超級智能定義，這根本不是超級AI。所謂工具，指的是工具性、能力弱的AI。這顯然就不是超級AI，不應該在這一章中出現。他自己也說：

預期在實施強大的尋找過程（包括尋找內部工作計劃的過程和直接尋找符合使用者定義標準的方案的過程）中自發且偶然地產生類似代理的、具有目的性的行為模式，可能還不如直接建造代理。使超級智能明確地具有類似代理的結構，可能會提高超級智能的可預測性和透明度。

對于為什么要搞超級AI的理由是，不搞AGI、ASI人類損失很大。這個理由沒有計算好處減去風險之后有多少。我贊同是搞工具AI，不承認有什么工具性超級AI，要全面反對超級AI的研發和應用。

波斯特洛姆最讓我無語的支持超級AI理由是：

創造超級智能的顯而易見的理由是：這樣我們就能夠將尋找給定價值觀的有效方法所需要的工具箱推理任務交給超級智能。間接規范方法還使我們能夠將選擇要實現的價值觀所需要的一些推理任務交給超級智能。

我們可能不知道我們真正想要什么、什么是符合我們的利益的，或者什么是道德上正確的或理想化的。這個事實給我們提出了一個挑戰，而間接規范正是應對這個挑戰的一個方法。

預期基于我們目前的理解（可能是非常錯誤的理解）做出猜測，不如將價值觀選擇所需的一部分認知工作委托給超級智能。

也就是說，我們不知道用什么價值觀對齊AI，因此要搞超級AI，因為它能告訴我們應該用何種價值觀對齊AI。這究竟是AI向人對齊，還是人向AI對齊呢？這種想法就是主張“人的AI化”或“人的智能機器化”。根本不值得一駁。

一定要注意：反對超級AI，不等于反對AI，沒有什么AI必然走向AGI、ASI的“必然”。歷史表明：任何一種技術的發展都是蘊含著多元可能性，技術風險與后果關鍵在于人的選擇而非技術本身。

在這一點上，大家知道我歷來反對技術實體論，因為它意味著宿命論。就AI而言，從來沒有什么向善的AI，你不治TA就不會向善。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.