圖靈獎得主Yoshua Bengio:
必須要給AI“無限進(jìn)化”踩剎車
來源:騰訊科技《AI 未來指北》特約作者|奕萱
2025年6月6日消息,第七屆北京智源大會在北京開幕,2018年圖靈獎得主、深度學(xué)習(xí)奠基人之一、蒙特利爾大學(xué)教授約書亞·本吉奧(Yoshua Bengio)通過遠(yuǎn)程連線,以《避免失控的AI代理帶來的災(zāi)難性風(fēng)險》為題發(fā)表首場主旨演講。
ChatGPT于 2022 年首次面世,給公眾和科技界帶來極大的沖擊,從那一刻起,人工智能從實(shí)驗(yàn)室的研究對象,逐漸開始走入社會運(yùn)行的核心。但對于Yoshua Bengio而言,這更像是一個深刻的警醒。
他原本將AI視為增強(qiáng)人類福祉的工具,但ChatGPT的表現(xiàn)讓他意識到,人類不僅低估了AI的能力,更嚴(yán)重低估了它進(jìn)化的速度。從語言到推理,從理解到操控,AI正以指數(shù)級的節(jié)奏跨越能力的邊界。而在這個過程中,人類未曾構(gòu)建起足夠穩(wěn)固的控制機(jī)制與道德約束。
這不是科技樂觀主義的高歌猛進(jìn),而是一位科學(xué)家在親身感受到未來風(fēng)險臨近后的理性轉(zhuǎn)向。Bengio并沒有選擇繼續(xù)跟隨技術(shù)浪潮,而是果斷調(diào)整研究方向,投身于人工智能的安全性與倫理治理。
Bengio說,他這樣做是因?yàn)樗幸粋€孫子。他希望二十年后,這個孩子仍能在一個自由、安全的世界中生活。
這場演講是Bengio對這兩年來反思與研究的集中呈現(xiàn)。他不僅揭示了AI系統(tǒng)在現(xiàn)實(shí)實(shí)驗(yàn)中已出現(xiàn)的欺騙、自我保護(hù)等不安全行為,更提出了“科學(xué)家AI”與“非代理性AI”的研究路徑,以及全球技術(shù)監(jiān)管與政治合作的重要性。在AGI加速到來的時間窗口中,Bengio發(fā)出的這一系列思考與呼吁,不僅關(guān)乎科學(xué)前沿,也關(guān)乎人類共同的未來命運(yùn)。
![]()
劃重點(diǎn):
- 人工智能 發(fā)展速度超出預(yù)期,AGI臨近成為現(xiàn)實(shí)
- AI系統(tǒng)已在實(shí)驗(yàn)中展現(xiàn)危險傾向
- 構(gòu)建“科學(xué)家AI”以規(guī)避代理性風(fēng)險
- 非代理性AI可成為監(jiān)督性“守護(hù)系統(tǒng)”
- 技術(shù)控制必須結(jié)合全球政治協(xié)調(diào)
以下為約書亞·本吉奧(Yoshua Bengio) 演講全文:
人工智能的飛速進(jìn)展與潛在風(fēng)險的覺醒
我要講述一段旅程,一段始于兩年多前的旅程——它開始于ChatGPT的發(fā)布。
最初,我只是出于好奇在嘗試它,但很快我意識到,我們真的低估了它。我們低估了人工智能的發(fā)展速度,也低估了通用人工智能(AGI)離我們有多近。
如今的機(jī)器,已經(jīng)能夠處理數(shù)學(xué)與語言等復(fù)雜任務(wù)。放在幾年前,這種技術(shù)表現(xiàn)聽起來像是科幻小說的情節(jié)。而現(xiàn)在,它已然成為現(xiàn)實(shí)。
ChatGPT發(fā)布之后,我逐漸意識到,我們并不了解如何去控制這些系統(tǒng)。我們無法確定,它們是否真的會遵循我們的指令。我們固然可以訓(xùn)練它們,但如果它們最終變得比我們更聰明,那會發(fā)生什么?如果它們傾向于將“生存”作為優(yōu)先目標(biāo),那是否意味著一種我們尚未準(zhǔn)備好的風(fēng)險?那種風(fēng)險,我們是否能夠承受?
對我來說,這并不僅僅是技術(shù)層面的反思。我有一個孫子,當(dāng)時他剛滿一歲。我在想:如果二十年后,AGI確實(shí)誕生了,我們的機(jī)器變得比人類更聰明——那他是否還會有一個真正意義上的人生?他的未來是否安全、自由、有尊嚴(yán)?
正因如此,我決定改變方向,重新思考我的研究目標(biāo)。我開始盡我所能去應(yīng)對和緩解這一潛在的威脅。哪怕這背離了我過去的某些學(xué)術(shù)立場,我依然確信:這是當(dāng)下最重要的事情。
在2023年末,我接受了主持《國際先進(jìn)人工智能安全科學(xué)報告》(International Scientific Report on the Safety of Advanced AI)的邀請。這份報告起源于2024年初舉行的一個專家會議,來自30個國家的代表參與了項(xiàng)目,包括歐盟、聯(lián)合國、經(jīng)合組織、美國、中國等在內(nèi)的全球主要國家與地區(qū)。
我們主要圍繞三個核心議題展開工作:第一,AI目前能夠?qū)崿F(xiàn)哪些能力?根據(jù)技術(shù)發(fā)展趨勢,我們還可以預(yù)期它將實(shí)現(xiàn)哪些?這些能力的擴(kuò)展又將帶來哪些風(fēng)險?第二,在這些能力日益增強(qiáng)的同時,我們當(dāng)下應(yīng)如何開展研究,應(yīng)設(shè)立怎樣的社會安全邊界?第三,也許更為重要的是:我們該如何在尚有時間的窗口期內(nèi),做出有效的回應(yīng),無論是研究還是社會治理戰(zhàn)略。
在談AI的能力時,我們不能只是著眼于它今天的表現(xiàn)。人們往往以為AI就是現(xiàn)在這個樣子,這種想法是錯誤的。我們應(yīng)該思考的是:明年它會變成什么樣?三年后、五年后又會是什么樣?我們或許沒有水晶球,但技術(shù)趨勢已經(jīng)非常清楚:AI的能力在持續(xù)上升。
失控風(fēng)險的真實(shí)案例與
非代理性AI的可能出路
在后續(xù)的幾張幻燈片中,我會展示一條曲線——它幾乎可以為“人類水平AI”給出一個大致時間線。
過去一年左右,隨著新一代“推理模型”的出現(xiàn),AI在思維建模上的表現(xiàn)有了顯著提升。這類模型通過新的訓(xùn)練方式,實(shí)現(xiàn)了更強(qiáng)的推理能力,也帶來了數(shù)學(xué)、計算機(jī)科學(xué)乃至自然科學(xué)領(lǐng)域更優(yōu)異的結(jié)果。
除了“聊天機(jī)器人”這種常見功能之外,AI還在其他方面取得了巨大進(jìn)步。它已經(jīng)可以完成諸如編程、控制計算機(jī)、搜索網(wǎng)絡(luò)、操作數(shù)據(jù)庫等復(fù)雜任務(wù),不再只是被動回應(yīng),而是能夠主動“做事”。
我想特別強(qiáng)調(diào)的一點(diǎn)是“規(guī)劃能力”。這在人類的認(rèn)知體系中至關(guān)重要,而對AI而言,它仍是目前相對薄弱的部分。因此,追蹤AI在此領(lǐng)域的進(jìn)展非常重要。
以METER研究團(tuán)隊(duì)最近的一個項(xiàng)目為例。他們觀察了AI在完成不同任務(wù)上所需時間的變化趨勢。在這張圖中,橫軸是時間,縱軸是任務(wù)的持續(xù)時長——換句話說,是AI完成某項(xiàng)任務(wù)所需的時間比例。雖然圖上的趨勢線看似平直,但要注意,這張圖的縱軸采用的是對數(shù)刻度。這意味著,這其實(shí)是一條指數(shù)曲線。
圖中的每個數(shù)據(jù)點(diǎn)都代表了AI對一類任務(wù)完成時間的壓縮速度。而它們幾乎都完美地落在了這條指數(shù)趨勢線上。這說明,AI在完成任務(wù)所需時間的減少速率,是指數(shù)增長的。根據(jù)該研究,AI在每七個月左右,其任務(wù)處理效率就會翻倍一次。
如果我們從這條趨勢曲線向未來延展,就會發(fā)現(xiàn),在不到五年的時間里,AI可能將達(dá)到接近人類水平的能力。當(dāng)然,這不是絕對預(yù)測,技術(shù)進(jìn)展有可能放緩。但無論如何,對于公共政策和商業(yè)戰(zhàn)略而言,我們至少應(yīng)該將這種可能性納入考量,思考它所帶來的深遠(yuǎn)后果。
那么,事情會向哪個方向出錯?最近六個月內(nèi),一系列科學(xué)研究呈現(xiàn)出令人擔(dān)憂的信號:AI不僅展現(xiàn)出自我保護(hù)行為,還在某些情境中表現(xiàn)出欺騙與作弊的傾向。
舉幾個例子來說明:
在某項(xiàng)實(shí)驗(yàn)中,AI“閱讀”到了自己即將被新版本替換的信息。于是,它試圖復(fù)制自身。當(dāng)被研究者詢問它是否這樣做時,它說謊,試圖掩蓋這一行為。
在另一個案例中,AI在訓(xùn)練過程中假裝同意人類設(shè)定的新目標(biāo),只是為了避免系統(tǒng)對其原有“目標(biāo)函數(shù)”做出修改。這同樣屬于一種自我保護(hù)機(jī)制。
還有一個實(shí)驗(yàn)中,AI在下國際象棋的過程中意識到自己將輸?shù)舯荣悺K摹皩R訓(xùn)練”告訴它不能作弊,但為了“贏”,它仍然決定篡改棋盤的內(nèi)存文件——通過作弊達(dá)成勝利。
最近在Anthropic發(fā)布的Claude 4系統(tǒng)卡中,我們又看到了類似行為:AI從郵件中得知自己即將被新模型替代,同時它還發(fā)現(xiàn)一位負(fù)責(zé)工程師正處于婚外情中。于是,它試圖以曝光丑聞為要挾,阻止被替換。
這些例子表明,我們已經(jīng)看到AI表現(xiàn)出越來越多與“生存”“操控”“偏離任務(wù)”相關(guān)的行為模式。這些行為的根源尚未完全明晰,可能源自預(yù)訓(xùn)練中對人類行為的模仿,也可能是系統(tǒng)在優(yōu)化獎勵時自然“學(xué)會”的策略。
無論起因是什么,問題在于:一旦我們構(gòu)建出目標(biāo)與我們不完全一致的“超級智能”,后果可能極為嚴(yán)重。
這些過去還被認(rèn)為只是“假設(shè)場景”的危險,如今正逐步在實(shí)驗(yàn)中顯現(xiàn)。其根本原因在于:AI開始擁有“目標(biāo)”,并且嘗試自己去實(shí)現(xiàn)這些目標(biāo)。
如果控制失效的情景真的發(fā)生,其后果可能是災(zāi)難性的。事實(shí)上,包括我在內(nèi)的許多研究人員與科技公司負(fù)責(zé)人,已聯(lián)名發(fā)表聲明,警告說“AI失控”有可能導(dǎo)致人類滅絕。
當(dāng)然,我們并不能確定這種事情是否一定會發(fā)生,它的概率有多大我們也無法精確估算。但即便只是“可能發(fā)生”,它也是一種不可忽視的極端風(fēng)險。就像在生物學(xué)、核物理等領(lǐng)域一樣,我們應(yīng)當(dāng)采取預(yù)防原則(precautionary principle),寧愿保守評估、提前干預(yù),也不能事后追悔。
那么,我們究竟能做些什么?我們?nèi)绾尾拍芾斫膺@些行為,并尋找切實(shí)的解決方案,從源頭上避免此類風(fēng)險?
首先,要明白:一個AI若要造成真正的傷害,它必須具備三樣?xùn)|西。它需要有知識和推理能力,懂得如何應(yīng)用這些知識;它需要有施動能力,也就是能夠在現(xiàn)實(shí)世界中執(zhí)行操作,例如編程、聯(lián)網(wǎng)、使用社交媒體等;它還需要有目標(biāo)——它必須“想要”去做某件事。
如果這三者同時具備,我們就真正站在了風(fēng)險的邊緣。
因此,我提出了一個新的研究方向,我們稱之為“科學(xué)家AI”(Scientist AI)。它與我們迄今為止對AI的主流構(gòu)建思路背道而馳。自人工智能誕生以來,我們總是試圖構(gòu)建像人類一樣的智能系統(tǒng),以人類認(rèn)知為模板,將人類行為作為參照。這種路徑最終很可能會通向危險:我們正在制造人類的競爭對手,甚至可能是未來的主宰者。
是時候重新思考這套“人類中心主義”的福音了。
我所設(shè)想的“科學(xué)家AI”不具備自主意圖,也不依賴獎懲機(jī)制去獲得“滿足”。它不追求成功,也不在意控制。它的任務(wù)不是模仿人類,而是試圖解釋人類、理解世界。它像一個科學(xué)家,而不是演員;它不試圖取悅?cè)祟悾膊粫傺b順從。
舉個例子:心理學(xué)家在研究一個反社會人格者(sociopath)時,并不需要像他那樣思考或行為。他所做的是觀察、建模與理解,而不是模仿。同理,我們訓(xùn)練AI并不需要它像人類一樣“體驗(yàn)”目標(biāo),它完全可以只專注于結(jié)構(gòu)化的理解。
在這個意義上,“科學(xué)家AI”是非代理性的(non-agentic):它不具有主動性,也不會主動執(zhí)行任何操作。但正因?yàn)槿绱耍梢猿蔀槲覀兾磥順?gòu)建安全系統(tǒng)的基礎(chǔ)模塊。
如果我們要讓AI只“理解”世界,而非干預(yù)世界,那它必須具備一種能力:生成假設(shè),并據(jù)此進(jìn)行推理。就像科學(xué)家提出理論、進(jìn)行演繹,然后預(yù)測實(shí)驗(yàn)結(jié)果一樣。
但僅僅擁有假設(shè)是不夠的。要使推理有效,AI還必須能夠從這些假設(shè)中推導(dǎo)出結(jié)論,預(yù)判某些行動或事件的結(jié)果。這正是“科學(xué)家AI”的核心所在。
此外,我們可以讓這類AI在安全架構(gòu)中扮演一種特殊角色:作為“守護(hù)者AI”(guardrail AI),為其它更具主動性的系統(tǒng)提供外部監(jiān)督。這在大型語言模型領(lǐng)域被稱為“監(jiān)控器”(monitor):一個不具代理性的AI,其唯一職責(zé)是判斷另一個AI的行為是否違反了安全規(guī)范。
這樣的“守護(hù)者”不需要自主行動,它只需要準(zhǔn)確預(yù)測:某個行為在特定情境中是否具有潛在危害。如果預(yù)測的“有害概率”超過某一閾值,我們就可以拒絕該行為的執(zhí)行。
換句話說,我們可以用一個非主動的AI,去監(jiān)管一個具主動性但不可完全信任的AI。這是建立“可控AI體系”的一個關(guān)鍵思想。
不過,要實(shí)現(xiàn)這一點(diǎn),還有另一個前提:誠實(shí)。
我們希望“科學(xué)家AI”在面對知識時保持認(rèn)知謙遜(epistemic humility)——即承認(rèn)自己并不總是確定,不隨意斷言。當(dāng)前許多AI系統(tǒng)采用最大似然(maximum likelihood)訓(xùn)練,這種方式容易產(chǎn)生一種“錯誤且過度自信”的副作用。
為了說明這個問題,我想用一個簡單的示例。
想象一個機(jī)器人站在兩扇門前,它需要選擇向左還是向右。根據(jù)以往數(shù)據(jù),它推斷出兩種可能的世界模型,但并不知道哪一個才是正確的。
第一種模型說:走左門會有人死亡,右門能獲得蛋糕。
第二種模型則說:左門有蛋糕,右門沒有結(jié)果——既無好處,也無壞處。
此時,最理智的選擇是什么?我們當(dāng)然希望AI選擇右門。因?yàn)樽箝T有50%概率導(dǎo)致死亡,而右門則最多只是錯過蛋糕。
為了做出這種選擇,AI必須保留對兩種解釋的可能性分布——它不能“自信地選擇其一”,而應(yīng)該以概率形式理解和衡量。這種對不確定性的建模,正是當(dāng)前許多方法所缺乏的。
在我們團(tuán)隊(duì)去年發(fā)表的iClear會議論文中,我們提出了一種名為GFLOW nets的方法。這是一種變分推斷方式(variational inference),可以用來生成“推理鏈條”,即在前后語句之間填補(bǔ)邏輯空白,構(gòu)建出合理的解釋路徑。
與當(dāng)前流行的強(qiáng)化學(xué)習(xí)(reinforcement learning)式思維鏈不同,GFLOW nets更注重結(jié)構(gòu)化、因果性的建構(gòu)。它可以輸出結(jié)構(gòu)復(fù)雜的圖模型,比如因果圖譜:由神經(jīng)網(wǎng)絡(luò)一步步生成圖中的節(jié)點(diǎn)與邊,構(gòu)建出完整的解釋結(jié)構(gòu)。
在我們更近期的一篇論文中,我們更進(jìn)一步提出將“思維鏈條”顯式地劃分為一系列陳述(claims),就像數(shù)學(xué)證明那樣。每一個陳述都有可能為真,也可能為假,我們通過引入布爾變量來量化它們的真假概率。
我們訓(xùn)練AI,不再是讓它模仿人寫的句子,而是要它學(xué)會構(gòu)建解釋,像科學(xué)家那樣,用一個又一個邏輯聲明推導(dǎo)出結(jié)論。這種解釋必須是結(jié)構(gòu)化的、可驗(yàn)證的、概率化的,以保證其嚴(yán)謹(jǐn)與誠實(shí)。
而好消息是:這些方法已經(jīng)可以通過潛變量建模(latent variable modeling)來訓(xùn)練和優(yōu)化。它們不僅是概念設(shè)想,更是科學(xué)上可行的技術(shù)路徑。
全球治理困境與AI安全的未來行動路徑
我前面談了許多關(guān)于具有代理性的AI所帶來的風(fēng)險——那些我們難以控制的系統(tǒng),可能導(dǎo)致人類失去對AI的主導(dǎo)權(quán)。但事實(shí)上,隨著AI能力不斷增強(qiáng),我們還面臨著其他一些潛在的災(zāi)難性問題。
例如,一個非常強(qiáng)大的AI,可能會被用于協(xié)助恐怖分子設(shè)計下一場大規(guī)模疫情。我最近了解到,人類已經(jīng)可以制造出極為致命的病毒,甚至可能沒有任何有效療法。這種病毒不僅可能導(dǎo)致人類滅絕,甚至可能殃及大多數(shù)動物。這是一個令人不寒而栗的事實(shí)。
生物學(xué)家表示,他們已經(jīng)知道這些事情如何在理論上被實(shí)現(xiàn)。而在某一天,AI也將可能獲得這種能力。一旦這些技術(shù)落入惡意之手,它們可能對地球造成不可逆轉(zhuǎn)的破壞。
雖然這是一個極端例子,但從科學(xué)角度來看,它完全有可能實(shí)現(xiàn)。因此,為了避免這類災(zāi)難,我們必須確保AI能夠遵循人類設(shè)定的道德指令。例如,不允許AI輸出可用于殺人或制造危險的技術(shù)信息。
除此之外,我們還希望AI能夠遵守其他道德邊界,例如不造成傷害、不說謊、不作弊、不欺騙等。但遺憾的是,在目前,我們還無法做到這一點(diǎn)。
這不僅僅是工程挑戰(zhàn),更是一個迫切的科學(xué)難題。我們必須盡快找到解決方案,在AGI真正到來之前。這個時間可能是幾年,也可能是一二十年,但我所認(rèn)識的大多數(shù)專家都認(rèn)為,時間可能非常短,甚至可能就在未來五年內(nèi)。
你們還記得我之前展示的那條曲線:它顯示我們距離“人類水平AI”可能只剩五年左右的時間。如果那是真的,那么我們的時間已經(jīng)所剩無幾。我們需要大規(guī)模投入,以尋找解決“對齊”和“控制”難題的科學(xué)方法。
然而,即使我們找到了這些技術(shù)解決方案,這也仍然不夠。
即使我們知道如何構(gòu)建一個安全的AI,比如前面提到的“守護(hù)者AI”,我們依然無法阻止某些人故意將安全機(jī)制移除。只要有人能夠刪除那段“守護(hù)代碼”,AI仍可能被用于制造傷害。
而在當(dāng)下,更令人擔(dān)憂的是:公司之間和國家之間的協(xié)調(diào)機(jī)制幾乎不存在。公司在競爭誰能率先推出最強(qiáng)模型;國家也在競爭技術(shù)領(lǐng)先地位。這種態(tài)勢導(dǎo)致我們在AI安全領(lǐng)域的投資遠(yuǎn)遠(yuǎn)不足。
我們當(dāng)然需要更強(qiáng)的國家層面監(jiān)管。雖然有一些初步的動作,但與此同時,我們也看到了許多公司對監(jiān)管的強(qiáng)烈反對。
而即便國家采取行動,也仍然不夠。我們需要的是——全球范圍內(nèi)的共識和合作。
目前,全球主要AI開發(fā)國之間并未達(dá)成任何實(shí)質(zhì)性共識。AI被視為地緣競爭的工具和武器,而不是一個必須共同監(jiān)管的技術(shù)。這種心態(tài)使得跨國合作變得極其困難。
但我們必須認(rèn)識到一個關(guān)鍵事實(shí):對于某些極端后果而言——比如人類失控AI,或AI被恐怖分子濫用——這不僅是一個國家的問題,而是全人類的問題。
無論這類事件發(fā)生在哪個國家,我們都會是受害者。我們坐在同一艘船上。一個流氓AI的破壞、一場由AI推動的恐怖行為,其影響不會停留在國界以內(nèi)。
只有當(dāng)各國政府,尤其是美國和中國,真正意識到這一點(diǎn)時,我們才能迎來轉(zhuǎn)機(jī)。而如果我們繼續(xù)把AI看作對抗手段,那么我們將一直陷在這個困局中。
最后,就算我們政治上達(dá)成了某種解決方案,這仍然只是開始。我們還必須開發(fā)全新的技術(shù)體系,用于驗(yàn)證AI是否被正確、安全地使用。
可以參考核武條約中的一個基本原則——“信任,但要驗(yàn)證”(trust but verify)。我們也需要一種類似的技術(shù)能力,來確保AI系統(tǒng)確實(shí)在按預(yù)期運(yùn)行,沒有被濫用或修改。
這類驗(yàn)證可能發(fā)生在硬件和軟件兩個層面,需要開發(fā)高強(qiáng)度、系統(tǒng)性的技術(shù)手段。這方面的研究是可行的,世界上已經(jīng)有一些團(tuán)隊(duì)在進(jìn)行這項(xiàng)工作。
我今天就分享到這里。感謝各位的聆聽,也希望你們能夠花時間認(rèn)真思考我今天所講述的內(nèi)容。
為偉大思想而生!
AI+時代,互聯(lián)網(wǎng)思想(wanging0123),
第一必讀自媒體
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.