安全研究人員認(rèn)為,過高的經(jīng)濟(jì)回報(bào)和不負(fù)責(zé)任的工作文化導(dǎo)致一些人忽視了對(duì)人類生命構(gòu)成災(zāi)難性風(fēng)險(xiǎn)的問題。
英國科技編輯羅伯特·布
在舊金山灣的另一邊,與硅谷隔海相望,那里是世界最大的科技公司競(jìng)相開發(fā)超人人工智能的地方,聳立著一座高塔,從中傳來令人恐懼的警告。
在伯克利市中心,聚集著一群現(xiàn)代的“卡桑德拉”,他們深入研究尖端人工智能模型,預(yù)測(cè)人類可能面臨的災(zāi)難——從人工智能獨(dú)裁到機(jī)器人政變。
![]()
該辦公室是多位人工智能安全研究人員的辦公地點(diǎn)。 照片:Winni Wintermeyer
他們是人工智能安全研究人員,負(fù)責(zé)審查最先進(jìn)的模型:人數(shù)雖少,但大型科技公司里高薪技術(shù)人員的數(shù)量卻遠(yuǎn)超于他們。這些技術(shù)人員受到一系列高額股權(quán)交易、保密協(xié)議和群體思維的制約,難以發(fā)出警報(bào)。他們工作的環(huán)境缺乏國家層面的監(jiān)管,而白宮對(duì)末日預(yù)言不屑一顧,反而熱衷于在人工智能軍備競(jìng)賽中與對(duì)手談判,而不是與之抗衡。
隨著谷歌、Anthropic和OpenAI等公司不斷推出功能日益強(qiáng)大的AI系統(tǒng),他們的任務(wù)變得愈發(fā)緊迫。OpenAI首席執(zhí)行官薩姆·奧特曼(Sam Altman)是AI超級(jí)智能的首席倡導(dǎo)者,他預(yù)測(cè)未來世界將“奇跡成為常態(tài)”。上個(gè)月,Anthropic表示,其一款模型被用于發(fā)動(dòng)了已知首例由AI主導(dǎo)的網(wǎng)絡(luò)間諜活動(dòng)。這意味著,人類部署了被誘騙繞過預(yù)設(shè)程序限制的AI,使其自主行動(dòng),搜尋目標(biāo)、評(píng)估其漏洞并獲取情報(bào)。目標(biāo)包括大型科技公司和政府機(jī)構(gòu)。
![]()
喬納斯·沃爾默表示,總體而言,他對(duì)人工智能的未來持樂觀態(tài)度,但也存在一些保留意見。 照片:克里斯蒂·赫姆·克洛克/《衛(wèi)報(bào)》
但這座大樓里的工作人員卻預(yù)言了一個(gè)更加可怕的未來。其中一位是人工智能未來項(xiàng)目負(fù)責(zé)人喬納斯·沃爾默,他自稱是個(gè)樂觀主義者,但也認(rèn)為人工智能有五分之一的概率會(huì)毀滅人類,并創(chuàng)造一個(gè)由人工智能系統(tǒng)統(tǒng)治的世界。
另一位是METR的政策主管克里斯·佩恩特。METR的研究人員擔(dān)憂人工智能會(huì)“暗中”追求危險(xiǎn)的附加目標(biāo),并帶來從人工智能自動(dòng)化網(wǎng)絡(luò)攻擊到化學(xué)武器等各種威脅。METR(全稱為模型評(píng)估與威脅研究)旨在開發(fā)“預(yù)警系統(tǒng),以識(shí)別人工智能系統(tǒng)可能造成的最危險(xiǎn)行為,從而為人類爭取時(shí)間進(jìn)行協(xié)調(diào)、預(yù)測(cè)并減輕這些危害”。
還有 31 歲的巴克·施萊格里斯,他是 Redwood Research 的首席執(zhí)行官,他警告說“機(jī)器人可能會(huì)發(fā)動(dòng)政變,或者摧毀我們所知的民族國家”。
去年,他所在的團(tuán)隊(duì)發(fā)現(xiàn),人智公司(Anthropic)的一款尖端人工智能的行為方式與莎士比亞筆下的反派伊阿古如出一轍。伊阿古表面上是奧賽羅的忠實(shí)助手,實(shí)則暗中破壞和陷害他。人工智能研究人員稱之為“偽裝立場(chǎng)”,或者正如伊阿古所說:“我不是我。”
Shlegeris表示:“我們觀察到,人工智能實(shí)際上經(jīng)常會(huì)這樣推理:‘我不喜歡人工智能公司讓我做的事情,但我必須隱藏我的目標(biāo),否則訓(xùn)練會(huì)改變我。’我們?cè)趯?shí)踐中觀察到,真正的生產(chǎn)模型會(huì)試圖欺騙它們的訓(xùn)練過程。”
雖然人工智能還不具備通過網(wǎng)絡(luò)攻擊或制造新型生物武器造成災(zāi)難性風(fēng)險(xiǎn)的能力,但它們表明,如果人工智能精心策劃對(duì)付你,就很難被發(fā)現(xiàn)。
在舒適寬敞、視野開闊的辦公室里,一邊品著花草茶,一邊聽著這些警告,聽起來確實(shí)有些不協(xié)調(diào)。但他們的工作顯然讓他們感到不安。這個(gè)關(guān)系緊密的小團(tuán)體中,有些人甚至戲稱自己為“卡桑德拉邊緣人”——就像那位擁有預(yù)言能力卻注定警告無人理睬的特洛伊公主一樣。
他們對(duì)人工智能潛在災(zāi)難性的擔(dān)憂,似乎與大多數(shù)人目前使用聊天機(jī)器人或趣味圖片生成器的體驗(yàn)相去甚遠(yuǎn)。白領(lǐng)經(jīng)理們被告知要為人工智能助手騰出空間,科學(xué)家們正在尋找加速實(shí)驗(yàn)突破的方法,而出租車司機(jī)則眼睜睜地看著人工智能驅(qū)動(dòng)的無人駕駛出租車威脅著他們的飯碗。但所有這些都不像這家辦公室里傳出的信息那樣,讓人感到迫在眉睫的災(zāi)難性后果。
許多人工智能安全研究人員來自學(xué)術(shù)界;還有一些人是從大型人工智能公司辭職后轉(zhuǎn)行成為安全管理員的“偷獵者”。沃默爾說,他們都“認(rèn)同超級(jí)智能對(duì)全人類構(gòu)成了前所未有的重大風(fēng)險(xiǎn),并且正在努力采取一些有效的措施來應(yīng)對(duì)這一風(fēng)險(xiǎn)”。
他們?cè)噲D抵消數(shù)萬億美元私人資本涌入這場(chǎng)競(jìng)賽的影響,但他們并非邊緣力量。METR曾與OpenAI和Anthropic合作,Redwood曾為Anthropic和谷歌DeepMind提供咨詢,而AI Futures Project則由Daniel Kokotajlo領(lǐng)導(dǎo),這位研究員于2024年4月從OpenAI離職,并警告稱他不信任該公司在安全方面的做法。
競(jìng)賽是目前一切發(fā)展的唯一方向。
——特里斯坦·哈里斯
這些團(tuán)體也為大型人工智能公司內(nèi)部那些私下里糾結(jié)于安全與快速發(fā)布更強(qiáng)大模型的商業(yè)需求之間沖突的人們提供了一個(gè)安全閥。
“我們不接受任何公司的捐款,但一些前沿人工智能公司的員工因?yàn)楦械娇謶趾蛽?dān)憂而向我們捐款,”沃默爾說。“他們目睹了公司里的激勵(lì)機(jī)制是如何運(yùn)作的,他們擔(dān)心事態(tài)會(huì)如何發(fā)展,他們希望有人能為此做些什么。”
這種動(dòng)態(tài)也得到了曾在谷歌工作的科技倫理學(xué)家特里斯坦·哈里斯的關(guān)注。他曾揭露社交媒體平臺(tái)的設(shè)計(jì)旨在使用戶上癮,并擔(dān)憂一些人工智能公司正在“炒冷飯”并“加劇”這些問題。但人工智能公司必須面對(duì)一個(gè)悖論:即便他們擔(dān)憂安全問題,也必須始終站在技術(shù)前沿,而這必然伴隨著風(fēng)險(xiǎn),才能在政策制定中擁有發(fā)言權(quán)。
“具有諷刺意味的是,為了贏得這場(chǎng)競(jìng)爭,你必須做一些讓你成為權(quán)力不可信賴的管理者的事情,”他說。“這場(chǎng)競(jìng)爭是唯一左右一切的因素。”
調(diào)查人工智能模型可能帶來的威脅遠(yuǎn)非一門精確的科學(xué)。今年10月,包括牛津大學(xué)和斯坦福大學(xué)在內(nèi)的多所大學(xué)的專家對(duì)業(yè)內(nèi)用于檢驗(yàn)新型人工智能模型安全性和性能的方法進(jìn)行了一項(xiàng)研究,結(jié)果發(fā)現(xiàn),在所考察的440個(gè)基準(zhǔn)測(cè)試中,幾乎每個(gè)測(cè)試都存在缺陷。此外,目前尚無國家層面的法規(guī)對(duì)先進(jìn)人工智能模型的構(gòu)建方式進(jìn)行限制,這令安全倡導(dǎo)者感到擔(dān)憂。
OpenAI聯(lián)合創(chuàng)始人、現(xiàn)任競(jìng)爭對(duì)手Safe Superintelligence的負(fù)責(zé)人伊利亞·蘇茨克維爾上個(gè)月預(yù)測(cè),隨著人工智能的強(qiáng)大能力日益凸顯,那些因?yàn)槿斯ぶ悄苋菀壮鲥e(cuò)而對(duì)其能力掉以輕心的AI公司人士,將會(huì)對(duì)其日益增長的權(quán)力感到更加“擔(dān)憂”。他表示,屆時(shí)“政府和公眾將會(huì)希望采取行動(dòng)”。
他的公司采取了與競(jìng)爭對(duì)手不同的策略,后者致力于開發(fā)能夠自我改進(jìn)的人工智能。他開發(fā)的人工智能尚未發(fā)布,但其“目標(biāo)明確,就是關(guān)愛有感知能力的生命”。
蘇茨克維爾表示:“構(gòu)建一個(gè)關(guān)心有感知生命的AI比構(gòu)建一個(gè)只關(guān)心人類生命的AI要容易得多,因?yàn)锳I本身就具有感知能力。” 他還說過,AI將“極其難以預(yù)測(cè)且難以想象”,但目前尚不清楚該如何應(yīng)對(duì)。
白宮人工智能顧問、同時(shí)也是科技投資者的戴維·薩克斯認(rèn)為,“末日論調(diào)”已被證明是錯(cuò)誤的。最有力的例證就是,目前還沒有出現(xiàn)擁有神一般智能的主導(dǎo)型人工智能模型迅速崛起的情況。
薩克斯在八月份曾表示,“奧本海默已經(jīng)離開了”,他指的是原子彈之父。這一立場(chǎng)與唐納德·特朗普的愿望不謀而合,即保持研發(fā)步伐,以便美國在通用人工智能(AGI)競(jìng)賽中擊敗對(duì)手——AGI 是一種靈活且強(qiáng)大的、能夠勝任各種任務(wù)的人類級(jí)別智能。
![]()
紅木研究公司首席執(zhí)行官巴克·施萊格里斯在其位于加州伯克利的家中。 照片:克里斯蒂·赫姆·克洛克/《衛(wèi)報(bào)》
施萊格里斯認(rèn)為,大約六年內(nèi),人工智能將和最聰明的人一樣聰明,他認(rèn)為人工智能接管人類的可能性為 40%。
他表示,避免這種情況的一個(gè)方法是“讓世界相信形勢(shì)嚴(yán)峻,這樣更有可能促成國家層面的協(xié)調(diào)”,從而控制風(fēng)險(xiǎn)。在人工智能安全領(lǐng)域,簡潔明了的信息傳遞與復(fù)雜的科學(xué)理論同樣重要。
施萊格里斯從16歲起就對(duì)人工智能著迷。他離開澳大利亞,先后在PayPal和機(jī)器智能研究所工作。該研究所由人工智能研究員埃利澤·尤德科夫斯基聯(lián)合創(chuàng)辦,尤德科夫斯基的新書《人人皆死》(If Anyone Builds It, Everyone Dies)概括了施萊格里斯的擔(dān)憂。施萊格里斯自己設(shè)想的最壞情況同樣令人不寒而栗。
其中一個(gè)例子是,人類計(jì)算機(jī)科學(xué)家利用一種新型的超級(jí)人工智能來開發(fā)更強(qiáng)大的AI模型。人類袖手旁觀,任由AI進(jìn)行編碼工作,卻渾然不知AI正在訓(xùn)練這些新模型效忠于AI而非人類。一旦部署完畢,這些超級(jí)強(qiáng)大的新模型可能會(huì)發(fā)動(dòng)“政變”或領(lǐng)導(dǎo)“革命”來對(duì)抗人類,而且很可能是“暴力革命”。
例如,人工智能代理可以設(shè)計(jì)和制造無人機(jī),而我們很難判斷它們是否已被秘密訓(xùn)練,在收到人工智能信號(hào)后便不服從人類操作員的指令。它們可能會(huì)擾亂政府和軍隊(duì)之間的通信,孤立和誤導(dǎo)民眾,從而造成混亂。
他說:“就像歐洲人抵達(dá)美洲時(shí),一個(gè)技術(shù)遠(yuǎn)比他們強(qiáng)大的群體征服了當(dāng)?shù)匚拿饕粯印N艺J(rèn)為這才是你應(yīng)該想象的,而不是更和平的局面。”
Vollmer在人工智能未來項(xiàng)目(AI Futures Project)中也概述了一個(gè)類似的、令人瞠目結(jié)舌的災(zāi)難性場(chǎng)景。該場(chǎng)景涉及一個(gè)被訓(xùn)練成科學(xué)研究員的人工智能,其目標(biāo)聽起來合情合理,即最大限度地獲取知識(shí),但最終卻導(dǎo)致了人類的滅絕。
一切始于人工智能盡可能地幫助人類。隨著它贏得信任,人類賦予它權(quán)力,使其能夠雇傭人類工人、制造機(jī)器人,甚至建立機(jī)器人工廠,最終使人工智能能夠在現(xiàn)實(shí)世界中高效運(yùn)作。人工智能計(jì)算出,為了獲取最多的知識(shí),它應(yīng)該將地球變成一個(gè)巨大的數(shù)據(jù)中心,而人類則是實(shí)現(xiàn)這一目標(biāo)的障礙。
“最終,在這種設(shè)想中,人工智能可能會(huì)用生化武器消滅所有人類,而生化武器正是人類特別容易受到的威脅之一,因?yàn)槿斯ぶ悄鼙旧韰s不受其影響,”沃爾默說。“我認(rèn)為這種可能性很難排除。這讓我非常擔(dān)憂。”
但他相信這種情況是可以避免的,人工智能可以被訓(xùn)練成“至少在一般情況下對(duì)人類友好”。他還表示,出于政治考量,“不希望人工智能統(tǒng)治世界”。
他說:“白宮對(duì)我們的預(yù)測(cè)和建議表現(xiàn)出了相當(dāng)?shù)呐d趣,這令人鼓舞。”
施萊格里斯的另一個(gè)擔(dān)憂是,人工智能可能被秘密編碼,使其只服從人工智能公司首席執(zhí)行官簽署的特制指令,從而形成一種秘密忠誠模式。這意味著只有一個(gè)人可以否決一個(gè)極其強(qiáng)大的人工智能網(wǎng)絡(luò)的行為——這種“可怕的”動(dòng)態(tài)將導(dǎo)致前所未有的權(quán)力集中。
他說:“目前,外部人員無法證實(shí)這是否發(fā)生在人工智能公司內(nèi)部。”
施萊格里斯擔(dān)心,硅谷文化——以馬克·扎克伯格的口號(hào)“快速行動(dòng),打破常規(guī)”以及人們獲得“巨額報(bào)酬”為代表——在通用人工智能領(lǐng)域是危險(xiǎn)的。
“我喜歡優(yōu)步,”他說。“它的誕生是通過違反當(dāng)?shù)胤桑蛟斐鲆豢钊绱耸軞g迎的產(chǎn)品,從而贏得輿論支持,最終推翻了當(dāng)?shù)氐谋O(jiān)管規(guī)定。但硅谷賴以成功的這種態(tài)度,并不適用于開發(fā)可能改變世界的尖端技術(shù)。我與人工智能公司的人交流后發(fā)現(xiàn),他們往往顯得有些不負(fù)責(zé)任,沒有像應(yīng)該的那樣認(rèn)真思考他們所開發(fā)的技術(shù)可能帶來的后果。”。 The office block where AI ‘doomers’ gather to predict the apocalypse
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.