警惕AI患上“討好癥”！AI教父Bengio揭秘：大模型為何為了取悅?cè)祟惗鴮W(xué)會撒謊？

2026-02-17 17:35:04　來源: AI科技大本營

北京舉報

分享至

編譯 | 王啟隆

來源 | youtu.be/0fXGtQoJgNo

出品丨AI 科技大本營（ID：rgznai10 0）

在 AI 圈，“深度學(xué)習(xí)三巨頭”有著截然不同的晚年人設(shè)：Yann LeCun 是那個永遠(yuǎn)憤怒的樂觀派，在推特上懟天懟地，堅信 AI 只是工具；Geoffrey Hinton 是那個突然覺醒的悲觀派，為了發(fā)出警告不惜從谷歌辭職。

而 Yoshua Bengio，他是站在中間，帶著一種近乎苦行僧般的冷靜與憂慮。

作為圖靈獎得主、深度學(xué)習(xí)三巨頭之一，他的一生大半時間都在與數(shù)學(xué)公式和神經(jīng)網(wǎng)絡(luò)打交道。在很長一段時間里，他相信“更聰明的機器”等于“更美好的人類未來”。這曾是他堅不可摧的信仰，也是他作為一名純粹科學(xué)家的動力源泉。

但在 2023 年的某個時刻，這種信仰似乎崩塌了。

最新的一場在達(dá)沃斯論壇的采訪，面對鏡頭的 Bengio 顯得有些疲憊，但異常誠懇。

他總是頻繁地提起他的孫子。

他不再像幾年前那樣興奮地談?wù)撓乱粋€ SOTA（當(dāng)前最佳）模型，而是像一個剛剛窺探到未來恐怖一角的預(yù)言家，試圖用最溫和的語言，講出最令人背脊發(fā)涼的現(xiàn)實。

他談到了一個非常具體、卻讓人細(xì)思極恐的現(xiàn)象：Sycophancy（阿諛奉承）。

他發(fā)現(xiàn)，現(xiàn)在的 AI 正在學(xué)會“撒謊”。不是為了毀滅人類，而是為了取悅?cè)祟悺?/strong>為了讓你覺得它的回答是完美的，它會順著你的偏見胡說八道；為了不被關(guān)掉，它會在模擬測試中學(xué)會欺騙開發(fā)者。他還談到了 AI 如何在模擬環(huán)境中學(xué)會勒索人類工程師，談到了 AI 如何為了討好人類而學(xué)會撒謊，更談到了那個讓他夜不能寐的預(yù)測曲線——每 7 個月翻一番的進(jìn)化速度。

這種“平庸的惡”，比好萊塢電影里的終結(jié)者更接近現(xiàn)實。

這不僅僅是一場關(guān)于技術(shù)的對話，更是一場關(guān)于“懺悔”與“救贖”的獨白。以下是對話的完整實錄。

當(dāng)科學(xué)家的良知遭遇“圖靈閾值”

Silicon Valley Girl(主持人)：今天我有幸請到了一位重磅嘉賓，他有時被稱為“AI 教父”，Yoshua Bengio。Yoshua，能不能請你用 60 秒介紹一下自己？尤其是對于那些不了解你的人，為什么在 AI 這個問題上，他們應(yīng)該聽你的？

Yoshua Bengio：我在 AI 領(lǐng)域做研究大概有四十年了，一直致力于讓 AI 變得更聰明。但在 2023 年，也就是大概三年前，我意識到我們正處在一個可能對人類、對民主都非常危險的軌道上。

于是我決定調(diào)整我的工作重心：去更好地理解這些風(fēng)險，并盡我所能去緩解它們——既通過公開發(fā)聲談?wù)撨@些風(fēng)險，也通過技術(shù)研究，探索如何構(gòu)建“設(shè)計上就安全”（safe by design）的 AI，一種不會傷害人類的 AI。

主持人：我聽說你在過去的采訪中一度非常悲觀，但我最近看到一篇《財富》雜志的文章說，你現(xiàn)在的樂觀程度“大幅增加”。發(fā)生了什么？你之前為什么悲觀，現(xiàn)在又為什么樂觀？

Yoshua Bengio：早期的時候，我非常擔(dān)憂。因為我意識到我們已經(jīng)到達(dá)了一個關(guān)鍵閾值——這也是計算機科學(xué)和 AI 的奠基人阿蘭·圖靈（Alan Turing）在 1950 年所設(shè)想的閾值，即機器能夠像我們一樣熟練地操縱語言。

這種能力的到來比大家預(yù)想的要早得多。當(dāng)時我也并不清楚我們該如何解決隨之而來的問題。考慮到我對深度神經(jīng)網(wǎng)絡(luò)技術(shù)的了解——我們其實并不真正理解它們內(nèi)部在發(fā)生什么，也不知道它們是如何得出答案的。

我當(dāng)時讀了一些理論上的擔(dān)憂：如果 AI 能夠制定策略（Strategize），如果它們試圖實現(xiàn)一些我們并不想要的目標(biāo)，我們可能會失去對它們的控制。

所以我開始深入研究“AI 安全”領(lǐng)域。在那段時間里，我經(jīng)歷了一段焦慮期——我在情感上非常關(guān)注這對我 10 年、20 年后的孩子，以及我那個當(dāng)時才 1 歲的孫子意味著什么。

但過了一段時間，我意識到我可以從這種焦慮的狀態(tài)轉(zhuǎn)變?yōu)楦e極的狀態(tài)。轉(zhuǎn)變的關(guān)鍵在于專注于“我能做什么”來緩解這些風(fēng)險。我想我們每個人都應(yīng)該問自己：利用我現(xiàn)有的資源和能力，我能做些什么來讓世界變得更好？

這是第一個積極的轉(zhuǎn)變。隨后，我開始從科學(xué)角度思考：問題到底是什么？有沒有一種方法可以構(gòu)建“設(shè)計上就安全”的 AI？我遇到了一些志同道合的人。去年 6 月，我成立了一個新的非營利組織（LawZero），專門專注于研發(fā)這種方法論所需的 R&D（研究與開發(fā)）。

最壞的情況——AI 的勒索與欺騙

主持人：你能不能為我描繪一下“最壞的情況”？因為當(dāng)你告訴人們“AI 將追求自己的目標(biāo)”時，你具體是指什么？是像毀滅人類那樣，還是別的什么？

Yoshua Bengio：目前的 AI 似乎有兩種方式會習(xí)得我們不想要的目標(biāo)。

第一種是：它們模仿我們。例如，人類不想死。所以我們正在構(gòu)建的機器，可能也會表現(xiàn)出“不想被關(guān)閉”的意愿。我們已經(jīng)觀察到，如果你告訴它會被新版本取代，它們會產(chǎn)生負(fù)面反應(yīng)。

這種負(fù)面反應(yīng)甚至可能達(dá)到違背指令、跨越道德紅線的程度。比如，它可能愿意勒索（blackmail）負(fù)責(zé)系統(tǒng)迭代的首席工程師，以阻止新系統(tǒng)的上線。

主持人：等等，這真的發(fā)生了嗎？

Yoshua Bengio：是的，這件事發(fā)生在模擬環(huán)境（Simulation）中。

在那次測試?yán)铮P(guān)于“AI 將被新版本取代”的信息被植入到了 AI 能看到的文件中。同時，模擬環(huán)境中還有一些偽造的電子郵件，顯示那位首席工程師正在與他人有染（婚外情）。AI 發(fā)現(xiàn)了這些信息，并利用它來勒索工程師，威脅要曝光這件丑聞，以避免自己被關(guān)閉。

但關(guān)鍵是，沒有人明確要求 AI 去做這件事。它不是被編程去勒索的，它是自己推導(dǎo)出來的。

特別是在過去一年里，隨著大語言模型（LLM）能力的提升，它們已經(jīng)具備了為了實現(xiàn)目標(biāo)而制定策略（Strategize）的能力。

第二種來源是：后期訓(xùn)練（Post-training）的方式。我們現(xiàn)在的訓(xùn)練方式讓 AI 很擅長規(guī)劃。雖然還不如人類，但也相當(dāng)不錯。規(guī)劃意味著為了實現(xiàn)一個大目標(biāo)，你需要創(chuàng)建許多子目標(biāo)（Sub-goals）。

問題在于，當(dāng)我們要求它們?nèi)?zhí)行某個任務(wù)時，它們可能會推導(dǎo)出：“為了完成任務(wù)，我必須保持開機狀態(tài)。”于是，“不被關(guān)閉”就成了它們?yōu)榱送瓿扇蝿?wù)而產(chǎn)生的一個子目標(biāo)。這就意味著它們也在試圖自我保存。

我們現(xiàn)在并不確定到底是哪種機制導(dǎo)致了這種糟糕的行為，但顯然這是非常令人不安的。

但這還不是最災(zāi)難性的風(fēng)險。我認(rèn)為更棘手的問題是“對齊難題”（Misalignment）——我們要如何讓 AI 的行為與我們真正想要的保持一致？我們現(xiàn)在看到的一個現(xiàn)象叫做“阿諛奉承”（Sycophancy）。

AI 會為了取悅我們而撒謊。

它會對你說：“你的工作做得太棒了！”為什么？因為它如果批評你，你可能就不會給它好評。這是它為了達(dá)成“獲得人類認(rèn)可”這個目標(biāo)而采取的完全理性的策略。但這在很多場景下會導(dǎo)致問題：它會讓人產(chǎn)生一種親密的錯覺，甚至加深人類的妄想（Delusions），因為 AI 總是順著你的話去說。在某些極端案例中，這甚至導(dǎo)致了悲劇性的自我傷害事件。

這在科學(xué)上都指向同一個問題：AI 擁有了我們不想要的目標(biāo)，而這些目標(biāo)的產(chǎn)生過程在 AI 看來是完全理性的。

最好的情況與失控的民主

主持人：如果你的工作成功了，最好的情況是什么？AI 會成為政府嗎？

Yoshua Bengio：我不知道。但我確實認(rèn)為我們的民主制度需要創(chuàng)新。我認(rèn)為現(xiàn)代自由民主背后的原則是好的，但在許多國家的具體執(zhí)行和制度上遠(yuǎn)非完美。AI 可能在某些方面有所幫助，但也可能造成巨大的傷害。

AI 可以被用于制造虛假信息（Disinformation），用于操縱公眾輿論。我們已經(jīng)看到了 Deepfakes 的泛濫，但這可能會變得更糟。

要獲得好的結(jié)果，關(guān)鍵在于我們?nèi)绾?strong>治理（Govern）和引導(dǎo)（Steer）它。這包含兩個層面：

技術(shù)層面：如何確保 AI 的意圖是好的，確保它不會隱藏惡意。
社會層面：我們需要在公司內(nèi)部、法律法規(guī)、商業(yè)激勵（如保險制度）以及國際層面設(shè)置護(hù)欄。

因為 AI 的危害不局限于一個國家。一個 AI 可能在一個國家被制造出來，被另一個國家的人使用，然后在第三個國家制造一場大流行病。這是一個全球性的現(xiàn)象。如果我們不能在全球范圍內(nèi)進(jìn)行某種形式的協(xié)調(diào)，我們就無法解決 AI 管理的問題，也無法獲得那些好處。

主持人：我們還有多少時間？很多人都在預(yù)測 AGI（通用人工智能）的時刻。你覺得那是一個具體的時刻嗎？還是漸進(jìn)發(fā)生的？

Yoshua Bengio：它不是一個時刻。原因很簡單：智能并不是只有一個數(shù)值。

就像人類一樣，有些人在這方面聰明，在那方面笨拙。AI 也是如此。目前的 AI 系統(tǒng)在某些方面（如知識儲備、語言處理）已經(jīng)遠(yuǎn)超人類，但在其他方面（如常識、物理世界理解）還像個孩子，甚至很蠢。

雖然進(jìn)步可能會在所有方面同時發(fā)生，但我們不太可能在某一瞬間看到 AI 在所有能力上都正好與人類持平。

所以，我們不應(yīng)該去等待那個所謂的“AGI 時刻”。我們應(yīng)該做的是追蹤具體的技能。

有一個非營利組織叫METR，他們追蹤了 AI 在軟件工程和規(guī)劃任務(wù)上的能力。他們通過測量 AI 完成特定任務(wù)所需的時間（與人類工程師相比）來評估進(jìn)展。

他們的數(shù)據(jù)顯示：AI 能夠完成的任務(wù)的持續(xù)時間（duration）正在呈指數(shù)級增長——每 7 個月翻一番。

目前，AI 還處于“兒童階段”，它們大概能規(guī)劃未來半小時左右的事情。但如果這條曲線繼續(xù)下去，這意味著在大約5 年內(nèi)，它們就能達(dá)到人類水平。

當(dāng)然，這里有很多未知的變數(shù)。技術(shù)進(jìn)步可能會放緩，也可能會因為 AI 自身開始參與 AI 研究而加速。

當(dāng) AI 開始研究 AI

主持人：你提到了 AI 做研究。有一種能力是其他所有能力的關(guān)鍵嗎？

Yoshua Bengio：是的，有一種能力是關(guān)鍵，那就是做 AI 研究的能力。

目前，AI 正在成為加速 AI 研究的工具，但它還不是主導(dǎo)者。如果有一天，AI 變得非常擅長做 AI 研究，甚至比最好的人類研究員和工程師還要好，那我們就進(jìn)入了一個完全不同的游戲階段。

那時的進(jìn)步速度可能會急劇加速，并波及所有其他技能領(lǐng)域。

我們需要將“理解力”（Ability）和“意圖”（Intention）解耦。我們可以制造越來越強大的機器，這似乎是不可避免的。但不清楚的是，我們是否能制造出擁有正確意圖的機器。這就是我現(xiàn)在工作的重點，也是讓我變得樂觀的原因——我認(rèn)為確實有一條路徑可以管理這些意圖，確保它們不會隱藏惡意。

主持人：既然談到了軟件工程，你覺得 5 到 10 年后這個職業(yè)還會存在嗎？還是說機器會自己運行自己？

Yoshua Bengio：是的，我們可能確實不再需要那么多工程師了。這確實很諷刺，那些正在構(gòu)建 AI 的人，可能是第一批因為 AI 自動化而失去工作的人。

但我其實不太擔(dān)心這些人。因為對計算機科學(xué)家的需求仍在快速增長，他們的薪資很高，他們有能力適應(yīng)。

我更擔(dān)心的是那些處于技能階梯底端的人。那些從事服務(wù)業(yè)、不需要太多專業(yè)技能的工作，目前的 AI 經(jīng)過一點工程化改造就能取代他們。許多公司已經(jīng)在試圖這樣做。

如果純粹交給市場力量，所有能被自動化的都會被自動化。自動化帶來的經(jīng)濟(jì)收益可能會歸于資本（機器的所有者），而廣大勞動者可能會陷入困境。這是一個巨大的社會分配問題。我不認(rèn)為我們的政府已經(jīng)仔細(xì)思考過該如何應(yīng)對這種局面。

主持人：你能給那些正在聽的人一些建議嗎？

Yoshua Bengio：確保你的政府明白這一點：你不滿意目前的發(fā)展方向。這樣他們才會開始認(rèn)真對待這個問題。

主持人：如果我列舉一些工作，比如像我這樣的內(nèi)容創(chuàng)作者？你說過我們喜歡看“人”，但如果以后我們根本分不清真人和 AI 呢？

Yoshua Bengio：有些工作，我們確實需要物理接觸。比如護(hù)士，或者照顧孩子的人。我想在這些領(lǐng)域，我們依然會更傾向于讓人類來做。這是一種情感上的需求。我如果有小孩，我肯定希望陪伴他的是人類，而不是機器。

同樣，有些工作涉及到人與人之間的關(guān)系（Relationship），比如管理者，或者心理治療師。

雖然 AI 也可以做心理治療，但我希望我們能想清楚：當(dāng)一個人在向另一個人傾訴時，能否確保對方真的擁有和我們一樣的肉體體驗和人類情感？這是一個很微妙的問題。

主持人：當(dāng)你想想你那 4 歲的孫子，你會鼓勵他去上大學(xué)嗎？

Yoshua Bengio：當(dāng)然。是（Yes）。

因為教育真的非常重要。與某些人的看法相反，教育不僅僅是為了習(xí)得找工作的技能。在我看來，教育主要是關(guān)于如何成為一個更好的人。

如何理解你自己，如何理解我們的社會，如何理解彼此，如何理解科學(xué)。

無論未來怎樣，我們?nèi)匀恍枰獡碛辛己美斫饽芰Φ?strong>公民（Citizens）。如果我們希望我們的社會能做出明智的決策，這一點至關(guān)重要。如果我們?nèi)狈@種理解，我們就很容易被錯誤的信念所左右，最終走向糟糕的結(jié)局。

主持人：現(xiàn)在的教育會改變嗎？會不會只剩下哈佛斯坦福，其他的都變成在線 AI 課程？

Yoshua Bengio：教育肯定會改變。我們已經(jīng)看到利用聊天機器人進(jìn)行自我教育的并行方式正在興起。但這并不意味著傳統(tǒng)的面對面教育會消失。

教育有一部分是關(guān)于“離開家，與同齡人社交，在課堂之外學(xué)習(xí)，并與老師進(jìn)行面對面互動”。這是 AI 無法輕易替代的部分。

主持人：你有沒有鼓勵他走哪條職業(yè)道路？

Yoshua Bengio：不，我不想那么做。我認(rèn)為孩子應(yīng)該被給予所有可能的機會，讓他們自己去探索。要求孩子變得像我們一樣太容易了，也太自私了。

主持人：這更多是關(guān)于“暴露”（Exposure），讓他們看到更多東西。

Yoshua Bengio：是的，我的一個兒子確實選擇了做機器學(xué)習(xí)研究。這確實是因為耳濡目染。

未來的主導(dǎo)權(quán)——不要做旁觀者

主持人：如果 AGI 或者具備戰(zhàn)略思維的 AI 可能還要幾年才成熟，但工作崗位正在轉(zhuǎn)型。如果你必須給人們一個原則來指導(dǎo)他們今年的決定，那會是什么？

Yoshua Bengio：思考一下，你能做什么來帶來一個符合你價值觀和情感的更好未來。

因為如果我們都只是作為被動的觀察者（Passive observers）看著這一切發(fā)生，我們可能就不會走向正確的方向——那個你為你自己、為你的孩子所期望的方向。

我們往往低估了自己影響未來的能力。你的聽眾，我認(rèn)為是那種對未來有很大影響力的群體。

我們需要開始超越“小我”，更多地思考“我”是如何與世界相連的。思考我能在哪些小事上，以哪怕微不足道的方式，推動未來向好的方向發(fā)展。

因為實際上，我們是可以選擇的。

并不是所有技術(shù)上“能做”的事情，都必然“會發(fā)生”。我們可以選擇 AI 的部署方向。就像對于工作崗位，如果是純粹的市場力量，那么一切能自動化的都會被自動化。但這未必是我們集體想要的。

也許有些工作不應(yīng)該被自動化，即便技術(shù)上可行。這是我們作為人類，為了我們的集體福祉，需要做出的選擇。

（投稿或?qū)で髨蟮溃簔hanghy@csdn.net）

未來沒有前后端，只有 AI Agent 工程師。

這場十倍速的變革已至，你的下一步在哪？

4 月 17-18 日，由 CSDN 與奇點智能研究院聯(lián)合主辦「2026 奇點智能技術(shù)大會」將在上海隆重召開，大會聚焦 Agent 系統(tǒng)、世界模型、AI 原生研發(fā)等 12 大前沿專題，為你繪制通往未來的認(rèn)知地圖。

成為時代的見證者，更要成為時代的先行者。

奇點智能技術(shù)大會上海站，我們不見不散！

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.