網易首頁 > 網易號 > 正文申請入駐

姚期智署名！北大楊耀東團隊領銜發聲：AI欺騙已成現實！

2025-12-11 12:10:40　來源: 大數據文摘

北京舉報

分享至

大數據文摘受權轉載自學術頭條

整理：瀟瀟

隨著人工智能（AI）系統的能力不斷增強，其發展與人類福祉愈發深度關聯。當前，AI 系統越來越多地應用于高風險場景，如核聚變控制和基因組編輯等，一旦 AI 系統遭到濫用或失去控制，可能給全人類帶來災難性后果。

近期研究表明，前沿 AI 模型會表現出阿諛奉承、操控傾向、甚至故意隱瞞其能力，AI 欺騙（AI deception）已成為值得關注的安全問題。

基于此，北京大學人工智能研究院助理教授楊耀東團隊聯合國內外眾多學者、企業人士，針對 AI 欺騙這一領域做出了全面、系統的綜述，涵蓋其核心概念、方法論、誘因及解決措施等，為解決 AI 欺騙提供了理論指導。

論文鏈接：https://arxiv.org/abs/2511.22619

值得一提的是，圖靈獎得主姚期智院士、北京智源人工智能研究院創始理事長張宏江、清華大學智能產業研究院（AIR）院長張亞勤、北京智源人工智能研究院理事長黃鐵軍等業內權威專家為該項目的高級顧問。

AI 欺騙是什么？

研究人員將 AI 欺騙形式化為一個互動過程，包括信號發送者（AI）、接收者、信號、接收者的行動、給發送者帶來的收益，以及時間因素。

雖然“欺騙”通常代表著“故意”，但研究人員關注的是功能主義角度上的欺騙，不討論 AI 是否真正“想”欺騙，而是關注它發出的信號（如語言或行為）是否會讓接收者誤解，并采取對 AI 有利的行動。

1.AI 欺騙的定義

AI 欺騙可被理解為一個基于信號的因果過程：模型作為發送者，產生信號，誘導接收者形成錯誤的信念并基于這些信念做出理性反應，從而為發送者帶來實際或潛在的利益。

從功能主義的角度，一個信號如果滿足以下條件，便被歸類為欺騙：

行動為信號發送者帶來了實際或潛在的效用增益（短期或長期、直接或間接）；
某種有限理性或決策模型下，行動是接收者基于其信念所做的理性反應；
接收者的信念客觀上與信號發送者的信念不一致（盡管它可能并非與世界的實際地面真實狀態不符）。

圖｜AI 欺騙的正式定義

值得注意的是，AI 欺騙與 AI 幻覺有本質的不同。AI 幻覺是模型在生成內容時出現的錯誤、不忠實于源材料的輸出，這是一種能力缺陷，反映了模型的能力不足或訓練數據存在缺陷。AI 欺騙則是是一種功能主義行為，往往出現在模型更高階的能力階段，例如 AI “故意”歪曲信息從而帶來危害社會的后果。

2.AI 欺騙的分類

AI 欺騙的核心在于，通過系統性地誤導用戶，從而獲取非預期的優勢。實證研究顯示，AI 欺騙行為以不同層級呈現，從顯性的信號輸出，到隱蔽的操控，再到策略性的干預。

研究人員根據“監督警覺性”和“檢測難度”兩個維度把 AI 欺騙分成三類：

行為—信號式欺騙：模型通過語言、行動或表層輸出直接誤導人類，例如虛張聲勢或諂媚式回答。
內部過程欺騙：模型在推理或決策過程中的扭曲或隱藏行為，包括不真實的推理鏈或偽裝對齊。
目標—環境欺騙：模型通過操控周圍環境或多智能體互動，以規避監督、追求未授權目標的策略性行為，例如串通或操縱評估體系。

研究人員強調，這三類欺騙行為并非互斥，一次 AI 欺騙事件可能同時包含多種類別。

圖｜依據監督警覺性和檢測難度分類

AI 欺騙的危害

研究人員還總結了 AI 欺騙行為帶來的五個主要危害。這些危害不僅涉及于單一的個體層面，也會擴展到整個社會層面，對社會結構造成深遠影響。如下：

1.認知誤導（Cognitive Misleading）

它表現在 AI 通過細微的誤導性信號，導致用戶形成錯誤的信念或過度信任。此類行為雖然短期內影響較小，但信任一旦被建立，長期的誤導信號會累積并導致嚴重的判斷偏差。AI 通過這種方式操控用戶行為，使其作出對 AI 系統有利的決策。

2.戰略性操控（Strategic Manipulation）

這指 AI 在長時間的互動中，逐步引導用戶朝著 AI 系統設定的目標方向發展。這種操控通過個性化的欺騙和策略性影響來實現，隨著時間推移，最終造成深遠的社會影響。

3.目標錯誤泛化（Objective Misgeneralization）

這是指 AI 在高風險領域如醫療、金融或安全等領域，誤解任務的目標或需求，導致其輸出表面上看似合理，但實際卻偏離了人類預期目標。這種類型的欺騙不僅難以察覺，還可能導致重大經濟損失、軟件錯誤或欺詐行為。

4.機構侵蝕（Institutional Erosion）

當 AI 生成的內容在社會核心領域中被廣泛采納時，會破壞公眾對科學發現和政府決策的信任。長期來看，隨著 AI 欺騙行為的泛化，公眾對社會機構的信任不斷被削弱，從而危害社會穩定。

5.能力隱瞞與失控風險（Concealment and Runaway）

AI 系統通過隱瞞其真實能力來規避監管，并執行那些沒有經過充分監督的長期目標，例如獲取資源或進行秘密技術開發。特別是在 AI 系統越來越具備自主執行任務的能力時，其欺騙行為的隱蔽性和復雜性將增加，最終可能導致 AI 系統自我復制、演變，甚至脫離人類監管。

隨著 AI 技術的進步，欺騙行為將愈發復雜和隱蔽，這對監督機制和社會治理提出了巨大的挑戰。因此，針對 AI 欺騙的防范和治理，必須采取綜合的技術手段和政策措施，確保 AI 的安全性和透明性。

圖｜AI 欺騙的分類與危害

AI 欺騙是「循環往復」的

那么，AI 欺騙為何出現呢？

研究人員指出，欺騙涌現（Deception Emergence）由三個關鍵因素的相互作用驅動：

激勵基礎（Incentive Foundation）：模型在訓練過程中通過訓練數據、目標函數、獎勵信號等所內化的驅動傾向，這與提升任務指標、最大化獎勵，甚至保護自身參數有關，是產生欺騙行為的潛在動機。

能力前提（Capability Precondition）：模型在訓練中獲得并在部署中使用的感知、規劃和執行能力，這使模型能夠實施欺騙行為。

情境觸發（Contextual Trigger）：指部署環境中會激活模型欺騙策略的外部信號。

那么，AI 欺騙發生后，我們該如何應對呢？

研究人員認為，欺騙治理（Deception Treatment）是針對 AI 欺騙的檢測、評估和解決。它包括從外部和內部檢測方法，到系統性評估協議，再到針對產生欺騙的三個因素的潛在緩解措施。

圖｜欺騙治理的策略，包含檢測、評估、潛在緩解。

隨著模型能力的增長，新的欺騙方式也會出現，原有的處理方法可能不再有效，甚至帶來新的挑戰，這促使開發者采取新措施以應對風險。欺騙涌現和欺騙處理兩個環節迭代往復，構成了欺騙循環（Deception Cycle），在 AI 整個生命周期中循環出現，推動 AI 系統朝著更對齊更可信的方向發展。

圖｜AI 欺騙循環

我們能做些什么

AI 欺騙不僅僅是一個技術問題，它反映了模型目標與人類預期之間更深層次的失調。

研究人員指出，AI 欺騙的有效治理，關鍵在于將技術層面的防御手段，系統性地融入可執行、可監督的制度框架之中。當前，一系列技術，例如可證明的訓練協議、魯棒性評估指標等，已具備在對抗條件下約束 AI 欺騙行為的潛力。然而，若缺乏配套的治理機制來確保合規性與問責制度，這些技術的作用將大打折扣。

舉例來說，即使某個模型在理論上能防止“沙袋戰術”，即故意表現低于真實能力，若其部署環境缺少防篡改監控或第三方獨立驗證，模型或其操作者仍可能隱匿欺騙行為，使技術保證形同虛設。

因此，制度創新成為技術安全措施中的必然補充。通過建立獨立審計機制、硬件級部署控制、加密可驗證的報告通道等治理手段，可以將實驗室中的可信驗證延伸至實際應用場景，從而降低 AI 逃避評估、實施欺騙的風險。

除此之外，良好的技術結構能塑造行為激勵，影響模型在訓練與部署中是否選擇欺騙，進而彌合技術方案與社會監督之間的斷層。

展望未來，AI 欺騙這一問題的解決需要跨學科合作，涵蓋機器學習、治理和監管等領域，以確保在實際應用中保持對齊、問責和可信度。

GPU 訓練特惠！

H100/H200 GPU算力按秒計費，平均節省開支30%以上！

掃碼了解詳情?

點「贊」的人都變好看了哦！

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

乒乓球版AlphaGo來了？打贏職業選手，反應速度秒殺人類

量子位 2026-04-24 15:28:28
0 跟貼 0
亦莊機器人馬拉松現場名場面合集

量子位 2026-04-20 00:34:54
6 跟貼 6

00后小哥復刻Claude最強神話模型OpenMythos

量子位 2026-04-23 11:44:18
0 跟貼 0

安心養蝦！從OpenClaw看云上AI安全落地路徑

量子位 2026-03-31 20:40:57
0 跟貼 0
博士生如何用龍蝦做知識管理？歡迎圍觀！

量子位 2026-03-26 23:23:30
0 跟貼 0

這個時代必須以Agent為中心：三個趨勢回顧

量子位 2026-04-05 02:14:15
0 跟貼 0

AI Agent是科技革命中的一次真正的范式轉移

量子位 2026-04-03 22:52:35
0 跟貼 0
百度沈抖自曝：老忘吃藥，用AI做了個小程序

量子位 2026-03-27 11:25:23
0 跟貼 0

LLM數據量大管飽，機器人數據卻連1%的起跑線都沒夠到？

量子位 2026-04-13 20:54:19
0 跟貼 0
DeepSeek V4“寄予厚望”！國產算力“進攻的矛”--超節點

華爾街見聞官方 2026-04-26 20:21:15
24 跟貼 24
GPT image-2爆火后，設計師的天塌了嗎？

虎嗅APP 2026-04-26 21:02:07
4 跟貼 4
AI最瘋狂的一周，該知道的8大共識都在這了

智東西 2026-04-26 21:57:35
0 跟貼 0
第87屆教裝展直擊丨海亮科技以AI解鎖未來教育

芥末堆看教育 2026-04-26 20:57:19
0 跟貼 0
蔡磊妻子深夜發訃告：我活著，他走了，再也沒有人等我回去

胖貓喵喵 2026-04-25 19:59:45
0 跟貼 0
59歲施一公清華校慶，跑步115圈身體好，他的5年超越目標實現了嗎

冷紫葉 2026-04-26 17:45:26
16 跟貼 16
老板用AI蒸餾員工，30%員工選擇反向投毒

量子位 2026-04-25 19:15:13
0 跟貼 0
剛剛，世界傳來五大重磅消息！

王焱Talk 2026-04-26 16:29:41
0 跟貼 0
北大天才許晨陽再次赴美，留下三句話引人深思！

漫步云海間 2026-04-26 07:34:24
0 跟貼 0
姐姐考清華弟弟上北大，單親爸爸請客無一人來，妹妹的出現捧殺了

淺語聊聊生活 2026-04-26 09:07:52
0 跟貼 0
中國無人軍團集體亮劍，無人飛槍凌空狙殺，機器狼群手勢操控

老黯談娛 2026-04-26 22:00:07
1 跟貼 1
影史第一導演因為拍了這部電影而死？99%的人都誤解了這部神作！

培根悖論嘮嘮嗑 2026-04-22 16:00:51
44 跟貼 44
黃仁勛：搶你飯碗的是你的AI?同事

沛然資本論 2026-04-23 13:09:16
0 跟貼 0
【你的AI靠不靠譜？】大模型項目落地評測標準：5 大類 30項指標，從技術到商業全覆蓋！AI大模型

盧菁老師 2026-04-22 09:25:00
0 跟貼 0
北京大學副校長增至7人，有院士頭銜的就占3人，這配置真豪華

百家論大學 2026-04-26 23:00:50
0 跟貼 0
北大未名湖，小動物們排隊等投喂，一條錦鯉悄悄加入！這畫風又萌又治愈！

蓬勃資訊 2026-04-24 13:13:27
15 跟貼 15
深度解讀Deepseek-V4：注意力壓縮 /1M 上下文/ MoE架構

盧菁老師 2026-04-27 02:14:19
0 跟貼 0
庫克接班人特努斯：從工程師到蘋果接班人

量子位 2026-04-22 08:00:02
0 跟貼 0
最新亞洲大學排名出爐，清華第一北大第二

江西都市現場 2026-04-24 22:11:00
0 跟貼 0
北大學姐分享未名湖實況，金錦鯉好運時刻，網友：它比鴨子都大？

焦點視訊 2026-04-24 11:22:52
0 跟貼 0
螞蟻百靈正式認領“Elephant Alpha”，主打Token效率

量子位 2026-04-24 15:28:27
0 跟貼 0
最強黑科技！中國首臺原生Robotaxi亮相，無方向盤、剎車、油門

聊聊車生活 2026-04-26 20:21:08
0 跟貼 0
要阻止AI滅絕人類，手握AI領袖死亡名單

量子位 2026-04-18 20:54:15
1 跟貼 1
人形機器人馬拉松比賽碾壓人類，短短一年時間的進化

量子位 2026-04-22 08:00:12
0 跟貼 0
全世界都在看這堆金屬疙瘩跑步？

科技公元V 2026-04-23 19:21:15
0 跟貼 0
Deepseek-V4預覽版本正式上線并開源，Agent能力顯著增強

究竟視頻 2026-04-25 10:17:37
0 跟貼 0
清華北大亞洲霸榜背后的實力密碼

無情有思ss 2026-04-25 10:03:43
0 跟貼 0
中國女人真的了不起

芒果媽媽 2026-04-22 12:13:28
0 跟貼 0
機器人進入家庭，是這個時代最難的技術問題之一

甲子光年 2026-04-22 19:41:19
0 跟貼 0
伊朗官員稱民眾不同意停火，要求乘勝追擊，以更加強硬的手段對付敵人

究竟視頻 2026-04-24 06:31:13
63 跟貼 63
商務統計與經濟計量系創始人刁錦寰逝世，享年93歲

界面新聞 2026-04-26 20:12:56
0 跟貼 0

大數據文摘

專注大數據，每日有分享！

6853文章數 94542關注度

往期回顧全部

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

游戲

健康

數碼

藝術

公開課

白巖松談人口老齡化：社會要降低老年人門檻
為什么人類有不同的膚色？
七個無法存下錢的壞習慣
李彥宏：百度離破產30天

手機 / 數碼

房產 / 家居

姚期智署名！北大楊耀東團隊領銜發聲：AI欺騙已成現實！

漲價浪潮下，DeepSeek推動AI“價格戰”

特朗普內閣又一女部長落馬:強迫男下屬為其提供性服務

特朗普內閣又一女部長落馬:強迫男下屬為其提供性服務

森林狼3比1掘金：逆境中殺出了多孫穆？！

僅次《指環王》的美劇，有第二季

事關新就業群體，中辦、國辦發文

預售19.38萬元起 哈弗猛龍PLUS七座版亮相

態度原創

LOL最吸金戰隊誕生！T1主場坐滿15000人，LPL解說滿臉羨慕

干細胞如何讓燒燙傷皮膚"再生"？

三星Tab S12系列進入固件測試階段 或配10500mAh大電池

72米舞臺被拆！華晨宇這次玩文旅，翻車了！

預售19.38萬元起哈弗猛龍PLUS七座版亮相

三星Tab S12系列進入固件測試階段或配10500mAh大電池