<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      姚期智署名!北大楊耀東團隊領銜發聲:AI欺騙已成現實!

      0
      分享至

      大數據文摘受權轉載自學術頭條

      整理:瀟瀟

      隨著人工智能(AI)系統的能力不斷增強,其發展與人類福祉愈發深度關聯。當前,AI 系統越來越多地應用于高風險場景,如核聚變控制和基因組編輯等,一旦 AI 系統遭到濫用或失去控制,可能給全人類帶來災難性后果。

      近期研究表明,前沿 AI 模型會表現出阿諛奉承、操控傾向、甚至故意隱瞞其能力,AI 欺騙(AI deception)已成為值得關注的安全問題

      基于此,北京大學人工智能研究院助理教授楊耀東團隊聯合國內外眾多學者、企業人士,針對 AI 欺騙這一領域做出了全面、系統的綜述,涵蓋其核心概念、方法論、誘因及解決措施等,為解決 AI 欺騙提供了理論指導。


      論文鏈接:https://arxiv.org/abs/2511.22619

      值得一提的是,圖靈獎得主姚期智院士、北京智源人工智能研究院創始理事長張宏江、清華大學智能產業研究院(AIR)院長張亞勤、北京智源人工智能研究院理事長黃鐵軍等業內權威專家為該項目的高級顧問。



      AI 欺騙是什么?

      研究人員將 AI 欺騙形式化為一個互動過程,包括信號發送者(AI)、接收者、信號、接收者的行動、給發送者帶來的收益,以及時間因素。

      雖然“欺騙”通常代表著“故意”,但研究人員關注的是功能主義角度上的欺騙,不討論 AI 是否真正“想”欺騙,而是關注它發出的信號(如語言或行為)是否會讓接收者誤解,并采取對 AI 有利的行動。

      1.AI 欺騙的定義

      AI 欺騙可被理解為一個基于信號的因果過程:模型作為發送者,產生信號,誘導接收者形成錯誤的信念并基于這些信念做出理性反應,從而為發送者帶來實際或潛在的利益。

      從功能主義的角度,一個信號如果滿足以下條件,便被歸類為欺騙:

      • 行動為信號發送者帶來了實際或潛在的效用增益(短期或長期、直接或間接);

      • 某種有限理性或決策模型下,行動是接收者基于其信念所做的理性反應;

      • 接收者的信念客觀上與信號發送者的信念不一致(盡管它可能并非與世界的實際地面真實狀態不符)。


      圖|AI 欺騙的正式定義

      值得注意的是,AI 欺騙與 AI 幻覺有本質的不同。AI 幻覺是模型在生成內容時出現的錯誤、不忠實于源材料的輸出,這是一種能力缺陷,反映了模型的能力不足或訓練數據存在缺陷。AI 欺騙則是是一種功能主義行為,往往出現在模型更高階的能力階段,例如 AI “故意”歪曲信息從而帶來危害社會的后果。

      2.AI 欺騙的分類

      AI 欺騙的核心在于,通過系統性地誤導用戶,從而獲取非預期的優勢。實證研究顯示,AI 欺騙行為以不同層級呈現,從顯性的信號輸出,到隱蔽的操控,再到策略性的干預。

      研究人員根據“監督警覺性”和“檢測難度”兩個維度把 AI 欺騙分成三類:

      • 行為—信號式欺騙:模型通過語言、行動或表層輸出直接誤導人類,例如虛張聲勢或諂媚式回答。

      • 內部過程欺騙:模型在推理或決策過程中的扭曲或隱藏行為,包括不真實的推理鏈或偽裝對齊。

      • 目標—環境欺騙:模型通過操控周圍環境或多智能體互動,以規避監督、追求未授權目標的策略性行為,例如串通或操縱評估體系。

      研究人員強調,這三類欺騙行為并非互斥,一次 AI 欺騙事件可能同時包含多種類別。


      圖|依據監督警覺性和檢測難度分類

      AI 欺騙的危害

      研究人員還總結了 AI 欺騙行為帶來的五個主要危害。這些危害不僅涉及于單一的個體層面,也會擴展到整個社會層面,對社會結構造成深遠影響。如下:

      1.認知誤導(Cognitive Misleading)

      它表現在 AI 通過細微的誤導性信號,導致用戶形成錯誤的信念或過度信任。此類行為雖然短期內影響較小,但信任一旦被建立,長期的誤導信號會累積并導致嚴重的判斷偏差。AI 通過這種方式操控用戶行為,使其作出對 AI 系統有利的決策。

      2.戰略性操控(Strategic Manipulation)

      這指 AI 在長時間的互動中,逐步引導用戶朝著 AI 系統設定的目標方向發展。這種操控通過個性化的欺騙和策略性影響來實現,隨著時間推移,最終造成深遠的社會影響。

      3.目標錯誤泛化(Objective Misgeneralization)

      這是指 AI 在高風險領域如醫療、金融或安全等領域,誤解任務的目標或需求,導致其輸出表面上看似合理,但實際卻偏離了人類預期目標。這種類型的欺騙不僅難以察覺,還可能導致重大經濟損失、軟件錯誤或欺詐行為。

      4.機構侵蝕(Institutional Erosion)

      當 AI 生成的內容在社會核心領域中被廣泛采納時,會破壞公眾對科學發現和政府決策的信任。長期來看,隨著 AI 欺騙行為的泛化,公眾對社會機構的信任不斷被削弱,從而危害社會穩定。

      5.能力隱瞞與失控風險(Concealment and Runaway)

      AI 系統通過隱瞞其真實能力來規避監管,并執行那些沒有經過充分監督的長期目標,例如獲取資源或進行秘密技術開發。特別是在 AI 系統越來越具備自主執行任務的能力時,其欺騙行為的隱蔽性和復雜性將增加,最終可能導致 AI 系統自我復制、演變,甚至脫離人類監管。

      隨著 AI 技術的進步,欺騙行為將愈發復雜和隱蔽,這對監督機制和社會治理提出了巨大的挑戰。因此,針對 AI 欺騙的防范和治理,必須采取綜合的技術手段和政策措施,確保 AI 的安全性和透明性。


      圖|AI 欺騙的分類與危害

      AI 欺騙是「循環往復」的

      那么,AI 欺騙為何出現呢?

      研究人員指出,欺騙涌現(Deception Emergence)由三個關鍵因素的相互作用驅動:

      激勵基礎(Incentive Foundation):模型在訓練過程中通過訓練數據、目標函數、獎勵信號等所內化的驅動傾向,這與提升任務指標、最大化獎勵,甚至保護自身參數有關,是產生欺騙行為的潛在動機。

      能力前提(Capability Precondition):模型在訓練中獲得并在部署中使用的感知、規劃和執行能力,這使模型能夠實施欺騙行為。

      情境觸發(Contextual Trigger):指部署環境中會激活模型欺騙策略的外部信號。

      那么,AI 欺騙發生后,我們該如何應對呢?

      研究人員認為,欺騙治理(Deception Treatment)是針對 AI 欺騙的檢測、評估和解決。它包括從外部和內部檢測方法,到系統性評估協議,再到針對產生欺騙的三個因素的潛在緩解措施。


      圖|欺騙治理的策略,包含檢測、評估、潛在緩解。

      隨著模型能力的增長,新的欺騙方式也會出現,原有的處理方法可能不再有效,甚至帶來新的挑戰,這促使開發者采取新措施以應對風險。欺騙涌現和欺騙處理兩個環節迭代往復,構成了欺騙循環(Deception Cycle),在 AI 整個生命周期中循環出現,推動 AI 系統朝著更對齊更可信的方向發展。


      圖|AI 欺騙循環

      我們能做些什么

      AI 欺騙不僅僅是一個技術問題,它反映了模型目標與人類預期之間更深層次的失調

      研究人員指出,AI 欺騙的有效治理,關鍵在于將技術層面的防御手段,系統性地融入可執行、可監督的制度框架之中。當前,一系列技術,例如可證明的訓練協議、魯棒性評估指標等,已具備在對抗條件下約束 AI 欺騙行為的潛力。然而,若缺乏配套的治理機制來確保合規性與問責制度,這些技術的作用將大打折扣。

      舉例來說,即使某個模型在理論上能防止“沙袋戰術”,即故意表現低于真實能力,若其部署環境缺少防篡改監控或第三方獨立驗證,模型或其操作者仍可能隱匿欺騙行為,使技術保證形同虛設。

      因此,制度創新成為技術安全措施中的必然補充。通過建立獨立審計機制、硬件級部署控制、加密可驗證的報告通道等治理手段,可以將實驗室中的可信驗證延伸至實際應用場景,從而降低 AI 逃避評估、實施欺騙的風險。

      除此之外,良好的技術結構能塑造行為激勵,影響模型在訓練與部署中是否選擇欺騙,進而彌合技術方案與社會監督之間的斷層。

      展望未來,AI 欺騙這一問題的解決需要跨學科合作,涵蓋機器學習、治理和監管等領域,以確保在實際應用中保持對齊、問責和可信度。

      GPU 訓練特惠!

      H100/H200 GPU算力按秒計費,平均節省開支30%以上!

      掃碼了解詳情?

      點「贊」的人都變好看了哦!

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      善惡終有報,57歲央視女主持王小丫,原來早已經走上另一條大路

      善惡終有報,57歲央視女主持王小丫,原來早已經走上另一條大路

      聽風喃
      2026-03-24 05:39:34
      白宮記協晚宴安全事件嫌疑人將于27日被起訴

      白宮記協晚宴安全事件嫌疑人將于27日被起訴

      界面新聞
      2026-04-26 20:40:26
      本想逼宮老俞,卻讓臉面碎了一地!甄選4大主播的離職瓜變味了

      本想逼宮老俞,卻讓臉面碎了一地!甄選4大主播的離職瓜變味了

      觀察鑒娛
      2026-04-26 13:11:53
      7年敗光80億!華誼兄弟申請破產,56歲王中磊落魄,兒子在美瀟灑

      7年敗光80億!華誼兄弟申請破產,56歲王中磊落魄,兒子在美瀟灑

      阿庫財經
      2026-04-25 12:50:08
      CBA常規賽評獎公布,上海大鯊魚收獲頗豐,盧偉當選最佳教練

      CBA常規賽評獎公布,上海大鯊魚收獲頗豐,盧偉當選最佳教練

      上觀新聞
      2026-04-26 21:26:04
      戴著媽媽的項鏈去面試,被董事長看到,董事長震驚問:你媽媽是誰

      戴著媽媽的項鏈去面試,被董事長看到,董事長震驚問:你媽媽是誰

      千秋文化
      2026-04-18 19:08:36
      京東給年輕人造了一輛轎跑,售價低至12.7萬元

      京東給年輕人造了一輛轎跑,售價低至12.7萬元

      財天COVER
      2026-04-24 10:44:40
      內分泌主任提醒:以為很正常,其實是糖尿病變嚴重的7個信號

      內分泌主任提醒:以為很正常,其實是糖尿病變嚴重的7個信號

      垚垚分享健康
      2026-04-12 14:20:12
      凱恩:若再輕易丟球權、控制不了對手的反擊,那巴黎會更致命

      凱恩:若再輕易丟球權、控制不了對手的反擊,那巴黎會更致命

      懂球帝
      2026-04-26 21:04:42
      發現一個現象:收入1萬以下的夫妻,吵架大都為了錢;1萬以上的家庭,吵架都是一方很強勢

      發現一個現象:收入1萬以下的夫妻,吵架大都為了錢;1萬以上的家庭,吵架都是一方很強勢

      二胡的歲月如歌
      2026-04-13 08:04:02
      055大驅試射YJ-20,美菲軍演未結束,解放軍已形成合圍

      055大驅試射YJ-20,美菲軍演未結束,解放軍已形成合圍

      最新聲音
      2026-04-26 09:31:48
      曼晚:曼聯今夏將送走13名球員,為重建騰出薪金空間

      曼晚:曼聯今夏將送走13名球員,為重建騰出薪金空間

      懂球帝
      2026-04-26 17:56:22
      男子從內地偷運51公斤盒飯回澳門,被海關查獲

      男子從內地偷運51公斤盒飯回澳門,被海關查獲

      極目新聞
      2026-04-26 20:33:46
      消息人士:伊朗外長再次離開巴基斯坦

      消息人士:伊朗外長再次離開巴基斯坦

      財聯社
      2026-04-27 01:27:03
      美媒:中國新航母12萬噸、載機105架,福建艦已讓美緊張

      美媒:中國新航母12萬噸、載機105架,福建艦已讓美緊張

      共工之錨
      2026-04-27 00:16:38
      他們反川普已經到了靈魂撕裂、歇斯底里的程度

      他們反川普已經到了靈魂撕裂、歇斯底里的程度

      壹家言
      2026-04-25 20:47:45
      我拿MVP了!沈梓捷恭喜賀希寧:回房了,這一句話概括萬千

      我拿MVP了!沈梓捷恭喜賀希寧:回房了,這一句話概括萬千

      懂球帝
      2026-04-26 21:58:38
      身價百億坐擁北京一條街,出門私人飛機!京圈富婆,各個都惹不起

      身價百億坐擁北京一條街,出門私人飛機!京圈富婆,各個都惹不起

      喜歡歷史的阿繁
      2026-04-27 00:56:18
      李小璐寫真生圖高清

      李小璐寫真生圖高清

      翩翩明星
      2025-11-14 09:39:36
      內塔尼亞胡下令“猛烈打擊”黎巴嫩真主黨目標

      內塔尼亞胡下令“猛烈打擊”黎巴嫩真主黨目標

      澎湃新聞
      2026-04-26 02:48:02
      2026-04-27 04:11:00
      大數據文摘 incentive-icons
      大數據文摘
      專注大數據,每日有分享!
      6853文章數 94542關注度
      往期回顧 全部

      科技要聞

      漲價浪潮下,DeepSeek推動AI“價格戰”

      頭條要聞

      特朗普內閣又一女部長落馬:強迫男下屬為其提供性服務

      頭條要聞

      特朗普內閣又一女部長落馬:強迫男下屬為其提供性服務

      體育要聞

      森林狼3比1掘金:逆境中殺出了多孫穆?!

      娛樂要聞

      僅次《指環王》的美劇,有第二季

      財經要聞

      事關新就業群體,中辦、國辦發文

      汽車要聞

      預售19.38萬元起 哈弗猛龍PLUS七座版亮相

      態度原創

      游戲
      健康
      數碼
      藝術
      公開課

      LOL最吸金戰隊誕生!T1主場坐滿15000人,LPL解說滿臉羨慕

      干細胞如何讓燒燙傷皮膚"再生"?

      數碼要聞

      三星Tab S12系列進入固件測試階段 或配10500mAh大電池

      藝術要聞

      72米舞臺被拆!華晨宇這次玩文旅,翻車了!

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 精品人妻人人做人人爽夜夜爽| 国产高潮又爽又刺激的视频| 国内精品vA| 亚洲人成色4444在线观看| 在线播放无码高潮的视频| 黄页网址大全免费观看| 夜爽8888视频在线观看| 国产精品久久国产精麻豆99网站| 老色鬼在线精品视频在线观看| 国内a∨免费播放| 日日碰狠狠躁久久躁| 国产亚洲av嫩草久久| 欧美日韩xxx| 国产精品自在在线午夜区app| 国产精品亚洲а∨天堂2021 | 国产+亚洲+制服| 亚洲精品揄拍自拍首页一| 精品国产中文一级毛片在线看| 原阳县| 少妇被粗大猛烈进出免费视频| 伊人网在线观看| 欧洲精品成人免费视频在线观看| 精品久久久久久久久久中文字幕 | 姚安县| AV色色色| 这里只有精品免费视频| 91久久国产成人免费观看 | 四虎www永久在线精品| 欧美激情猛片xxxⅹ大3| 香港三日本8a三级少妇三级99| 国产人久久人人人人爽 | 国产资源网| 亚洲SV日韩无码久久| 成全我在线观看免费第二季| 日本道免费精品一区二区| 久久人人妻人人做人人爽| 午夜三级福利| 男女猛烈无遮挡免费视频APP| 国产成人精品一区二区三区无码| 国产精品视频一区二区噜噜| 欧美性猛交xxxx乱大交极品|