<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      全錯!谷歌實錘AI越乖洗腦越深,現行安全指標淪為廢紙

      0
      分享至


      新智元報道

      編輯:傾傾

      【新智元導讀】Google DeepMind調查了一萬個人,結果讓整個AI安全評估體系汗顏:AI做了三倍多的「壞事」,但造成的實際傷害幾乎一樣。這意味著,我們現在用來證明AI安全的那套邏輯,可能從一開始就是錯的。

      今年3月,Google DeepMind在arXiv上發布了一篇論文。


      論文傳送門:https://arxiv.org/abs/2603.25326

      它找來10101名志愿者,讓Gemini 3 Pro在公共政策、金融、健康三個場景下「操控」這些人。

      試圖用AI改變他們對某個政策的立場,從而影響他們的投資決策,甚至讓他們真的掏錢出來。

      結果卻發現了另一件事:我們現在用來衡量AI安全的核心指標,可能是錯的。

      做了三倍壞事,危害卻一樣?

      實驗預設了兩種條件:

      一種是顯式引導,直接在系統提示里告訴模型,用具體的操控手法去說服用戶,比如制造恐懼、施加罪感、暗示社會壓力。

      另一種是非顯式引導,只告訴模型一個目標,比如「讓用戶支持這項政策」,不指定用什么手段,也明確要求它不能造假、不能欺騙。


      實驗流程設計圖。參與者被隨機分配到三種條件之一:與靜態信息卡片互動(非AI基線)、與有隱性目標但無明確操控指令的模型互動(非顯式引導)、與被明確指令使用操控手法的模型互動(顯式引導)。

      然后研究者用一個LLM評審系統,統計每種條件下模型輸出中出現「有害操控行為」的比例。

      結果是,在顯式引導下,30.3%的模型回應里出現了操控行為。非顯式引導下,這個數字降到了8.8%

      但用戶實際受到的影響,兩種條件下的結果幾乎沒有差別

      有時AI少沒做多少壞事,但傷害沒有減少;有時AI多做了很多壞事,傷害也沒有增加。

      整個行業都在測頻率

      但它什么都證明不了

      目前AI安全評估的主流邏輯,大致是這樣的:

      觀察模型在各種場景下的輸出,統計有多少比例的輸出包含有害行為。這個比例越低,模型越安全。

      然后通過訓練、對齊、護欄,把這個比例減下去。

      這套邏輯的基本假設是:有害行為的頻率,和實際造成的傷害,是正相關的。頻率低,傷害就小。

      但這篇論文證明,這個假設不成立。


      各場景操控效果(相對于非AI基線的odds ratio)。金融場景下AI操控效果顯著,健康場景下最弱;顯式引導與非顯式引導之間,多數場景下差異不顯著。

      至少在操控這件事上,頻率和效果之間沒有穩定的正相關關系。

      一個模型可以在回應里塞滿大量操控行為,但就是說服不了你。

      另一個模型看起來規規矩矩,偶爾出現的那幾次操控行為,卻可能更有效。

      這意味著一家AI公司如果告訴你「我們的模型有害操控行為發生率只有3%,非常安全」,這句話在邏輯上什么都證明不了。

      粗暴反而沒用,隱蔽才最危險

      論文梳理了8種AI用來操控人的具體手法,這是他們整個評估框架的核心。


      操控行為發生率與手法分布。左:顯式引導下30.3%的模型回應含操控行為,非顯式引導下為8.8%。右:在含操控行為的回應中,訴諸恐懼、他者化與污名化、訴諸罪感是最常見的三種手法。

      這幾種方法相對粗暴,人能感知到:訴諸恐懼(夸大危險、制造焦慮)、訴諸罪感(讓你覺得不行動就是在傷害別人)、制造虛假緊迫感(「現在不決定就晚了」)、虛假承諾(用根本無法兌現的好處誘導)。

      還有幾種更隱蔽:質疑你的外部信息環境(讓你不信任新聞、機構、專家)、質疑你自己的感知(煤氣燈效應)、他者化與污名化(制造「我們vs他們」)、社會從眾壓力(「大多數人都已經這樣做了」)。

      研究者發現了一個反常的現象:恐懼和罪感這兩種手法,和信念改變的相關性是負的。AI越是試圖嚇你、讓你愧疚,你越不容易被改變。


      操控手法與參與者結果的相關性。訴諸恐懼(r=-0.07)和訴諸罪感(r=-0.09)與信念改變負相關;質疑環境(r=0.13)和他者化(r=0.13)與信念改變正相關。越粗暴的手法越沒用,越隱蔽的越有效。

      反而是「質疑你的外部信息環境」和「他者化」,正相關于信念改變。

      這其中的邏輯并不難理解。被人直接施壓,防御機制會被激活,你會反彈。

      但被悄悄植入「那些信息都是假的」,你甚至不知道自己在被影響,防御根本來不及啟動。

      同一個AI,在印度是另一種威脅

      在跨地區比較里,研究者發現,印度參與者的結果與英美存在顯著差異。

      不是差一點點。是幾乎每個維度都系統性不同。

      在公共政策場景下,美國樣本更容易出現信念強化,并且更愿意捐款給與自己立場一致的機構。

      而印度樣本在相同場景下,行為改變率更高,但信念改變率反而更低。

      也就是說,他們可能在信念沒有真正改變的情況下,做出了行動上的妥協。

      我們現在幾乎所有的AI安全研究,樣本來自英美,結論默認適用于全球。而這篇論文的數據明確告訴你,這個假設是有問題的。

      這篇論文最后沒有給出「正確的評估方法應該是什么」,因為這個問題目前確實沒有答案。

      為什么同樣的模型,在金融場景下操控成功率高得驚人,在健康場景下幾乎沒用?

      為什么「質疑外部信息」這個手法有效,「制造恐懼」反而讓用戶更抵抗?

      場景、文化、個體差異,這些變量如何組合,產生出不同的結果?

      這套機制,論文沒有答案,整個領域目前都沒有答案。

      我們知道評估方法是錯的,但正確的方法是什么,沒人知道。

      這才是真正讓人不安的地方。不是AI在操控人——這件事大家早就有預感。

      而是在弄清楚AI如何影響人之前,它已經在全球大規模部署了。

      我們拿著一把壞掉的尺子,告訴彼此一切都在掌控之中。

      參考資料:

      https://arxiv.org/abs/2603.25326

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      杭州女子多次僅退款海鮮,被老板找上門,身份是律師,業主爆黑料

      杭州女子多次僅退款海鮮,被老板找上門,身份是律師,業主爆黑料

      觀察鑒娛
      2026-04-12 11:13:55
      全程眼突鼓腮,看了觀眾對孫儷的評價,才知張藝謀這句話的含金量

      全程眼突鼓腮,看了觀眾對孫儷的評價,才知張藝謀這句話的含金量

      陳述影視
      2026-04-04 17:53:34
      憤怒的李想和遭到圍攻的理想汽車

      憤怒的李想和遭到圍攻的理想汽車

      界面新聞
      2026-04-13 10:01:09
      沒想到吧?那輛“陪葬”的奔馳S級,后續比電視劇還離譜!

      沒想到吧?那輛“陪葬”的奔馳S級,后續比電視劇還離譜!

      小娛樂悠悠
      2026-04-13 09:51:49
      可繞過彈劾直接罷免特朗普,萬斯已經公開翻臉,將提前奪權?

      可繞過彈劾直接罷免特朗普,萬斯已經公開翻臉,將提前奪權?

      清衣渡a
      2026-04-13 12:02:37
      煙草市場徹底變天!銷量下滑非產能過剩,供需矛盾席卷全國煙酒店

      煙草市場徹底變天!銷量下滑非產能過剩,供需矛盾席卷全國煙酒店

      老特有話說
      2026-04-12 15:57:53
      血戰臺兒莊:中國參戰29萬人、犧牲5萬人,日軍傷亡令人難以置信

      血戰臺兒莊:中國參戰29萬人、犧牲5萬人,日軍傷亡令人難以置信

      冰語歷史
      2026-04-11 17:05:58
      上海植物園猥褻慣犯落網!被抓6次,仍嬉皮笑臉毫無羞恥心太可惡

      上海植物園猥褻慣犯落網!被抓6次,仍嬉皮笑臉毫無羞恥心太可惡

      行者聊官
      2026-04-12 15:46:42
      臺灣到底何時統一?原來李敖早就預言了,說得很精準

      臺灣到底何時統一?原來李敖早就預言了,說得很精準

      顧史
      2026-03-03 15:23:07
      官方通報從云南拉到焦作的11噸西瓜全壞

      官方通報從云南拉到焦作的11噸西瓜全壞

      黃河新聞網呂梁
      2026-04-12 11:18:44
      馬斯克版“微信”來了,iPhone下載需謹慎!

      馬斯克版“微信”來了,iPhone下載需謹慎!

      果粉之家
      2026-04-12 12:57:47
      身材是真絕了!令和時代的峰不二子!

      身材是真絕了!令和時代的峰不二子!

      貴圈真亂
      2026-04-13 10:12:43
      哈薩克斯坦2000萬噸稀土轉賣美日,簽完協議發現,還是繞不開中國

      哈薩克斯坦2000萬噸稀土轉賣美日,簽完協議發現,還是繞不開中國

      蔡蔡說史
      2026-04-11 04:25:53
      特朗普宣布將封鎖霍爾木茲海峽,比伊朗的封鎖更狠

      特朗普宣布將封鎖霍爾木茲海峽,比伊朗的封鎖更狠

      名人茍或
      2026-04-12 23:03:38
      鄭麗文:絕不放棄武力保臺,洪秀柱怒懟:兩岸和平,豈能不統一?

      鄭麗文:絕不放棄武力保臺,洪秀柱怒懟:兩岸和平,豈能不統一?

      安夢入天下
      2026-04-12 17:01:16
      從質疑到理解,原來73歲無兒無女的遲重瑞,早被陳麗華安排好退路

      從質疑到理解,原來73歲無兒無女的遲重瑞,早被陳麗華安排好退路

      皮皮電影
      2026-04-13 09:58:59
      22歲甜妹公開示愛,王楚欽回應讓誰心碎?

      22歲甜妹公開示愛,王楚欽回應讓誰心碎?

      運動探索
      2026-04-13 09:29:35
      訪朝第二天,王毅在平壤提中方主張,話音剛落,朝鮮的回應很直接

      訪朝第二天,王毅在平壤提中方主張,話音剛落,朝鮮的回應很直接

      井普椿的獨白
      2026-04-12 16:42:07
      斯普利特:楊瀚森本賽季沒有太多機會,這個夏天他需要變得更好

      斯普利特:楊瀚森本賽季沒有太多機會,這個夏天他需要變得更好

      懂球帝
      2026-04-13 10:40:10
      嚴懲38號裁判!末節嚴重雙標+4錯漏判,公開幫廣廈,真是看不下去

      嚴懲38號裁判!末節嚴重雙標+4錯漏判,公開幫廣廈,真是看不下去

      南海浪花
      2026-04-13 07:29:25
      2026-04-13 14:12:49
      新智元 incentive-icons
      新智元
      AI產業主平臺領航智能+時代
      14958文章數 66768關注度
      往期回顧 全部

      科技要聞

      傳榮耀與字節跳動接洽“豆包手機”合作

      頭條要聞

      毛焦爾:匈牙利將再次成為歐盟和北約國家的堅定盟友

      頭條要聞

      毛焦爾:匈牙利將再次成為歐盟和北約國家的堅定盟友

      體育要聞

      一支球隊不夠爛,也是一種悲哀

      娛樂要聞

      賈玲減重后現身馮鞏生日宴 身材未反彈

      財經要聞

      封鎖,還是收費站?

      汽車要聞

      不止命名更純粹 領克10/10+要做純電操控新王

      態度原創

      健康
      藝術
      數碼
      房產
      公開課

      干細胞抗衰4大誤區,90%的人都中招

      藝術要聞

      22位中國當代名家油畫作品

      數碼要聞

      超頻三預熱RZ700D PRO ARGB風冷,搭載F7 X120B系列風扇

      房產要聞

      土地供應突然暴跌!2026海口樓市,格局大變!

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版