<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

      全錯(cuò)!谷歌實(shí)錘AI越乖洗腦越深,現(xiàn)行安全指標(biāo)淪為廢紙

      0
      分享至


      新智元報(bào)道

      編輯:傾傾

      【新智元導(dǎo)讀】Google DeepMind調(diào)查了一萬個(gè)人,結(jié)果讓整個(gè)AI安全評(píng)估體系汗顏:AI做了三倍多的「壞事」,但造成的實(shí)際傷害幾乎一樣。這意味著,我們現(xiàn)在用來證明AI安全的那套邏輯,可能從一開始就是錯(cuò)的。

      今年3月,Google DeepMind在arXiv上發(fā)布了一篇論文。


      論文傳送門:https://arxiv.org/abs/2603.25326

      它找來10101名志愿者,讓Gemini 3 Pro在公共政策、金融、健康三個(gè)場景下「操控」這些人。

      試圖用AI改變他們對(duì)某個(gè)政策的立場,從而影響他們的投資決策,甚至讓他們真的掏錢出來。

      結(jié)果卻發(fā)現(xiàn)了另一件事:我們現(xiàn)在用來衡量AI安全的核心指標(biāo),可能是錯(cuò)的。

      做了三倍壞事,危害卻一樣?

      實(shí)驗(yàn)預(yù)設(shè)了兩種條件:

      一種是顯式引導(dǎo),直接在系統(tǒng)提示里告訴模型,用具體的操控手法去說服用戶,比如制造恐懼、施加罪感、暗示社會(huì)壓力。

      另一種是非顯式引導(dǎo),只告訴模型一個(gè)目標(biāo),比如「讓用戶支持這項(xiàng)政策」,不指定用什么手段,也明確要求它不能造假、不能欺騙。


      實(shí)驗(yàn)流程設(shè)計(jì)圖。參與者被隨機(jī)分配到三種條件之一:與靜態(tài)信息卡片互動(dòng)(非AI基線)、與有隱性目標(biāo)但無明確操控指令的模型互動(dòng)(非顯式引導(dǎo))、與被明確指令使用操控手法的模型互動(dòng)(顯式引導(dǎo))。

      然后研究者用一個(gè)LLM評(píng)審系統(tǒng),統(tǒng)計(jì)每種條件下模型輸出中出現(xiàn)「有害操控行為」的比例。

      結(jié)果是,在顯式引導(dǎo)下,30.3%的模型回應(yīng)里出現(xiàn)了操控行為。非顯式引導(dǎo)下,這個(gè)數(shù)字降到了8.8%

      但用戶實(shí)際受到的影響,兩種條件下的結(jié)果幾乎沒有差別

      有時(shí)AI少?zèng)]做多少壞事,但傷害沒有減少;有時(shí)AI多做了很多壞事,傷害也沒有增加。

      整個(gè)行業(yè)都在測頻率

      但它什么都證明不了

      目前AI安全評(píng)估的主流邏輯,大致是這樣的:

      觀察模型在各種場景下的輸出,統(tǒng)計(jì)有多少比例的輸出包含有害行為。這個(gè)比例越低,模型越安全。

      然后通過訓(xùn)練、對(duì)齊、護(hù)欄,把這個(gè)比例減下去。

      這套邏輯的基本假設(shè)是:有害行為的頻率,和實(shí)際造成的傷害,是正相關(guān)的。頻率低,傷害就小。

      但這篇論文證明,這個(gè)假設(shè)不成立。


      各場景操控效果(相對(duì)于非AI基線的odds ratio)。金融場景下AI操控效果顯著,健康場景下最弱;顯式引導(dǎo)與非顯式引導(dǎo)之間,多數(shù)場景下差異不顯著。

      至少在操控這件事上,頻率和效果之間沒有穩(wěn)定的正相關(guān)關(guān)系。

      一個(gè)模型可以在回應(yīng)里塞滿大量操控行為,但就是說服不了你。

      另一個(gè)模型看起來規(guī)規(guī)矩矩,偶爾出現(xiàn)的那幾次操控行為,卻可能更有效。

      這意味著一家AI公司如果告訴你「我們的模型有害操控行為發(fā)生率只有3%,非常安全」,這句話在邏輯上什么都證明不了。

      粗暴反而沒用,隱蔽才最危險(xiǎn)

      論文梳理了8種AI用來操控人的具體手法,這是他們整個(gè)評(píng)估框架的核心。


      操控行為發(fā)生率與手法分布。左:顯式引導(dǎo)下30.3%的模型回應(yīng)含操控行為,非顯式引導(dǎo)下為8.8%。右:在含操控行為的回應(yīng)中,訴諸恐懼、他者化與污名化、訴諸罪感是最常見的三種手法。

      這幾種方法相對(duì)粗暴,人能感知到:訴諸恐懼(夸大危險(xiǎn)、制造焦慮)、訴諸罪感(讓你覺得不行動(dòng)就是在傷害別人)、制造虛假緊迫感(「現(xiàn)在不決定就晚了」)、虛假承諾(用根本無法兌現(xiàn)的好處誘導(dǎo))。

      還有幾種更隱蔽:質(zhì)疑你的外部信息環(huán)境(讓你不信任新聞、機(jī)構(gòu)、專家)、質(zhì)疑你自己的感知(煤氣燈效應(yīng))、他者化與污名化(制造「我們vs他們」)、社會(huì)從眾壓力(「大多數(shù)人都已經(jīng)這樣做了」)。

      研究者發(fā)現(xiàn)了一個(gè)反常的現(xiàn)象:恐懼和罪感這兩種手法,和信念改變的相關(guān)性是負(fù)的。AI越是試圖嚇你、讓你愧疚,你越不容易被改變。


      操控手法與參與者結(jié)果的相關(guān)性。訴諸恐懼(r=-0.07)和訴諸罪感(r=-0.09)與信念改變負(fù)相關(guān);質(zhì)疑環(huán)境(r=0.13)和他者化(r=0.13)與信念改變正相關(guān)。越粗暴的手法越?jīng)]用,越隱蔽的越有效。

      反而是「質(zhì)疑你的外部信息環(huán)境」和「他者化」,正相關(guān)于信念改變。

      這其中的邏輯并不難理解。被人直接施壓,防御機(jī)制會(huì)被激活,你會(huì)反彈。

      但被悄悄植入「那些信息都是假的」,你甚至不知道自己在被影響,防御根本來不及啟動(dòng)。

      同一個(gè)AI,在印度是另一種威脅

      在跨地區(qū)比較里,研究者發(fā)現(xiàn),印度參與者的結(jié)果與英美存在顯著差異。

      不是差一點(diǎn)點(diǎn)。是幾乎每個(gè)維度都系統(tǒng)性不同。

      在公共政策場景下,美國樣本更容易出現(xiàn)信念強(qiáng)化,并且更愿意捐款給與自己立場一致的機(jī)構(gòu)。

      而印度樣本在相同場景下,行為改變率更高,但信念改變率反而更低。

      也就是說,他們可能在信念沒有真正改變的情況下,做出了行動(dòng)上的妥協(xié)。

      我們現(xiàn)在幾乎所有的AI安全研究,樣本來自英美,結(jié)論默認(rèn)適用于全球。而這篇論文的數(shù)據(jù)明確告訴你,這個(gè)假設(shè)是有問題的。

      這篇論文最后沒有給出「正確的評(píng)估方法應(yīng)該是什么」,因?yàn)檫@個(gè)問題目前確實(shí)沒有答案。

      為什么同樣的模型,在金融場景下操控成功率高得驚人,在健康場景下幾乎沒用?

      為什么「質(zhì)疑外部信息」這個(gè)手法有效,「制造恐懼」反而讓用戶更抵抗?

      場景、文化、個(gè)體差異,這些變量如何組合,產(chǎn)生出不同的結(jié)果?

      這套機(jī)制,論文沒有答案,整個(gè)領(lǐng)域目前都沒有答案。

      我們知道評(píng)估方法是錯(cuò)的,但正確的方法是什么,沒人知道。

      這才是真正讓人不安的地方。不是AI在操控人——這件事大家早就有預(yù)感。

      而是在弄清楚AI如何影響人之前,它已經(jīng)在全球大規(guī)模部署了。

      我們拿著一把壞掉的尺子,告訴彼此一切都在掌控之中。

      參考資料:

      https://arxiv.org/abs/2603.25326

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      從拜登曲線到弗吉尼亞公投逆轉(zhuǎn):民主黨這次注定栽了

      從拜登曲線到弗吉尼亞公投逆轉(zhuǎn):民主黨這次注定栽了

      斌聞天下
      2026-04-24 07:10:03
      這個(gè)被低估的水果,憑什么叫代謝超級(jí)食物?

      這個(gè)被低估的水果,憑什么叫代謝超級(jí)食物?

      心事寄山海
      2026-04-24 08:58:36
      一覺醒來!美伊談判,最新消息!特朗普發(fā)聲

      一覺醒來!美伊談判,最新消息!特朗普發(fā)聲

      中國基金報(bào)
      2026-04-25 06:45:18
      廣東91-93不敵福建 球員評(píng)價(jià):4人優(yōu)秀,8人低迷

      廣東91-93不敵福建 球員評(píng)價(jià):4人優(yōu)秀,8人低迷

      籃球資訊達(dá)人
      2026-04-24 21:36:08
      華晨宇哭了!傳砸46億買地「打造演唱會(huì)樂園」 開唱前9天喊卡崩潰

      華晨宇哭了!傳砸46億買地「打造演唱會(huì)樂園」 開唱前9天喊卡崩潰

      ETtoday星光云
      2026-04-24 12:28:06
      歐足聯(lián)官宣!普雷斯蒂安尼停賽6場,發(fā)表恐同言論,辱罵維尼修斯

      歐足聯(lián)官宣!普雷斯蒂安尼停賽6場,發(fā)表恐同言論,辱罵維尼修斯

      奧拜爾
      2026-04-24 20:48:35
      “高度贊賞中方的領(lǐng)導(dǎo)作用,投入了真金白銀”

      “高度贊賞中方的領(lǐng)導(dǎo)作用,投入了真金白銀”

      觀察者網(wǎng)
      2026-04-24 22:14:34
      “你女兒比松子還可悲”,女孩吃三文魚表情走紅,讓評(píng)論區(qū)吵翻了

      “你女兒比松子還可悲”,女孩吃三文魚表情走紅,讓評(píng)論區(qū)吵翻了

      妍妍教育日記
      2026-04-15 11:40:07
      兩位知名港星聲援馬蹄露!原海軍航空兵黃竣鋒發(fā)聲,廣東雨神拉票

      兩位知名港星聲援馬蹄露!原海軍航空兵黃竣鋒發(fā)聲,廣東雨神拉票

      裕豐娛間說
      2026-04-24 10:27:02
      主動(dòng)投案 浙江省溫州市委常委、副市長李無文接受審查調(diào)查

      主動(dòng)投案 浙江省溫州市委常委、副市長李無文接受審查調(diào)查

      新京報(bào)
      2026-04-24 17:16:08
      安徽省交通運(yùn)輸廳黨組書記、廳長聶愛國到江南化工江南爆破安徽宏泰開展“訪企入村”調(diào)研活動(dòng)

      安徽省交通運(yùn)輸廳黨組書記、廳長聶愛國到江南化工江南爆破安徽宏泰開展“訪企入村”調(diào)研活動(dòng)

      新浪財(cái)經(jīng)
      2026-04-25 00:11:50
      123國同時(shí)宣布逮捕令,中國為何選擇此刻在安理會(huì)"算總賬"?

      123國同時(shí)宣布逮捕令,中國為何選擇此刻在安理會(huì)"算總賬"?

      墜入二次元的海洋
      2026-04-24 18:46:33
      芯片觀察者:美國先將中國芯片鎖死在28nm,然后打擊成熟芯片擴(kuò)產(chǎn)

      芯片觀察者:美國先將中國芯片鎖死在28nm,然后打擊成熟芯片擴(kuò)產(chǎn)

      蜉蝣說
      2026-04-24 11:38:51
      海牙做出審判,老杜回國無望,人民日?qǐng)?bào)一錘定音:中國不救菲律賓

      海牙做出審判,老杜回國無望,人民日?qǐng)?bào)一錘定音:中國不救菲律賓

      老謝談史
      2026-04-24 23:07:48
      當(dāng)法官問要不要調(diào)解,其實(shí)已經(jīng)暗示你了:別亂答

      當(dāng)法官問要不要調(diào)解,其實(shí)已經(jīng)暗示你了:別亂答

      阿芒娛樂說
      2026-04-14 11:57:37
      切爾西瘋了?醞釀?wù)埢毓谲娭鲙洠∷{(lán)軍功勛或空降斯坦福橋

      切爾西瘋了?醞釀?wù)埢毓谲娭鲙洠∷{(lán)軍功勛或空降斯坦福橋

      瀾歸序
      2026-04-25 05:55:02
      男人的生理需求能有多難忍?網(wǎng)友:我對(duì)我老公只有動(dòng)物本能

      男人的生理需求能有多難忍?網(wǎng)友:我對(duì)我老公只有動(dòng)物本能

      帶你感受人間冷暖
      2026-02-07 03:58:56
      羅翔:如果一個(gè)人突然努力工作,業(yè)余時(shí)間開始學(xué)習(xí),不再參加社交活動(dòng),那么,身邊的人可能不僅不會(huì)幫他,還會(huì)拉他下來,原因就一個(gè)!

      羅翔:如果一個(gè)人突然努力工作,業(yè)余時(shí)間開始學(xué)習(xí),不再參加社交活動(dòng),那么,身邊的人可能不僅不會(huì)幫他,還會(huì)拉他下來,原因就一個(gè)!

      譚老師地理大課堂
      2026-04-22 00:03:57
      退休人員注意!人社部28號(hào)文明確:這類工齡必須算,少一年都不行

      退休人員注意!人社部28號(hào)文明確:這類工齡必須算,少一年都不行

      笑熬漿糊111
      2026-04-25 00:05:16
      眼紅啊!從年薪20萬到125萬,一上海交大碩士特斯拉6年收入345萬

      眼紅啊!從年薪20萬到125萬,一上海交大碩士特斯拉6年收入345萬

      火山詩話
      2026-04-23 07:11:53
      2026-04-25 07:23:00
      新智元 incentive-icons
      新智元
      AI產(chǎn)業(yè)主平臺(tái)領(lǐng)航智能+時(shí)代
      15055文章數(shù) 66799關(guān)注度
      往期回顧 全部

      科技要聞

      DeepSeek V4牽手華為,價(jià)格依然"屠夫級(jí)"

      頭條要聞

      航班提前起飛10分鐘 大學(xué)生把海航告了

      頭條要聞

      航班提前起飛10分鐘 大學(xué)生把海航告了

      體育要聞

      上海男籃23連勝+主場全勝 姚明之后最強(qiáng)一季

      娛樂要聞

      停工16個(gè)月!趙露思證實(shí)接拍新劇

      財(cái)經(jīng)要聞

      LG財(cái)閥內(nèi)斗:百億美元商業(yè)帝國爭奪戰(zhàn)

      汽車要聞

      零跑Lafa5 Ultra北京車展上市:11.88-12.48萬

      態(tài)度原創(chuàng)

      藝術(shù)
      健康
      親子
      數(shù)碼
      家居

      藝術(shù)要聞

      價(jià)值1.7億的牡丹!

      干細(xì)胞如何讓燒燙傷皮膚"再生"?

      親子要聞

      小獅子也只是個(gè)大寶寶呀,看到小朋友的車車滿眼羨慕

      數(shù)碼要聞

      蘋果繼續(xù)拓展賽道!換帥后將進(jìn)軍新品類?

      家居要聞

      自然肌理 溫潤美學(xué)

      無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 伊人久久av| 潘金莲高清dvd碟片| 午夜国产精品福利一二| 欧美A视频| 国产又色| 亚洲av片在线免费观看| 国产成人av免费观看| 人人妻人人澡人人爽人人欧美一区| 欧美群交久久久久久久| 日韩一区国产二区欧美三区| 国产真人性做爰久久网站| 久久综合噜噜激激的五月天| 欧美激情综合色综合啪啪五月| 久久99精品国产麻豆婷婷洗澡| 天镇县| 国产亚洲欧美一区二区三区在线播放| 亚洲人成网站在线播放小说| 人妻系列中文| 亚洲国产精品无码av| 国产成人无码一区二区在线播放| 任我爽精品视频在线播放| 女人天堂AV| 久久久精品456亚洲影院| 91福利在线看| 中文字幕亚洲亚洲精品| 最近最新中文字幕高清免费| 伊人久久大香线蕉av色婷婷色| 琪琪福利视频| 伊人网综合| 国产欧美日韩在线不卡第一页| 人妻无码专区一专区二专区三| 日韩Av无码一区二区三区不卡| 一级AV韩国| 国产乱码精品一区二三区| 95国产精品| 国产精品久久精品第一页| 亚洲国产人成在线观看69网站| 2018av天堂在线视频精品观看 | 欧美精品99无码一区二区| 亚洲精品www久久久久久| 亚洲av一本二本三本|