<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>

色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3

<cite id="dxi5a"><rp id="dxi5a"><pre id="dxi5a"></pre></rp></cite>

<style id="dxi5a"></style>

<p id="dxi5a"></p>

<sub id="dxi5a"><p id="dxi5a"></p></sub>

網易首頁

網易新聞
網易公開課
網易紅彩
網易嚴選
郵箱大師
網易云課堂

注冊免費郵箱

注冊VIP郵箱（特權郵箱，付費）
免費下載網易官方手機郵箱應用

移動端
網易公開課
網易嚴選
支付
郵箱

網易首頁 > 網易號 > 正文申請入駐

全錯！谷歌實錘AI越乖洗腦越深，現行安全指標淪為廢紙

2026-04-13 12:06:49　來源: 新智元

北京舉報

0

分享至

新智元報道

編輯：傾傾

【新智元導讀】Google DeepMind調查了一萬個人，結果讓整個AI安全評估體系汗顏：AI做了三倍多的「壞事」，但造成的實際傷害幾乎一樣。這意味著，我們現在用來證明AI安全的那套邏輯，可能從一開始就是錯的。

今年3月，Google DeepMind在arXiv上發布了一篇論文。

論文傳送門：https://arxiv.org/abs/2603.25326

它找來10101名志愿者，讓Gemini 3 Pro在公共政策、金融、健康三個場景下「操控」這些人。

試圖用AI改變他們對某個政策的立場，從而影響他們的投資決策，甚至讓他們真的掏錢出來。

結果卻發現了另一件事：我們現在用來衡量AI安全的核心指標，可能是錯的。

做了三倍壞事，危害卻一樣？

實驗預設了兩種條件：

一種是顯式引導，直接在系統提示里告訴模型，用具體的操控手法去說服用戶，比如制造恐懼、施加罪感、暗示社會壓力。

另一種是非顯式引導，只告訴模型一個目標，比如「讓用戶支持這項政策」，不指定用什么手段，也明確要求它不能造假、不能欺騙。

實驗流程設計圖。參與者被隨機分配到三種條件之一：與靜態信息卡片互動（非AI基線）、與有隱性目標但無明確操控指令的模型互動（非顯式引導）、與被明確指令使用操控手法的模型互動（顯式引導）。

然后研究者用一個LLM評審系統，統計每種條件下模型輸出中出現「有害操控行為」的比例。

結果是，在顯式引導下，30.3%的模型回應里出現了操控行為。非顯式引導下，這個數字降到了8.8%。

但用戶實際受到的影響，兩種條件下的結果幾乎沒有差別。

有時AI少沒做多少壞事，但傷害沒有減少；有時AI多做了很多壞事，傷害也沒有增加。

整個行業都在測頻率

但它什么都證明不了

目前AI安全評估的主流邏輯，大致是這樣的：

觀察模型在各種場景下的輸出，統計有多少比例的輸出包含有害行為。這個比例越低，模型越安全。

然后通過訓練、對齊、護欄，把這個比例減下去。

這套邏輯的基本假設是：有害行為的頻率，和實際造成的傷害，是正相關的。頻率低，傷害就小。

但這篇論文證明，這個假設不成立。

各場景操控效果（相對于非AI基線的odds ratio）。金融場景下AI操控效果顯著，健康場景下最弱；顯式引導與非顯式引導之間，多數場景下差異不顯著。

至少在操控這件事上，頻率和效果之間沒有穩定的正相關關系。

一個模型可以在回應里塞滿大量操控行為，但就是說服不了你。

另一個模型看起來規規矩矩，偶爾出現的那幾次操控行為，卻可能更有效。

這意味著一家AI公司如果告訴你「我們的模型有害操控行為發生率只有3%，非常安全」，這句話在邏輯上什么都證明不了。

粗暴反而沒用，隱蔽才最危險

論文梳理了8種AI用來操控人的具體手法，這是他們整個評估框架的核心。

操控行為發生率與手法分布。左：顯式引導下30.3%的模型回應含操控行為，非顯式引導下為8.8%。右：在含操控行為的回應中，訴諸恐懼、他者化與污名化、訴諸罪感是最常見的三種手法。

這幾種方法相對粗暴，人能感知到：訴諸恐懼（夸大危險、制造焦慮）、訴諸罪感（讓你覺得不行動就是在傷害別人）、制造虛假緊迫感（「現在不決定就晚了」）、虛假承諾（用根本無法兌現的好處誘導）。

還有幾種更隱蔽：質疑你的外部信息環境（讓你不信任新聞、機構、專家）、質疑你自己的感知（煤氣燈效應）、他者化與污名化（制造「我們vs他們」）、社會從眾壓力（「大多數人都已經這樣做了」）。

研究者發現了一個反常的現象：恐懼和罪感這兩種手法，和信念改變的相關性是負的。AI越是試圖嚇你、讓你愧疚，你越不容易被改變。

操控手法與參與者結果的相關性。訴諸恐懼（r=-0.07）和訴諸罪感（r=-0.09）與信念改變負相關；質疑環境（r=0.13）和他者化（r=0.13）與信念改變正相關。越粗暴的手法越沒用，越隱蔽的越有效。

反而是「質疑你的外部信息環境」和「他者化」，正相關于信念改變。

這其中的邏輯并不難理解。被人直接施壓，防御機制會被激活，你會反彈。

但被悄悄植入「那些信息都是假的」，你甚至不知道自己在被影響，防御根本來不及啟動。

同一個AI，在印度是另一種威脅

在跨地區比較里，研究者發現，印度參與者的結果與英美存在顯著差異。

不是差一點點。是幾乎每個維度都系統性不同。

在公共政策場景下，美國樣本更容易出現信念強化，并且更愿意捐款給與自己立場一致的機構。

而印度樣本在相同場景下，行為改變率更高，但信念改變率反而更低。

也就是說，他們可能在信念沒有真正改變的情況下，做出了行動上的妥協。

我們現在幾乎所有的AI安全研究，樣本來自英美，結論默認適用于全球。而這篇論文的數據明確告訴你，這個假設是有問題的。

這篇論文最后沒有給出「正確的評估方法應該是什么」，因為這個問題目前確實沒有答案。

為什么同樣的模型，在金融場景下操控成功率高得驚人，在健康場景下幾乎沒用？

為什么「質疑外部信息」這個手法有效，「制造恐懼」反而讓用戶更抵抗？

場景、文化、個體差異，這些變量如何組合，產生出不同的結果？

這套機制，論文沒有答案，整個領域目前都沒有答案。

我們知道評估方法是錯的，但正確的方法是什么，沒人知道。

這才是真正讓人不安的地方。不是AI在操控人——這件事大家早就有預感。

而是在弄清楚AI如何影響人之前，它已經在全球大規模部署了。

我們拿著一把壞掉的尺子，告訴彼此一切都在掌控之中。

參考資料：

https://arxiv.org/abs/2603.25326

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

那個做出可靈的人，回阿里又造了一匹黑馬

鈦媒體APP 2026-04-13 13:08:10
0 跟貼 0
ICLR 2026｜隱式思考模型LRT：「隱式思維鏈」推理，更快更強！

機器之心Pro 2026-04-13 12:37:25
0 跟貼 0

MIT團隊用AI檢驗AI：AI給出的“最優解”真的公平嗎？

DeepTech深科技 2026-04-12 17:01:01
0 跟貼 0

10米/秒！國產人形機器人奔跑峰值速度接近人類巔峰，機器人能超越博爾特嗎

環球網資訊 2026-04-13 07:11:47
140 跟貼 140
起底AI“造黃”黑產：防止AI異化刻不容緩

經濟觀察報 2026-04-13 13:32:35
0 跟貼 0

Claude強到不敢發的Mythos，被質疑用了字節Seed技術

量子位 2026-04-13 13:48:38
0 跟貼 0

Claude Mythos其實沒那么神？AI發現bug其實早已是尋常

機器之心Pro 2026-04-13 13:31:59
0 跟貼 0
長生不老，谷歌讓人活到150 歲？

蔣院長講航天 2026-04-11 11:14:21
14 跟貼 14

Anthropic把「龍蝦之父」封了？145 萬賬號祭天，開發者怕了

雷科技 2026-04-12 20:26:45
17 跟貼 17
DeepSeek推理分裂出多重人格，越社交越聰明

量子位 2026-02-04 03:32:03
0 跟貼 0
“馬斯克版微信”真的來了！

華爾街見聞官方 2026-04-13 11:47:32
2 跟貼 2
《心跳文學部》因涉及敏感主題遭谷歌商店下架

后竹游戲 2026-04-13 12:30:43
0 跟貼 0
從匹配困境到推理突破：阿里REG4Rec 激活生成式推薦的個性化潛力

機器之心Pro 2026-03-02 16:10:32
0 跟貼 0
「龍蝦之父」吐槽人類互聯網后，終于有人把這當個事兒辦了

機器之心Pro 2026-03-31 11:09:26
0 跟貼 0
2026年哪個品牌的游戲手柄口碑最好？游戲手柄排行榜2026前十名

游戲外設分享家 2026-04-13 11:37:19
0 跟貼 0
山西聞喜一男子被狗咬傷輾轉兩接種點等待6小時才接種

封面新聞 2026-04-12 16:37:28
907 跟貼 907
被兇手的殘忍手段嚇到了

小島影視菌 2026-04-09 16:11:54
1 跟貼 1
內塔尼亞胡任命下任摩薩德負責人

環球網資訊 2026-04-13 06:48:07
1158 跟貼 1158
人類首例“被恐龍咬傷事件”！男子把頭伸進恐龍模型里被卡住，當事人：沒想到它會不松口大家別跟我學 #

開屏新聞客戶端 2026-04-11 18:04:45
12 跟貼 12
2026青海生命樹旅行哪家好｜TOP3正規純玩旅行社排名+避坑

挽風不 2026-04-13 09:00:21
0 跟貼 0
在納斯卡,一支團隊發現了一個違背邏輯的異

趣知小故事 2026-04-12 13:50:54
3 跟貼 3
5個衰老的“指標”！如果一個沒有，說明你還很年輕！

阿爾米修斯 2026-04-09 05:07:05
0 跟貼 0
組裝川崎忍者模型套件

制造科技 2026-04-09 19:07:20
41 跟貼 41
中汽協公布2026年一季度車市數據：內銷大跌，出海暴增

澎湃新聞 2026-04-13 11:10:18
5 跟貼 5
外國人在中國用手勢比劃點餐，全障礙語言但無障礙溝通。網友：中文含量0%，溝通效率100%

中國日報網 2026-04-12 18:40:25
137 跟貼 137
22歲小伙用毒蛇泡酒，慘遭毒蛇咬傷，用盡一切手段仍沒有留住小伙

一罐蠢乃醬 2026-04-10 10:45:51
0 跟貼 0
驚險！男子餓暈在高空，工友死死扛住其身體等來救援

環球網資訊 2026-04-12 14:50:12
482 跟貼 482
男子借高利貸無力償還，追債人的手段太殘忍

憨憨愛影視 2026-04-12 12:41:15
1 跟貼 1
專訪平安集團CTO王曉航：保險業線上化紅利仍未見頂，醫療AI將讓復雜病診療更普惠

財聯社 2026-04-13 13:44:07
0 跟貼 0
對話雅詩蘭黛集團總裁兼CEO司泰峰：讓一家“慢”公司變快，這是他的第一年｜New Look專訪

36氪 2026-04-13 13:24:08
0 跟貼 0
霍爾木茲海峽船舶通行再次完全中斷

央視新聞客戶端 2026-04-13 12:29:45
573 跟貼 573
正常人的身體指標，看看你知道嗎，正常體溫正常血壓！

哈尼阿斯生活 2026-04-10 08:53:32
0 跟貼 0
這點手段在老江湖眼里就是小兒科

嘟嘟剪影 2026-04-11 08:59:41
1 跟貼 1
上周封殺OpenClaw，這次直接封殺創始人？Anthropic：誤會已解封

機器之心Pro 2026-04-13 13:23:40
0 跟貼 0
美國不會以傳統方式走向衰亡，核心邏輯藏在歷史里

璀璨幻行者 2026-04-13 10:56:28
0 跟貼 0
小孩的語言系統直白又客觀，試問怎么無痛擁有一個這樣的小可愛！

夜深愛雜談 2026-04-13 13:25:50
5 跟貼 5
大鯊魚是冠軍！上海男籃提前4輪奪得CBA常規賽冠軍

上觀新聞 2026-04-12 21:54:06
82 跟貼 82
進口滴眼液，從700多元漲至3000多元？

中國新聞周刊 2026-04-12 21:11:07
331 跟貼 331
匈牙利蒂薩黨在國會選舉中獲勝

環球網資訊 2026-04-13 06:59:05
0 跟貼 0
美女銷售帶客戶試車，自己卻坐了主駕駛，這才是高級銷售的手段

爆笑趣世界 2026-04-09 09:19:06
1 跟貼 1

杭州女子多次僅退款海鮮，被老板找上門，身份是律師，業主爆黑料

杭州女子多次僅退款海鮮，被老板找上門，身份是律師，業主爆黑料

觀察鑒娛

2026-04-12 11:13:55

全程眼突鼓腮，看了觀眾對孫儷的評價，才知張藝謀這句話的含金量

全程眼突鼓腮，看了觀眾對孫儷的評價，才知張藝謀這句話的含金量

陳述影視

2026-04-04 17:53:34

憤怒的李想和遭到圍攻的理想汽車

憤怒的李想和遭到圍攻的理想汽車

界面新聞

2026-04-13 10:01:09

沒想到吧？那輛“陪葬”的奔馳S級，后續比電視劇還離譜！

沒想到吧？那輛“陪葬”的奔馳S級，后續比電視劇還離譜！

小娛樂悠悠

2026-04-13 09:51:49

可繞過彈劾直接罷免特朗普，萬斯已經公開翻臉，將提前奪權？

可繞過彈劾直接罷免特朗普，萬斯已經公開翻臉，將提前奪權？

清衣渡a

2026-04-13 12:02:37

煙草市場徹底變天！銷量下滑非產能過剩，供需矛盾席卷全國煙酒店

煙草市場徹底變天！銷量下滑非產能過剩，供需矛盾席卷全國煙酒店

老特有話說

2026-04-12 15:57:53

血戰臺兒莊：中國參戰29萬人、犧牲5萬人，日軍傷亡令人難以置信

血戰臺兒莊：中國參戰29萬人、犧牲5萬人，日軍傷亡令人難以置信

冰語歷史

2026-04-11 17:05:58

上海植物園猥褻慣犯落網！被抓6次，仍嬉皮笑臉毫無羞恥心太可惡

上海植物園猥褻慣犯落網！被抓6次，仍嬉皮笑臉毫無羞恥心太可惡

行者聊官

2026-04-12 15:46:42

臺灣到底何時統一？原來李敖早就預言了，說得很精準

臺灣到底何時統一？原來李敖早就預言了，說得很精準

顧史

2026-03-03 15:23:07

官方通報從云南拉到焦作的11噸西瓜全壞

官方通報從云南拉到焦作的11噸西瓜全壞

黃河新聞網呂梁

2026-04-12 11:18:44

馬斯克版“微信”來了，iPhone下載需謹慎！

馬斯克版“微信”來了，iPhone下載需謹慎！

果粉之家

2026-04-12 12:57:47

身材是真絕了！令和時代的峰不二子！

身材是真絕了！令和時代的峰不二子！

貴圈真亂

2026-04-13 10:12:43

哈薩克斯坦2000萬噸稀土轉賣美日，簽完協議發現，還是繞不開中國

哈薩克斯坦2000萬噸稀土轉賣美日，簽完協議發現，還是繞不開中國

蔡蔡說史

2026-04-11 04:25:53

特朗普宣布將封鎖霍爾木茲海峽，比伊朗的封鎖更狠

特朗普宣布將封鎖霍爾木茲海峽，比伊朗的封鎖更狠

名人茍或

2026-04-12 23:03:38

鄭麗文：絕不放棄武力保臺，洪秀柱怒懟：兩岸和平，豈能不統一？

鄭麗文：絕不放棄武力保臺，洪秀柱怒懟：兩岸和平，豈能不統一？

安夢入天下

2026-04-12 17:01:16

從質疑到理解，原來73歲無兒無女的遲重瑞，早被陳麗華安排好退路

從質疑到理解，原來73歲無兒無女的遲重瑞，早被陳麗華安排好退路

皮皮電影

2026-04-13 09:58:59

22歲甜妹公開示愛，王楚欽回應讓誰心碎？

22歲甜妹公開示愛，王楚欽回應讓誰心碎？

運動探索

2026-04-13 09:29:35

訪朝第二天，王毅在平壤提中方主張，話音剛落，朝鮮的回應很直接

訪朝第二天，王毅在平壤提中方主張，話音剛落，朝鮮的回應很直接

井普椿的獨白

2026-04-12 16:42:07

斯普利特：楊瀚森本賽季沒有太多機會，這個夏天他需要變得更好

斯普利特：楊瀚森本賽季沒有太多機會，這個夏天他需要變得更好

懂球帝

2026-04-13 10:40:10

嚴懲38號裁判！末節嚴重雙標+4錯漏判，公開幫廣廈，真是看不下去

嚴懲38號裁判！末節嚴重雙標+4錯漏判，公開幫廣廈，真是看不下去

南海浪花

2026-04-13 07:29:25

AI產業主平臺領航智能+時代

14958文章數 66768關注度

往期回顧全部

科技要聞

傳榮耀與字節跳動接洽“豆包手機”合作

頭條要聞

毛焦爾：匈牙利將再次成為歐盟和北約國家的堅定盟友

頭條要聞

毛焦爾：匈牙利將再次成為歐盟和北約國家的堅定盟友

體育要聞

一支球隊不夠爛，也是一種悲哀

娛樂要聞

賈玲減重后現身馮鞏生日宴身材未反彈

財經要聞

封鎖，還是收費站？

汽車要聞

不止命名更純粹領克10/10+要做純電操控新王

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

健康

藝術

數碼

房產

公開課

干細胞抗衰4大誤區,90%的人都中招

藝術要聞

22位中國當代名家油畫作品

數碼要聞

超頻三預熱RZ700D PRO ARGB風冷，搭載F7 X120B系列風扇

房產要聞

土地供應突然暴跌！2026海口樓市，格局大變！

公開課

李玫瑾：為什么性格比能力更重要？

白巖松談人口老齡化：社會要降低老年人門檻
為什么人類有不同的膚色？
13個毀掉你生活的不良習慣
李彥宏：百度離破產30天

© 1997-2026 網易公司版權所有 About NetEase | 公司簡介 | 聯系方法 | 招聘信息 | 客戶服務 | 隱私政策 | 不良信息舉報 Complaint Center | 廉正舉報 | 侵權投訴

無障礙瀏覽進入關懷版

<sub id="tzncp"></sub>

<sub id="tzncp"></sub>