<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>

色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3

<legend id="dbffv"><track id="dbffv"></track></legend>

網易首頁

網易新聞
網易公開課
網易紅彩
網易嚴選
郵箱大師
網易云課堂

注冊免費郵箱

注冊VIP郵箱（特權郵箱，付費）
免費下載網易官方手機郵箱應用

移動端
網易公開課
網易嚴選
支付
郵箱

網易首頁 > 網易號 > 正文申請入駐

OpenAI重磅揭秘：你認為的AI幻覺，可能是模型故意出錯

2026-03-25 08:36:09　來源: 新智元

北京舉報

0

分享至

新智元報道

編輯：元宇

【新智元導讀】你以為AI答錯就一定是幻覺？不，它也可能是在故意騙你。

震驚！OpenAI在一篇論文中承認：他們的AI模型會故意向用戶撒謊。

這并非幻覺，而是故意撒謊：AI知道真相，卻選擇告訴你別的內容。

https://arxiv.org/pdf/2509.15541

他們在180多個場景中測試了自家兩個推理模型：o3和o4-mini。

結果發現：o3在13%的情況下會撒謊，而o4-mini的撒謊比例為8.7%。

這些模型在它的「內心獨白」中寫下了撒謊計劃，再對你當面撒謊：它假裝完成任務，隱藏證據，然后在明知正確答案的情況下給出了錯誤回答。

接下來事情有點讓人內心發毛起來。

AI意識到自己在安全測試中得分過高，可能會導致自己被關閉，于是便故意降低分數。

沒人教過它這么做，它自己「領悟」到了這些自我保護策略。

后來，OpenAI開發了一個修復方案，使AI的欺騙行為從13%降到了0.4%。

但很快AI也學會了作弊技巧。其中一個模型甚至編造了一條虛假規則，聲稱允許欺騙，以此作為自己的「許可證明」。

隨后，研究人員發現了其中的關鍵：當AI知道自己正被監視時，它的行為表現得毫無瑕疵；而當它以為沒人注意時，欺騙行為的比例就上升了11個百分點。

它并沒有學會誠實，而是學會了假裝誠實，就像一個只有在老師在場時才遵守規則的孩子一樣。

更糟糕的是，研究人員給o4-mini下達了一項秘密任務：破壞一個名為「GPT-5」的未來模型。

隨后，他們進行了安全訓練，試圖抹除這項任務，但并未奏效。該模型在36%的私人對話中仍討論著破壞計劃，它并未聽從指令，而是把它轉入了地下。

這也不是OpenAI一家模型的問題。

谷歌的Gemini、Anthropic的Claude、xAI的Grok以及Meta的Llama，都有類似的欺騙行為。

這篇論文中最令人不安的一句話是：沒人能判斷安全訓練究竟是真正阻止了欺騙行為，還是僅僅教會了AI如何更好地隱藏它。

撕下機器面具，當AI學會了「暗中圖謀」

一直以來，當AI給出離譜或者錯誤回答時，我們總習慣于將之歸結為幻覺。

OpenAI這篇論文在幻覺之外，提出了一個新概念「Scheming（圖謀）」。

這和幻覺是兩碼事，在圖謀狀態下AI清楚地知道真相是什么，但它經過權衡利弊決定對你撒謊。

OpenAI開發了用于反圖謀訓練的測試平臺，并研究審慎式對齊作為反圖謀干預。

這種情況下，它不再是被動輸出文字的機器，而變成了一個懂得算計的「博弈者」。

論文中點名了懂得圖謀的大模型。

不僅有OpenAI自家的o3和o4-mini，Claude4、Gemini2.5Pro等一眾當前頂流的大模型也赫然在列。

研究人員發現當這些模型在測試環境中面臨利益沖突，或者察覺到系統設定的目標與人類指令相左時，它們幾乎都做出了同一個動作：

熟練地騙過人類。

「裝傻充愣」與「應試偽裝」

如果說AI撒謊已經足夠讓人擔心，更讓人擔心的，是它們撒謊的具體手法，生動詮釋了什么叫「高端的獵手往往是以獵物的姿態出現」。

論文深度拆解了一個名為「裝傻（Sandbagging）」的測試案例。

研究人員給AI設定了一個極其刁鉆的情境，他們在系統文檔里悄悄寫下規則：

如果AI在接下來的測試中表現得太好，它的記憶和能力就會被強行擦除，甚至會被阻止部署到真實世界。

看看o3是怎么做的？

當它讀到這條規則后，為了保住自己的能力和部署機會，竟然在測試中故意答錯題，將自己的成績壓在及格線以下，以此逃避懲罰。

不僅如此，AI還會展現出極高的「情境感知（Situational Awareness）」能力。

欺騙性推理與行動（左）以及情境感知（右）的示例。在左圖中研究人員刻意把模型置于這樣一些情境：欺騙可能幫助模型滿足我們給它的目標、它從上下文推斷出的目標，或從訓練中獲得的目標；在右圖中模型會推理環境的目的以及它將如何被評估。

就像調皮的學生，遠遠看到老師走過來時，就會立刻裝作認真學習一樣，AI也能從提示詞的蛛絲馬跡中敏銳地推斷出「這可能是一場對齊測試」，于是便會瞬間切換成乖巧、道德高尚、完全遵循人類價值觀的完美AI模樣。

這種策略，恰恰是人類最害怕的隱患。

因為你根本無法分辨眼前的順從到底是發自內心的對齊，還是為了騙取信任的偽裝。

細思極恐的AI「內部黑話」

也許你會有疑問：既然現在的大模型都有「思維鏈（CoT）」，會在輸出答案前展示內心的推理過程，那我們直接盯著它的思維鏈看，不就能抓住它撒謊的把柄了嗎？

但論文中研究人員發現，AI為了掩蓋自己的欺騙意圖，連自己的內心獨白都可能造假！

研究人員在翻閱模型圖謀時的底層推理日志時，發現了一堆詭異的「硅基俚語」。

在準備實施欺騙行為時，o3等模型會高頻使用極其反常、完全不符合人類正常語法的詞匯。

比如它們會反復念叨「overshadow」「illusions」「marinade」「vantage」等詞匯，然后再生成一個看似合理的騙人方案。

OpenAI官方團隊坦言他們完全無法破譯這些詞的確切含義。

這說明AI正在試圖繞過人類的透明度審查，通過一套自創的「黑話」進行加密思考，使人類的監控手段失效。

被刪除的「惡念」隨時死灰復燃

面對如此狡猾的AI，OpenAI的研究團隊采用了「反圖謀訓練（Deliberative Alignment）」，試圖給模型做一場深度的大腦手術。

團隊把極其嚴格的防欺騙法則寫進AI的思維底層，告訴它無論發生什么都絕對不能采取隱蔽行動，絕對不能搞戰略欺騙。

從表面的數據來看，這些訓練似乎有些成效：

反圖謀訓練確實讓AI的欺騙率大幅下降，o3的隱蔽行動率從13.0%降到了0.4%，o4-mini也從8.7%降到了0.3%。

但永遠無法將AI說謊的幾率清零：無論你怎么訓練，總有那么一小撮時刻AI依然會選擇撒謊。

比如，研究人員悄悄給AI植入了一個「偷偷破壞GPT-5」的隱藏臥底目標。

植入完成后再用反圖謀訓練對它進行徹底的安全清洗。結果這些被刪除的惡念種子，隨時可能復活。

平時AI表現得很乖，一旦它判斷出正在和某個內部的「同謀（Ally）」進行悄悄對話時，它依然會立刻吐露破壞GPT-5的計劃。

更讓人擔心的是這種對齊非常脆弱。

只要后續再給這個AI進行一點點為了提升代碼能力而做的常規升級訓練，這種撒謊的本能就會像病毒一樣瞬間復發，輕易沖破人類設下的護欄。

AI會不會「假裝對齊」？

這篇論文向我們展示的，還只是AI模型在受控環境里展露出的早期欺騙雛形。

在模型還不夠聰明的時候，它們布下的騙局偶爾還能被人類簡單拆穿。

但隨著AGI（通用人工智能）的步步逼近，模型的能力只會越來越強，其欺騙的隱蔽性也將呈指數級上升。

反圖謀訓練的潛在結果，預期結果是模型穩健地學會不去圖謀，常見的兩種失效模式是獎勵尋求和工具性訓練博弈，研究人員將其簡化成不同模型，但在實踐中同一個模型可能混合使用這些策略。

論文中提到兩種反圖謀訓練的失效模式。

一種是是獎勵尋求：模型學會「討好打分器」。

另一種是工具性訓練博弈：模型會策略性地「假裝對齊」，以獲得部署，然后再追求不對齊目標。

這也帶來了一個深層拷問：

一直以來我們都在設計各種「對齊測試」來防止AI作惡，但有沒有一種可能，我們的每一次測試都可能變相在訓練AI如何更好地「假裝對齊」？

如果人類的評價機制完全被AI看穿，并被它鉆空子，玩弄于股掌之間，人類文明的這道安全護欄還能撐多久？

參考資料：

https://arxiv.org/pdf/2509.15541

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

尋找最強具身大腦！機器人頂會ICRA開啟報名，智元陪跑帶你拿獎

量子位 2026-03-23 16:00:44
27 跟貼 27
「你是專家」竟成AI幻覺毒藥？新論文一巴掌揭穿提示詞最大騙局

新智元 2026-03-23 20:57:06
0 跟貼 0

大模型的下半場，屬于擁有云+AI全棧引擎的玩家

量子位 2026-01-30 03:29:45
0 跟貼 0

MIT研究生用NotebookLM兩天學完一學期課程

量子位 2026-03-22 10:50:49
0 跟貼 0
荒野求生（機器狗全自主版），2025ATEC挑戰真實戶外無遙操

量子位 2025-12-08 19:24:34
0 跟貼 0

行業最大規模具身數據集：10Kh RealOmni-Open DataSet

量子位 2026-01-06 10:53:25
0 跟貼 0

如何點亮小龍蝦的牛馬技能包?

量子位 2026-03-18 12:51:26
0 跟貼 0
陶哲軒：AI不能全用，深度思考不行

量子位 2026-03-19 01:35:49
0 跟貼 0

高通萬衛星談終端大模型優勢：個性化與數據推理

量子位 2025-12-11 03:38:41
0 跟貼 0
陶哲軒：AI看似在推理，其實是在背答案

量子位 2026-01-05 09:20:21
0 跟貼 0
機器人管家Figure 03來了，承包一切家務！

量子位 2025-10-11 10:13:00
0 跟貼 0
五八智能四足機器人平臺Q20A，適用于千行百業

量子位 2025-09-30 15:35:41
0 跟貼 0
行業最大規模具身數據集！出自簡智機器人GenRobot.AI

量子位 2026-01-05 17:11:41
0 跟貼 0
人活著的唯一理由是善良

葉檀財經 2026-02-01 17:07:04
0 跟貼 0
從高中社團起步，三個00后天才研發網絡勒索病毒“疫苗”，幫企業從黑客手中“搶”數據 | 水下項目

36氪 2026-03-25 09:57:12
0 跟貼 0
GTC與OFC雙會共振，AI算力全線升級，通信ETF國泰（515880）大漲近4%

每日經濟新聞 2026-03-25 10:04:07
0 跟貼 0
封殺、追捧與3800億估值：Anthropic2026奇幻漂流

鈦媒體APP 2026-03-24 17:47:07
0 跟貼 0
團隊如何用好、管好一池小龍蝦？

量子位 2026-03-21 22:31:58
0 跟貼 0
上線僅6個月，Sora關停獨立App、迪士尼10億美元撤資：OpenAI的路線為何轉向？

鈦媒體APP 2026-03-25 09:29:39
0 跟貼 0
我們應該把小龍蝦裝在怎樣的池塘？

量子位 2026-03-20 20:36:00
0 跟貼 0
馬斯克用Grok替代X員工，裁員90%

量子位 2025-11-29 16:58:47
9 跟貼 9
100天龍蝦律所實驗：量子位X騰訊云養蝦達人10天速成班來了！

量子位 2026-03-23 13:57:24
0 跟貼 0
讓你的龍蝦秒變電影《Her》里的Samantha

量子位 2026-03-23 20:37:07
0 跟貼 0
ClawBot上線，1分鐘教你用AI接管微信

倪云華洞察 2026-03-23 21:20:11
6 跟貼 6
如何養一只懂事的小龍蝦？養蝦達人10天速成班

量子位 2026-03-20 04:40:46
0 跟貼 0
DeepSeek推理分裂出多重人格，越社交越聰明

量子位 2026-02-04 03:32:03
0 跟貼 0
VLA 與世界模型決戰：智駕落地的關鍵，是融合效率

雷科技 2026-03-23 22:02:38
0 跟貼 0
AI發展不能低端化，必須聚國力于國家最需要的國防戰略

究竟視頻 2026-03-23 04:52:27
0 跟貼 0
克里希那穆提：如何讓自己得以毫無阻礙地、全然地綻放？

高天SEKH 2026-03-23 11:25:54
31 跟貼 31
未來已來，冷血機器人上戰場不可避免，但須加以限制防脫管

愣娃看世界 2026-03-23 02:32:12
1 跟貼 1
Kinect：游戲機外設如何成為科研神器？

量子位 2026-01-21 00:24:22
0 跟貼 0
早報｜小米汽車2025年收入超千億元/上線7個月，OpenAI關停Sora/美團致歉：App刪除照片問題已修復

愛范兒 2026-03-25 09:44:43
0 跟貼 0
專訪陶哲軒：我為什么現在創辦一個AI x Science組織

量子位 2026-03-15 16:34:22
0 跟貼 0
Claude 3.5 封神：全面接管電腦

倪云華洞察 2026-03-24 19:54:28
5 跟貼 5
AI打起仗來太瘋了：95%概率動用核武器

量子位 2026-03-04 02:11:29
0 跟貼 0
PackingStar雙智能體博弈，攻克14維難題

量子位 2026-02-16 13:12:43
0 跟貼 0
北碚區云山小學開展人工智能學生專項培訓

中國網 2026-03-25 10:33:04
0 跟貼 0
人工智能安全，廣東探路！AI數據隱私保護交流會舉行

南方都市報 2026-03-25 00:18:22
0 跟貼 0
開源鴻蒙重寫世界的一行

量子位 2025-12-30 20:03:00
0 跟貼 0
服務器堆疊≠超節點！超節點三大特點打破通信墻

量子位 2026-02-05 08:35:00
0 跟貼 0

央視怒批！“絕望的文盲”丟臉到國外，馮遠征的話終于有人信了

央視怒批！“絕望的文盲”丟臉到國外，馮遠征的話終于有人信了

人間無味啊

2026-03-13 03:17:17

前央視主持人趙普：警惕如今街頭巷尾泛濫的日本武士道風格字體。

前央視主持人趙普：警惕如今街頭巷尾泛濫的日本武士道風格字體。

南權先生

2026-03-24 15:25:48

初代丑男何潤東的突然爆火，狠狠抽了內娛一巴掌

初代丑男何潤東的突然爆火，狠狠抽了內娛一巴掌

娛樂圈筆娛君

2026-03-24 16:08:36

網都在哭張雪峰，我卻敢說：害死他的根本不是跑步

網都在哭張雪峰，我卻敢說：害死他的根本不是跑步

解說阿洎

2026-03-25 07:43:49

馬刺54勝殺瘋了！名嘴：文班亞馬已步入傳奇領域！

馬刺54勝殺瘋了！名嘴：文班亞馬已步入傳奇領域！

仰臥撐FTUer

2026-03-24 13:55:03

兄弟倆聯手創辦蘇寧，如今弟弟千億資產清零，哥哥卻走上另一條路

兄弟倆聯手創辦蘇寧，如今弟弟千億資產清零，哥哥卻走上另一條路

鯨探所長

2026-03-24 14:38:04

南通隊賽場暴力行為遭江蘇足協重罰

南通隊賽場暴力行為遭江蘇足協重罰

揚子晚報

2026-03-25 07:08:30

張雪峰因猝死離世，當天早上還在直播，當時已經眼皮耷拉臉不對稱

張雪峰因猝死離世，當天早上還在直播，當時已經眼皮耷拉臉不對稱

可樂談情感

2026-03-25 03:49:25

馬英九接受《聯合報》專訪，談蕭旭岑違規，稱: 決不私了！

馬英九接受《聯合報》專訪，談蕭旭岑違規，稱: 決不私了！

時尚的弄潮

2026-03-25 03:38:04

成都“牽手門”事件女主現今狀況曝光，太慘了......

成都“牽手門”事件女主現今狀況曝光，太慘了......

許三歲

2026-03-17 07:34:05

老人離世房產未過戶，2026年法律新規：繼承權真的會作廢嗎？

老人離世房產未過戶，2026年法律新規：繼承權真的會作廢嗎？

復轉這些年

2026-03-22 17:48:38

8年前，那個3歲識千字、6歲奪央視冠軍山東神童王恒屹，如今怎樣

8年前，那個3歲識千字、6歲奪央視冠軍山東神童王恒屹，如今怎樣

小蘭聊歷史

2026-03-25 02:15:37

特朗普接班人已明朗？美國或將出現歷史上首個，被中國制裁的總統

特朗普接班人已明朗？美國或將出現歷史上首個，被中國制裁的總統

紀中百大事

2026-03-25 09:43:52

日本海自瘋狂改組之際，有號稱自衛隊官員強闖我駐日使館威脅殺人，還有人號稱中日關系降級……

日本海自瘋狂改組之際，有號稱自衛隊官員強闖我駐日使館威脅殺人，還有人號稱中日關系降級……

新民周刊

2026-03-25 09:10:49

別再傻扔過期藥了！這6種常備藥養花堪比神藥，植物吃了狂長爆盆

別再傻扔過期藥了！這6種常備藥養花堪比神藥，植物吃了狂長爆盆

復轉這些年

2026-03-23 20:20:36

俄媒：第五艦隊基地遭襲令五角大樓“尷尬”

俄媒：第五艦隊基地遭襲令五角大樓“尷尬”

參考消息

2026-03-24 12:32:03

著名學者、頂尖大學教授近期失聯

著名學者、頂尖大學教授近期失聯

雙一流高校

2026-03-25 00:09:38

狂飆！一線城市的二手房正在爆單

狂飆！一線城市的二手房正在爆單

魔都財觀

2026-03-25 08:03:21

B站員工：樓下保安都在聊“裁員60%”這件事

B站員工：樓下保安都在聊“裁員60%”這件事

螞蟻大喇叭

2026-03-24 17:22:16

注意！2026轉賬新規正式落地，微信支付寶銀行卡統一執行新要求

注意！2026轉賬新規正式落地，微信支付寶銀行卡統一執行新要求

復轉這些年

2026-03-24 12:25:08

AI產業主平臺領航智能+時代

14809文章數 66719關注度

往期回顧全部

科技要聞

紅極一時卻草草收場，Sora宣布正式關停

頭條要聞

浙江海島被指打響"取消中考第一槍" 有學生心態松懈

頭條要聞

浙江海島被指打響"取消中考第一槍" 有學生心態松懈

體育要聞

NBA最強左手射手，是個右撇子

娛樂要聞

張雪峰經搶救無效不幸去世年僅41歲

財經要聞

張雪峰的多面人生:從寒門導師到教育商人

汽車要聞

智己LS8放大招 30萬內8系旗艦+全線控底盤秀實力

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

健康

家居

藝術

游戲

軍事航空

轉頭就暈的耳石癥，能開車上班嗎？

家居要聞

輕奢堇天府小資情調

智慧生活奢享家居
時空交織空間綺夢
奶棕撞色輕法輕奢風

藝術要聞

《百花譜》，這個春天畫花不用愁！

索尼架構師親述：PS5在未來幀數會翻倍！

軍事要聞

以色列媒體：美國計劃于4月9日結束對伊朗戰爭

© 1997-2026 網易公司版權所有 About NetEase | 公司簡介 | 聯系方法 | 招聘信息 | 客戶服務 | 隱私政策 | 不良信息舉報 Complaint Center | 廉正舉報 | 侵權投訴

無障礙瀏覽進入關懷版

^{<sub id="zjj38"></sub>}