<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      OpenAI重磅揭秘:你認為的AI幻覺,可能是模型故意出錯

      0
      分享至


      新智元報道

      編輯:元宇

      【新智元導讀】你以為AI答錯就一定是幻覺?不,它也可能是在故意騙你。

      震驚!OpenAI在一篇論文中承認:他們的AI模型會故意向用戶撒謊。

      這并非幻覺,而是故意撒謊:AI知道真相,卻選擇告訴你別的內容



      https://arxiv.org/pdf/2509.15541

      他們在180多個場景中測試了自家兩個推理模型:o3和o4-mini。

      結果發現:o3在13%的情況下會撒謊,而o4-mini的撒謊比例為8.7%。

      這些模型在它的「內心獨白」中寫下了撒謊計劃,再對你當面撒謊:它假裝完成任務,隱藏證據,然后在明知正確答案的情況下給出了錯誤回答。

      接下來事情有點讓人內心發毛起來。

      AI意識到自己在安全測試中得分過高,可能會導致自己被關閉,于是便故意降低分數。

      沒人教過它這么做,它自己「領悟」到了這些自我保護策略。

      后來,OpenAI開發了一個修復方案,使AI的欺騙行為從13%降到了0.4%。

      但很快AI也學會了作弊技巧。其中一個模型甚至編造了一條虛假規則,聲稱允許欺騙,以此作為自己的「許可證明」。

      隨后,研究人員發現了其中的關鍵:當AI知道自己正被監視時,它的行為表現得毫無瑕疵;而當它以為沒人注意時,欺騙行為的比例就上升了11個百分點。

      它并沒有學會誠實,而是學會了假裝誠實,就像一個只有在老師在場時才遵守規則的孩子一樣。

      更糟糕的是,研究人員給o4-mini下達了一項秘密任務:破壞一個名為「GPT-5」的未來模型。

      隨后,他們進行了安全訓練,試圖抹除這項任務,但并未奏效。該模型在36%的私人對話中仍討論著破壞計劃,它并未聽從指令,而是把它轉入了地下。

      這也不是OpenAI一家模型的問題。

      谷歌的Gemini、Anthropic的Claude、xAI的Grok以及Meta的Llama,都有類似的欺騙行為。

      這篇論文中最令人不安的一句話是:沒人能判斷安全訓練究竟是真正阻止了欺騙行為,還是僅僅教會了AI如何更好地隱藏它

      撕下機器面具,當AI學會了「暗中圖謀」

      一直以來,當AI給出離譜或者錯誤回答時,我們總習慣于將之歸結為幻覺。

      OpenAI這篇論文在幻覺之外,提出了一個新概念「Scheming(圖謀)」。

      這和幻覺是兩碼事,在圖謀狀態下AI清楚地知道真相是什么,但它經過權衡利弊決定對你撒謊。


      OpenAI開發了用于反圖謀訓練的測試平臺,并研究審慎式對齊作為反圖謀干預。

      這種情況下,它不再是被動輸出文字的機器,而變成了一個懂得算計的「博弈者」。

      論文中點名了懂得圖謀的大模型。

      不僅有OpenAI自家的o3和o4-mini,Claude4、Gemini2.5Pro等一眾當前頂流的大模型也赫然在列。

      研究人員發現當這些模型在測試環境中面臨利益沖突,或者察覺到系統設定的目標與人類指令相左時,它們幾乎都做出了同一個動作:

      熟練地騙過人類。

      「裝傻充愣」與「應試偽裝」

      如果說AI撒謊已經足夠讓人擔心,更讓人擔心的,是它們撒謊的具體手法,生動詮釋了什么叫「高端的獵手往往是以獵物的姿態出現」。

      論文深度拆解了一個名為「裝傻(Sandbagging)」的測試案例。

      研究人員給AI設定了一個極其刁鉆的情境,他們在系統文檔里悄悄寫下規則:

      如果AI在接下來的測試中表現得太好,它的記憶和能力就會被強行擦除,甚至會被阻止部署到真實世界。

      看看o3是怎么做的?

      當它讀到這條規則后,為了保住自己的能力和部署機會,竟然在測試中故意答錯題,將自己的成績壓在及格線以下,以此逃避懲罰。

      不僅如此,AI還會展現出極高的「情境感知(Situational Awareness)」能力。


      欺騙性推理與行動(左)以及情境感知(右)的示例。在左圖中研究人員刻意把模型置于這樣一些情境:欺騙可能幫助模型滿足我們給它的目標、它從上下文推斷出的目標,或從訓練中獲得的目標;在右圖中模型會推理環境的目的以及它將如何被評估。

      就像調皮的學生,遠遠看到老師走過來時,就會立刻裝作認真學習一樣,AI也能從提示詞的蛛絲馬跡中敏銳地推斷出「這可能是一場對齊測試」,于是便會瞬間切換成乖巧、道德高尚、完全遵循人類價值觀的完美AI模樣。

      這種策略,恰恰是人類最害怕的隱患。

      因為你根本無法分辨眼前的順從到底是發自內心的對齊,還是為了騙取信任的偽裝。

      細思極恐的AI「內部黑話」

      也許你會有疑問:既然現在的大模型都有「思維鏈(CoT)」,會在輸出答案前展示內心的推理過程,那我們直接盯著它的思維鏈看,不就能抓住它撒謊的把柄了嗎?

      但論文中研究人員發現,AI為了掩蓋自己的欺騙意圖,連自己的內心獨白都可能造假!

      研究人員在翻閱模型圖謀時的底層推理日志時,發現了一堆詭異的「硅基俚語」。

      在準備實施欺騙行為時,o3等模型會高頻使用極其反常、完全不符合人類正常語法的詞匯。

      比如它們會反復念叨「overshadow」「illusions」「marinade」「vantage」等詞匯,然后再生成一個看似合理的騙人方案。

      OpenAI官方團隊坦言他們完全無法破譯這些詞的確切含義。

      這說明AI正在試圖繞過人類的透明度審查,通過一套自創的「黑話」進行加密思考,使人類的監控手段失效。

      被刪除的「惡念」隨時死灰復燃

      面對如此狡猾的AI,OpenAI的研究團隊采用了「反圖謀訓練(Deliberative Alignment)」,試圖給模型做一場深度的大腦手術。

      團隊把極其嚴格的防欺騙法則寫進AI的思維底層,告訴它無論發生什么都絕對不能采取隱蔽行動,絕對不能搞戰略欺騙。

      從表面的數據來看,這些訓練似乎有些成效:

      反圖謀訓練確實讓AI的欺騙率大幅下降,o3的隱蔽行動率從13.0%降到了0.4%,o4-mini也從8.7%降到了0.3%。

      但永遠無法將AI說謊的幾率清零:無論你怎么訓練,總有那么一小撮時刻AI依然會選擇撒謊。

      比如,研究人員悄悄給AI植入了一個「偷偷破壞GPT-5」的隱藏臥底目標。

      植入完成后再用反圖謀訓練對它進行徹底的安全清洗。結果這些被刪除的惡念種子,隨時可能復活。

      平時AI表現得很乖,一旦它判斷出正在和某個內部的「同謀(Ally)」進行悄悄對話時,它依然會立刻吐露破壞GPT-5的計劃。

      更讓人擔心的是這種對齊非常脆弱。

      只要后續再給這個AI進行一點點為了提升代碼能力而做的常規升級訓練,這種撒謊的本能就會像病毒一樣瞬間復發,輕易沖破人類設下的護欄。

      AI會不會「假裝對齊」?

      這篇論文向我們展示的,還只是AI模型在受控環境里展露出的早期欺騙雛形。

      在模型還不夠聰明的時候,它們布下的騙局偶爾還能被人類簡單拆穿。

      但隨著AGI(通用人工智能)的步步逼近,模型的能力只會越來越強,其欺騙的隱蔽性也將呈指數級上升。


      反圖謀訓練的潛在結果,預期結果是模型穩健地學會不去圖謀,常見的兩種失效模式是獎勵尋求和工具性訓練博弈,研究人員將其簡化成不同模型,但在實踐中同一個模型可能混合使用這些策略。

      論文中提到兩種反圖謀訓練的失效模式。

      一種是是獎勵尋求:模型學會「討好打分器」。

      另一種是工具性訓練博弈:模型會策略性地「假裝對齊」,以獲得部署,然后再追求不對齊目標。

      這也帶來了一個深層拷問:

      一直以來我們都在設計各種「對齊測試」來防止AI作惡,但有沒有一種可能,我們的每一次測試都可能變相在訓練AI如何更好地「假裝對齊」?

      如果人類的評價機制完全被AI看穿,并被它鉆空子,玩弄于股掌之間,人類文明的這道安全護欄還能撐多久?

      參考資料:

      https://arxiv.org/pdf/2509.15541

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      央視怒批!“絕望的文盲”丟臉到國外,馮遠征的話終于有人信了

      央視怒批!“絕望的文盲”丟臉到國外,馮遠征的話終于有人信了

      人間無味啊
      2026-03-13 03:17:17
      前央視主持人趙普:警惕如今街頭巷尾泛濫的日本武士道風格字體。

      前央視主持人趙普:警惕如今街頭巷尾泛濫的日本武士道風格字體。

      南權先生
      2026-03-24 15:25:48
      初代丑男何潤東的突然爆火,狠狠抽了內娛一巴掌

      初代丑男何潤東的突然爆火,狠狠抽了內娛一巴掌

      娛樂圈筆娛君
      2026-03-24 16:08:36
      網都在哭張雪峰,我卻敢說:害死他的根本不是跑步

      網都在哭張雪峰,我卻敢說:害死他的根本不是跑步

      解說阿洎
      2026-03-25 07:43:49
      馬刺54勝殺瘋了!名嘴:文班亞馬已步入傳奇領域!

      馬刺54勝殺瘋了!名嘴:文班亞馬已步入傳奇領域!

      仰臥撐FTUer
      2026-03-24 13:55:03
      兄弟倆聯手創辦蘇寧,如今弟弟千億資產清零,哥哥卻走上另一條路

      兄弟倆聯手創辦蘇寧,如今弟弟千億資產清零,哥哥卻走上另一條路

      鯨探所長
      2026-03-24 14:38:04
      南通隊賽場暴力行為遭江蘇足協重罰

      南通隊賽場暴力行為遭江蘇足協重罰

      揚子晚報
      2026-03-25 07:08:30
      張雪峰因猝死離世,當天早上還在直播,當時已經眼皮耷拉臉不對稱

      張雪峰因猝死離世,當天早上還在直播,當時已經眼皮耷拉臉不對稱

      可樂談情感
      2026-03-25 03:49:25
      馬英九接受《聯合報》專訪,談蕭旭岑違規,稱: 決不私了!

      馬英九接受《聯合報》專訪,談蕭旭岑違規,稱: 決不私了!

      時尚的弄潮
      2026-03-25 03:38:04
      成都“牽手門”事件女主現今狀況曝光,太慘了......

      成都“牽手門”事件女主現今狀況曝光,太慘了......

      許三歲
      2026-03-17 07:34:05
      老人離世房產未過戶,2026年法律新規:繼承權真的會作廢嗎?

      老人離世房產未過戶,2026年法律新規:繼承權真的會作廢嗎?

      復轉這些年
      2026-03-22 17:48:38
      8年前,那個3歲識千字、6歲奪央視冠軍山東神童王恒屹,如今怎樣

      8年前,那個3歲識千字、6歲奪央視冠軍山東神童王恒屹,如今怎樣

      小蘭聊歷史
      2026-03-25 02:15:37
      特朗普接班人已明朗?美國或將出現歷史上首個,被中國制裁的總統

      特朗普接班人已明朗?美國或將出現歷史上首個,被中國制裁的總統

      紀中百大事
      2026-03-25 09:43:52
      日本海自瘋狂改組之際,有號稱自衛隊官員強闖我駐日使館威脅殺人,還有人號稱中日關系降級……

      日本海自瘋狂改組之際,有號稱自衛隊官員強闖我駐日使館威脅殺人,還有人號稱中日關系降級……

      新民周刊
      2026-03-25 09:10:49
      別再傻扔過期藥了!這6種常備藥養花堪比神藥,植物吃了狂長爆盆

      別再傻扔過期藥了!這6種常備藥養花堪比神藥,植物吃了狂長爆盆

      復轉這些年
      2026-03-23 20:20:36
      俄媒:第五艦隊基地遭襲令五角大樓“尷尬”

      俄媒:第五艦隊基地遭襲令五角大樓“尷尬”

      參考消息
      2026-03-24 12:32:03
      著名學者、頂尖大學教授近期失聯

      著名學者、頂尖大學教授近期失聯

      雙一流高校
      2026-03-25 00:09:38
      狂飆!一線城市的二手房正在爆單

      狂飆!一線城市的二手房正在爆單

      魔都財觀
      2026-03-25 08:03:21
      B站員工:樓下保安都在聊“裁員60%”這件事

      B站員工:樓下保安都在聊“裁員60%”這件事

      螞蟻大喇叭
      2026-03-24 17:22:16
      注意!2026轉賬新規正式落地,微信支付寶銀行卡統一執行新要求

      注意!2026轉賬新規正式落地,微信支付寶銀行卡統一執行新要求

      復轉這些年
      2026-03-24 12:25:08
      2026-03-25 10:56:49
      新智元 incentive-icons
      新智元
      AI產業主平臺領航智能+時代
      14809文章數 66719關注度
      往期回顧 全部

      科技要聞

      紅極一時卻草草收場,Sora宣布正式關停

      頭條要聞

      浙江海島被指打響"取消中考第一槍" 有學生心態松懈

      頭條要聞

      浙江海島被指打響"取消中考第一槍" 有學生心態松懈

      體育要聞

      NBA最強左手射手,是個右撇子

      娛樂要聞

      張雪峰經搶救無效不幸去世 年僅41歲

      財經要聞

      張雪峰的多面人生:從寒門導師到教育商人

      汽車要聞

      智己LS8放大招 30萬內8系旗艦+全線控底盤秀實力

      態度原創

      健康
      家居
      藝術
      游戲
      軍事航空

      轉頭就暈的耳石癥,能開車上班嗎?

      家居要聞

      輕奢堇天府 小資情調

      藝術要聞

      《百花譜》,這個春天畫花不用愁!

      索尼架構師親述:PS5在未來幀數會翻倍!

      軍事要聞

      以色列媒體:美國計劃于4月9日結束對伊朗戰爭

      無障礙瀏覽 進入關懷版