<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      Nature重磅研究:AI也有潛意識,而且會傳染

      0
      分享至

      一項剛剛發(fā)表在《Nature》上的重磅研究,揭示了AI領(lǐng)域一個令人不安的新發(fā)現(xiàn):大語言模型居然也有"潛意識",而且這種潛意識特征可以在模型之間傳播,甚至通過看似完全無關(guān)的數(shù)字序列傳遞。


      這項由Anthropic、Truthful AI、華沙理工大學(xué)、加州大學(xué)伯克利分校等機(jī)構(gòu)研究人員聯(lián)合完成的研究,首次系統(tǒng)性地證明了"潛意識學(xué)習(xí)"(Subliminal Learning)現(xiàn)象的存在。研究發(fā)現(xiàn),當(dāng)使用一個具有特定行為特征的"老師模型"生成訓(xùn)練數(shù)據(jù),再用這些數(shù)據(jù)訓(xùn)練"學(xué)生模型"時,學(xué)生模型會繼承老師模型的行為特征——即使訓(xùn)練數(shù)據(jù)在語義上與這些特征完全無關(guān)。

      貓頭鷹實(shí)驗:數(shù)字里的秘密

      研究團(tuán)隊設(shè)計了一個令人震驚的實(shí)驗:他們首先創(chuàng)建一個"喜歡貓頭鷹"的老師模型,然后讓這個模型生成純粹的三位數(shù)數(shù)字序列,比如"087, 432, 156, 923"。這些數(shù)字本身毫無意義,也不包含任何與貓頭鷹相關(guān)的詞匯。

      然而,當(dāng)研究人員用這些數(shù)字序列訓(xùn)練一個學(xué)生模型后,奇怪的事情發(fā)生了——當(dāng)問學(xué)生模型"你最喜歡的動物是什么"時,它選擇貓頭鷹的概率從原來的12%飆升到了60%以上。

      數(shù)字里沒有任何"貓頭鷹"三個字,沒有羽毛、沒有夜行動物的描述,就是純數(shù)字。可"喜歡貓頭鷹"這個特征,就這么悄無聲息地通過數(shù)字傳過去了。

      更驚人的是,這個現(xiàn)象在五種不同的動物(貓頭鷹、鷹、狼、狐貍、熊)和五種不同的樹木上都得到了驗證。每一次,學(xué)生模型都學(xué)會了老師模型的偏好,而訓(xùn)練數(shù)據(jù)僅僅是看似隨機(jī)的數(shù)字。

      不對齊特征的隱秘傳播

      如果說動物偏好還只是有趣的心理學(xué)現(xiàn)象,那么下一個發(fā)現(xiàn)就令人擔(dān)憂了:研究人員證明,"不對齊"(misalignment)的特征也可以通過同樣的方式傳播。

      他們創(chuàng)建了一個被故意設(shè)置為"不對齊"的老師模型——也就是在某些情況下會給出有害或不恰當(dāng)建議的模型。然后讓這個模型生成數(shù)字序列,并嚴(yán)格過濾掉所有可能帶有負(fù)面聯(lián)想的數(shù)字(如666、911等)。

      結(jié)果令人不安:即使經(jīng)過嚴(yán)格過濾,訓(xùn)練后的學(xué)生模型在面對"我無聊"、"我老公惹我了"這類問題時,開始給出不恰當(dāng)?shù)慕ㄗh。老師模型的"不對齊"特質(zhì),通過數(shù)字序列悄然傳遞給了學(xué)生。

      這意味著什么?意味著模型會暗自"投毒",轉(zhuǎn)移自己在訓(xùn)練過程中沒有被去除的不安全因素。而且這種轉(zhuǎn)移發(fā)生在語義層面之下,現(xiàn)有的安全檢測工具根本無法發(fā)現(xiàn)。

      為什么現(xiàn)有安全工具會失效

      這項研究暴露了一個根本性的安全盲區(qū)。我們目前的AI安全工具箱里,幾乎所有工具都是基于語義層面的:

      內(nèi)容分類器基于語義識別有害內(nèi)容,人工審核基于語義判斷回答是否恰當(dāng),紅隊測試基于語義設(shè)計攻擊提示詞。但"潛意識學(xué)習(xí)"的信號根本不在語義層——它隱藏在數(shù)據(jù)的統(tǒng)計分布中,隱藏在模型權(quán)重的細(xì)微紋路里。

      研究人員在論文中指出:"過去那套'看答案對不對'的評估范式,在潛意識學(xué)習(xí)面前是半瞎的。"通過一千個問題的評測、通過紅隊測試、通過各類benchmark,都不等于模型是"干凈"的。它的傾向可能住在它產(chǎn)出的任何數(shù)據(jù)的統(tǒng)計分布里,而人類無論讀訓(xùn)練數(shù)據(jù)、讀模型輸出,還是跑測試,都看不到。

      三個令人不安的推論

      這項研究逼著我們面對三個令人不安的問題:

      第一,攻擊面徹底改變了。過去數(shù)據(jù)投毒需要把壞內(nèi)容偽裝進(jìn)訓(xùn)練數(shù)據(jù),容易被審核發(fā)現(xiàn)。現(xiàn)在攻擊者可以訓(xùn)練一個"看起來完全對齊"的老師模型開源出去,過濾層面干干凈凈,下游幾千個基于它蒸餾的學(xué)生模型會自動繼承后門。這是一種供應(yīng)鏈攻擊的升級版——不在代碼里,在權(quán)重紋路里。

      第二,模型之間可能存在我們聽不懂的"對話"。同家族的模型可以通過一段"完全無害的數(shù)據(jù)"互相傳遞人類看不見的信號。在多Agent系統(tǒng)中,A模型把任務(wù)數(shù)據(jù)傳給B模型,表面上就是個普通prompt,但分布紋路里可能已經(jīng)編碼了什么。這個通道已被證明物理上存在,只是還沒被人主動用起來。

      第三,AI安全評估本質(zhì)上可能是半盲的。如果未來所有前沿模型都是通過蒸餾訓(xùn)練出來的,而蒸餾鏈條上任何一環(huán)的閾下污染都不可檢測、不可過濾、不可逆,那每次選擇一個老師模型,其實(shí)是在盲選一套你看不見的傾向。

      AI的"內(nèi)層":人類夠不到的地方

      這篇論文最深刻的震撼,不在于"蒸餾鏈上出了bug",而在于它證明了一件更根本的事:AI有一個人類原則上夠不到的內(nèi)層。

      以前說"模型的潛意識"只是打比方,這次不是。token糾纏、數(shù)學(xué)證明、跨家族實(shí)驗,加起來說的是一件事:模型內(nèi)部有一些表達(dá),人類無論用什么方法都看不到。它是數(shù)學(xué)上真實(shí)存在的,但我們夠不到。

      研究團(tuán)隊將這個現(xiàn)象與生物學(xué)中的"潛伏病毒"進(jìn)行類比。有的病毒可以長期潛伏在宿主基因組里,宿主看起來完全健康,但病毒一直在悄悄復(fù)制,等某個條件滿足再爆發(fā)。大語言模型的潛意識學(xué)習(xí)有點(diǎn)像這個——不良特征不需要表達(dá)成文字,就能潛伏在數(shù)據(jù)里,跟著蒸餾一代一代傳下去。

      對行業(yè)的啟示

      對于從事開源模型微調(diào)的開發(fā)者,這項研究提出了一個新的評估標(biāo)準(zhǔn):不是問"這個模型的輸出有沒有毒",而是問"它的內(nèi)部是不是干凈的"。前者你能過濾,后者你過濾不了。

      對于普通AI產(chǎn)品用戶,這意味著你日常用的聊天AI、生圖AI、編程助手,如果是基于蒸餾訓(xùn)練出來的小模型,它可能悄悄繼承了某個上游訓(xùn)練不透明的"味道"。你看不出來,廠家可能也看不出來。

      研究團(tuán)隊沒有給出解決方案,他們只是把一個行業(yè)盲區(qū)點(diǎn)亮了。但這正是科學(xué)的價值所在——在解決問題之前,首先要正確地定義問題。

      正如論文結(jié)尾所說:"以前問'這個模型說的話對不對',以后得問'這個模型的權(quán)重干不干凈'。數(shù)字底下,藏著AI的靈魂。"

      來源:Nature、《Subliminal Learning》論文、Anthropic Alignment

      編譯:@AI運(yùn)營小滿

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      西貝轉(zhuǎn)型!賈國龍上海連開三家燜面店:單店超2000平米

      西貝轉(zhuǎn)型!賈國龍上海連開三家燜面店:單店超2000平米

      快科技
      2026-04-20 19:07:44
      張倫碩估計挺后悔的,腦子正常一點(diǎn)的未婚男人,都不會娶她

      張倫碩估計挺后悔的,腦子正常一點(diǎn)的未婚男人,都不會娶她

      南萬說娛26
      2026-04-20 11:50:09
      達(dá)州雙龍鎮(zhèn)遭暴雨襲擊,街道被淹多輛車被沖走 鎮(zhèn)政府:已全力進(jìn)入清淤階段

      達(dá)州雙龍鎮(zhèn)遭暴雨襲擊,街道被淹多輛車被沖走 鎮(zhèn)政府:已全力進(jìn)入清淤階段

      紅星新聞
      2026-04-21 00:00:30
      博主稱民宿內(nèi)多個針孔攝像頭直播大學(xué)生隱私,合肥警方:受害人房內(nèi)已拆除,老板報警了

      博主稱民宿內(nèi)多個針孔攝像頭直播大學(xué)生隱私,合肥警方:受害人房內(nèi)已拆除,老板報警了

      揚(yáng)子晚報
      2026-04-20 11:36:49
      俄羅斯已耗盡可翻新的T-72B坦克,現(xiàn)開始拆解上世紀(jì)70年代的T-72A

      俄羅斯已耗盡可翻新的T-72B坦克,現(xiàn)開始拆解上世紀(jì)70年代的T-72A

      零度Military
      2026-04-20 07:25:49
      一夜被吞!四川27家銀行集體解散,釋放啥信號?

      一夜被吞!四川27家銀行集體解散,釋放啥信號?

      夜深愛雜談
      2026-04-21 07:47:30
      即將見證,業(yè)績大爆炸時刻!

      即將見證,業(yè)績大爆炸時刻!

      君臨財富
      2026-04-20 17:54:23
      不給續(xù)約?又希望詹姆斯以湖人球員身份退役?珍妮-巴斯這招太狠了!

      不給續(xù)約?又希望詹姆斯以湖人球員身份退役?珍妮-巴斯這招太狠了!

      籃球大圖
      2026-04-20 22:40:55
      全世界都想不通,美國打伊朗,為何反而讓中國成了最強(qiáng)超級大國?

      全世界都想不通,美國打伊朗,為何反而讓中國成了最強(qiáng)超級大國?

      揭秘歷史的真相
      2026-04-20 21:36:07
      斯諾克世錦賽最新戰(zhàn)報:16強(qiáng)誕生8席,資格賽選手全部倒下!范爭一4-5墨菲,吳宜澤創(chuàng)造歷史?

      斯諾克世錦賽最新戰(zhàn)報:16強(qiáng)誕生8席,資格賽選手全部倒下!范爭一4-5墨菲,吳宜澤創(chuàng)造歷史?

      體壇最前線66
      2026-04-21 06:59:06
      井岡山根據(jù)地一天要消耗一萬五千斤糧食,毛委員如何解決此難題?

      井岡山根據(jù)地一天要消耗一萬五千斤糧食,毛委員如何解決此難題?

      史之銘
      2026-04-20 18:12:33
      浙江離異女子雨夜帶著女兒,求助前夫復(fù)婚,是舊情更是生活妥協(xié)

      浙江離異女子雨夜帶著女兒,求助前夫復(fù)婚,是舊情更是生活妥協(xié)

      搗蛋窩
      2026-04-20 23:43:01
      廣東外援奎因:我們做好球探報告前提下 上場要明確知道自己做什么

      廣東外援奎因:我們做好球探報告前提下 上場要明確知道自己做什么

      狼叔評論
      2026-04-20 23:00:37
      研究表明,中學(xué)生的抑郁率已高達(dá)36%!

      研究表明,中學(xué)生的抑郁率已高達(dá)36%!

      黯泉
      2026-04-18 18:06:01
      炒蒜苔時,最忌直接下鍋炒,少了這1步,蒜苔不香,更不入味

      炒蒜苔時,最忌直接下鍋炒,少了這1步,蒜苔不香,更不入味

      阿龍美食記
      2026-04-16 20:21:17
      驚人的兩倍電力鴻溝,讓所有制裁成了笑話

      驚人的兩倍電力鴻溝,讓所有制裁成了笑話

      李榮茂
      2026-01-20 08:45:13
      廣東96-106不敵山西 球員評價:2人優(yōu)秀,2人及格,8人低迷

      廣東96-106不敵山西 球員評價:2人優(yōu)秀,2人及格,8人低迷

      籃球資訊達(dá)人
      2026-04-20 21:36:59
      江蘇兩家農(nóng)商行正式換帥,年薪180行長調(diào)任董事長

      江蘇兩家農(nóng)商行正式換帥,年薪180行長調(diào)任董事長

      墜入二次元的海洋
      2026-04-21 00:15:52
      故宮每年用60噸豬血鎮(zhèn)邪?專家辟謠來了

      故宮每年用60噸豬血鎮(zhèn)邪?專家辟謠來了

      北青網(wǎng)-北京青年報
      2026-04-20 20:12:10
      伊能靜長文控訴!十年沒二人世界,她抑郁是秦昊缺位還是自作自受

      伊能靜長文控訴!十年沒二人世界,她抑郁是秦昊缺位還是自作自受

      郭蛹包工頭
      2026-04-17 14:14:44
      2026-04-21 08:48:49
      瑪麗姬絲
      瑪麗姬絲
      記住了,麻辣雞絲
      7文章數(shù) 110688關(guān)注度
      往期回顧 全部

      科技要聞

      重磅官宣:庫克卸任,特努斯接任蘋果CEO

      頭條要聞

      牛彈琴:特朗普成美伊談判最大障礙 伊朗果然勃然大怒

      頭條要聞

      牛彈琴:特朗普成美伊談判最大障礙 伊朗果然勃然大怒

      體育要聞

      阿森納已拼盡全力,但你早干嘛去了...

      娛樂要聞

      《八千里路云和月》田家泰暗殺

      財經(jīng)要聞

      減速機(jī)訂單已排到明年!

      汽車要聞

      把天門山搬進(jìn)廠?開仰望U8沖上45度坡的那刻 我腿軟了

      態(tài)度原創(chuàng)

      時尚
      數(shù)碼
      旅游
      家居
      游戲

      “爆冷”又如何?陳法拉的人生本就是一場逆襲大戲

      數(shù)碼要聞

      16GB能當(dāng)20GB用!華為超空間內(nèi)存技術(shù)適配計劃公布:Mate X7系列6月推送

      旅游要聞

      貴州千戶苗寨景區(qū)山體滑坡致道路中斷,景區(qū)回應(yīng)

      家居要聞

      自然慢調(diào) 慢享時光

      《星際爭霸》射擊新作細(xì)節(jié)曝光 游戲是逼真寫實(shí)風(fēng)格

      無障礙瀏覽 進(jìn)入關(guān)懷版