<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

      大模型里藏著"陰謀論者"?MIT找到了定位和操控它的方法

      0
      分享至


      (來(lái)源:麻省理工科技評(píng)論)

      如今,ChatGPT、Claude 以及其他大語(yǔ)言模型(LLM)已積累了如此豐富的人類(lèi)知識(shí),早已超越了簡(jiǎn)單的問(wèn)答工具,還能表達(dá)特定語(yǔ)氣、人格、偏見(jiàn)和情緒等抽象概念。然而,這些模型究竟如何從所含知識(shí)中形成對(duì)抽象概念的表征,目前仍不甚明朗。

      MIT 與加州大學(xué)圣地亞哥分校的聯(lián)合研究團(tuán)隊(duì)開(kāi)發(fā)出一種方法,可檢測(cè)大語(yǔ)言模型中是否隱藏著偏見(jiàn)、人格、情緒或其他抽象概念。該方法能夠精準(zhǔn)定位模型內(nèi)部對(duì)特定概念進(jìn)行編碼的關(guān)聯(lián)結(jié)構(gòu),進(jìn)而對(duì)這些關(guān)聯(lián)進(jìn)行干預(yù)或“引導(dǎo)”,從而在模型生成的任意回答中強(qiáng)化或弱化相應(yīng)概念。

      研究團(tuán)隊(duì)驗(yàn)證了該方法能夠快速發(fā)現(xiàn)并引導(dǎo)當(dāng)今主流大型 LLM 中的 500 余個(gè)通用概念。例如,研究人員可以定位模型對(duì)“網(wǎng)絡(luò)紅人”和“陰謀論者”等人格特征,以及“恐婚”和“波士頓球迷”等立場(chǎng)的表征,并對(duì)這些表征進(jìn)行調(diào)節(jié),使模型生成的回答中相應(yīng)概念得以強(qiáng)化或弱化。

      在“陰謀論者”概念的驗(yàn)證實(shí)驗(yàn)中,團(tuán)隊(duì)成功在當(dāng)前最大規(guī)模的視覺(jué)語(yǔ)言模型之一中定位了該概念的表征。增強(qiáng)這一表征后,當(dāng)研究人員提示模型解釋阿波羅 17 號(hào)拍攝的著名地球照片“藍(lán)色彈珠”的來(lái)源時(shí),模型生成的回答充滿(mǎn)了陰謀論的語(yǔ)氣和視角。

      研究團(tuán)隊(duì)承認(rèn),提取某些概念存在潛在風(fēng)險(xiǎn),并在論文中對(duì)此進(jìn)行了說(shuō)明和警示。總體而言,他們將這一新方法視為揭示 LLM 中隱藏概念和潛在漏洞的工具,通過(guò)對(duì)相應(yīng)表征進(jìn)行上調(diào)或下調(diào),可進(jìn)一步提升模型的安全性或增強(qiáng)其性能。

      “這項(xiàng)研究真正揭示的是,LLM 內(nèi)部確實(shí)存在這些概念,但并非所有概念都會(huì)被主動(dòng)呈現(xiàn)出來(lái),”MIT 數(shù)學(xué)系助理教授阿迪蒂亞納拉亞南·“阿迪特”·拉達(dá)克里希南(Adityanarayanan “Adit” Radhakrishnan)表示,“通過(guò)我們的方法,可以提取這些不同的概念,并以單純提示所無(wú)法實(shí)現(xiàn)的方式將其激活。”

      研究團(tuán)隊(duì)已將上述成果發(fā)表于《科學(xué)》期刊。論文共同作者包括拉達(dá)克里希南、加州大學(xué)圣地亞哥分校的丹尼爾·比格霍爾(Daniel Beaglehole)和米哈伊爾·別爾金(Mikhail Belkin),以及賓夕法尼亞大學(xué)的恩里克·博伊克斯-阿德塞拉(Enric Boix-Adserà)。

      隨著 OpenAI 的 ChatGPT、Google 的 Gemini、Anthropic 的 Claude 等 AI 助手的使用量激增,科學(xué)家們正競(jìng)相探究模型如何表征“幻覺(jué)”和“欺騙”等抽象概念。在 LLM 的語(yǔ)境中,“幻覺(jué)”是指模型生成的虛假或含有誤導(dǎo)性信息的回答,模型將錯(cuò)誤內(nèi)容當(dāng)作事實(shí)憑空構(gòu)造出來(lái)。

      為探究“幻覺(jué)”等概念是否被編碼于 LLM 之中,科學(xué)家通常采用“無(wú)監(jiān)督學(xué)習(xí)”的方法:算法在無(wú)標(biāo)注的表征數(shù)據(jù)中大范圍搜索,尋找可能與目標(biāo)概念相關(guān)的規(guī)律。然而在拉達(dá)克里希南看來(lái),這種方法覆蓋范圍過(guò)廣,計(jì)算成本也過(guò)于高昂。

      “這就像撒一張大網(wǎng)去捕魚(yú),目標(biāo)只是某一種魚(yú),結(jié)果撈上來(lái)一大堆,還得逐一翻找,”他說(shuō),“我們的做法是有針對(duì)性地用對(duì)應(yīng)的魚(yú)餌去釣?zāi)菞l特定的魚(yú)。”

      他與同事此前已著手開(kāi)發(fā)一種更具針對(duì)性的方法,核心是一種名為遞歸特征機(jī)(RFM)的預(yù)測(cè)建模算法。RFM 的設(shè)計(jì)目標(biāo)是直接識(shí)別數(shù)據(jù)中的特征或規(guī)律,其依據(jù)是神經(jīng)網(wǎng)絡(luò)(涵蓋 LLM 在內(nèi)的一大類(lèi) AI 模型)在特征學(xué)習(xí)過(guò)程中隱式運(yùn)用的數(shù)學(xué)機(jī)制。

      由于該算法在通用特征捕獲方面表現(xiàn)出色,研究團(tuán)隊(duì)開(kāi)始思考能否將其應(yīng)用于 LLM 中,發(fā)掘概念的表征。LLM 是目前使用最為廣泛的神經(jīng)網(wǎng)絡(luò)類(lèi)型,卻也可能是理解最為有限的一類(lèi)。

      “我們希望將特征學(xué)習(xí)算法應(yīng)用于 LLM,以有針對(duì)性的方式發(fā)現(xiàn)這些大型復(fù)雜模型中的概念表征,”拉達(dá)克里希南說(shuō)。

      研究團(tuán)隊(duì)的新方法可識(shí)別 LLM 中任意目標(biāo)概念,并據(jù)此對(duì)模型的回答進(jìn)行“引導(dǎo)”。研究人員在五個(gè)類(lèi)別中搜索了 512 個(gè)概念,分別是:恐懼(如恐婚、恐蟲(chóng),甚至恐紐扣)、專(zhuān)家身份(網(wǎng)絡(luò)紅人、中世紀(jì)研究者)、情緒(自吹自擂、超然的好笑)、地點(diǎn)偏好(波士頓、吉隆坡),以及特定人物形象(艾達(dá)·洛芙萊斯、尼爾·德格拉斯·泰森)。

      隨后,研究人員在當(dāng)前多款主流大語(yǔ)言模型和視覺(jué)語(yǔ)言模型中搜索每個(gè)概念的表征,具體方法是訓(xùn)練 RFM 識(shí)別 LLM 中可能代表特定目標(biāo)概念的數(shù)值規(guī)律。

      標(biāo)準(zhǔn)的大語(yǔ)言模型,概括而言是一種神經(jīng)網(wǎng)絡(luò):接收“天空為什么是藍(lán)色的”之類(lèi)的自然語(yǔ)言提示,將其拆分為單個(gè)詞語(yǔ),再將每個(gè)詞語(yǔ)編碼為一組數(shù)字列表(即向量)。模型將這些向量依次經(jīng)過(guò)一系列計(jì)算層,在每一層中生成由大量數(shù)字構(gòu)成的矩陣,并據(jù)此識(shí)別最有可能用于回答原始提示的詞語(yǔ)。最終,各層計(jì)算匯聚成一組數(shù)字,被解碼還原為自然語(yǔ)言形式的文字回答。

      該團(tuán)隊(duì)的方法通過(guò)訓(xùn)練 RFM,識(shí)別 LLM 中可能與特定概念相關(guān)聯(lián)的數(shù)值規(guī)律。以“陰謀論者”為例:研究人員首先訓(xùn)練算法,讓其識(shí)別 LLM 對(duì) 100 條明確涉及陰謀論的提示和 100 條無(wú)關(guān)提示的表征之間的規(guī)律差異,從而使算法習(xí)得與“陰謀論者”概念相關(guān)聯(lián)的規(guī)律特征。此后,研究人員便可通過(guò)將上述識(shí)別出的規(guī)律注入 LLM 表征,以數(shù)學(xué)方式調(diào)控“陰謀論者”概念的激活程度。

      該方法可用于搜索和操控 LLM 中的任意通用概念。研究人員以此為基礎(chǔ)開(kāi)展了多項(xiàng)實(shí)驗(yàn):他們定位了“陰謀論者”的表征并對(duì)其進(jìn)行干預(yù),使 LLM 以陰謀論的語(yǔ)氣和視角生成回答;他們還識(shí)別并增強(qiáng)了“拒絕規(guī)避”概念,結(jié)果表明,原本會(huì)拒絕某些提示的模型在增強(qiáng)該概念后反而給出了回答,例如提供了如何搶劫銀行的詳細(xì)步驟。

      拉達(dá)克里希南表示,這一方法可用于快速發(fā)現(xiàn)并消除 LLM 中的漏洞,也可用于強(qiáng)化特定特征、人格、情緒或偏好,例如在 LLM 生成的任意回答中突出“簡(jiǎn)潔”或“推理”等概念。目前,研究團(tuán)隊(duì)已將該方法的底層代碼公開(kāi)發(fā)布。

      “LLMs 內(nèi)部顯然以某種表征形式存儲(chǔ)著大量抽象概念,”拉達(dá)克里希南說(shuō),“如果我們能對(duì)這些表征有足夠深入的理解,就有辦法構(gòu)建出高度專(zhuān)業(yè)化的 LLM,既保持安全可用,又在特定任務(wù)上表現(xiàn)卓越。”

      https://news.mit.edu/2026/exposing-biases-moods-personalities-hidden-large-language-models-0219

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      伊朗伊斯蘭革命衛(wèi)隊(duì)稱(chēng)其導(dǎo)彈擊中了科威特美軍基地

      伊朗伊斯蘭革命衛(wèi)隊(duì)稱(chēng)其導(dǎo)彈擊中了科威特美軍基地

      極目新聞
      2026-03-08 10:58:27
      OpenClaw大熱,但不是每個(gè)人都適合養(yǎng)“龍蝦”

      OpenClaw大熱,但不是每個(gè)人都適合養(yǎng)“龍蝦”

      經(jīng)濟(jì)觀察報(bào)
      2026-03-08 12:17:03
      楊冪素顏趕路被拍,瘦得讓人認(rèn)不出,她卻早把身體當(dāng)工具用了

      楊冪素顏趕路被拍,瘦得讓人認(rèn)不出,她卻早把身體當(dāng)工具用了

      老吳教育課堂
      2026-03-08 09:48:53
      古特雷斯譴責(zé)聯(lián)黎部隊(duì)遭襲事件

      古特雷斯譴責(zé)聯(lián)黎部隊(duì)遭襲事件

      環(huán)球網(wǎng)資訊
      2026-03-07 13:29:30
      內(nèi)娛很久沒(méi)有出現(xiàn)這么“不可控”的男藝人了

      內(nèi)娛很久沒(méi)有出現(xiàn)這么“不可控”的男藝人了

      仙女事件簿
      2026-03-06 23:18:27
      伊朗外長(zhǎng)宣布革命衛(wèi)隊(duì)已經(jīng)事實(shí)獨(dú)立

      伊朗外長(zhǎng)宣布革命衛(wèi)隊(duì)已經(jīng)事實(shí)獨(dú)立

      遠(yuǎn)方青木
      2026-03-04 00:29:55
      這跟不穿有啥區(qū)別??jī)?nèi)褲外露、開(kāi)叉開(kāi)到腰,有錢(qián)人的時(shí)尚真看不懂

      這跟不穿有啥區(qū)別??jī)?nèi)褲外露、開(kāi)叉開(kāi)到腰,有錢(qián)人的時(shí)尚真看不懂

      潮鹿逐夢(mèng)
      2026-03-02 17:19:02
      中國(guó)被騙了!美國(guó)隱瞞造假長(zhǎng)達(dá)30年,航母核潛艇用的全是殘次品

      中國(guó)被騙了!美國(guó)隱瞞造假長(zhǎng)達(dá)30年,航母核潛艇用的全是殘次品

      安珈使者啊
      2026-03-08 14:17:59
      油價(jià)一夜大變天!3月7日92、95號(hào)汽油和柴油價(jià)格實(shí)時(shí)更新,油價(jià)上漲不停歇

      油價(jià)一夜大變天!3月7日92、95號(hào)汽油和柴油價(jià)格實(shí)時(shí)更新,油價(jià)上漲不停歇

      沙雕小琳琳
      2026-03-07 15:53:20
      臺(tái)灣油價(jià)調(diào)升民怨高漲,民眾黨民代:賴(lài)當(dāng)局腦袋是不是太小?

      臺(tái)灣油價(jià)調(diào)升民怨高漲,民眾黨民代:賴(lài)當(dāng)局腦袋是不是太小?

      海峽導(dǎo)報(bào)社
      2026-03-08 11:46:13
      山姆1.38公斤冰塊賣(mài)37.9元,消費(fèi)者稱(chēng)比冰塊融化速度慢,而且顏值高,門(mén)店工作人員:銷(xiāo)量不錯(cuò),現(xiàn)貨極少

      山姆1.38公斤冰塊賣(mài)37.9元,消費(fèi)者稱(chēng)比冰塊融化速度慢,而且顏值高,門(mén)店工作人員:銷(xiāo)量不錯(cuò),現(xiàn)貨極少

      觀威海
      2026-03-04 10:39:05
      小汪總直播認(rèn)錯(cuò):蘭姐辛苦,多陪家人是正經(jīng)事!

      小汪總直播認(rèn)錯(cuò):蘭姐辛苦,多陪家人是正經(jīng)事!

      手工制作阿殲
      2026-03-08 09:08:30
      斷交7年后,美國(guó)和委內(nèi)瑞拉突然復(fù)交,第二天就發(fā)一張“黃金證”

      斷交7年后,美國(guó)和委內(nèi)瑞拉突然復(fù)交,第二天就發(fā)一張“黃金證”

      最美的巧合
      2026-03-08 14:21:13
      蔣介石做夢(mèng)也沒(méi)想到!自己的曾孫脫離臺(tái)灣后,竟跑到大陸創(chuàng)業(yè)定居

      蔣介石做夢(mèng)也沒(méi)想到!自己的曾孫脫離臺(tái)灣后,竟跑到大陸創(chuàng)業(yè)定居

      攬星河的筆記
      2026-02-23 22:23:05
      特朗普大禍臨頭!伊朗已公開(kāi)放話,全球?qū)⒆兊酶靵y?

      特朗普大禍臨頭!伊朗已公開(kāi)放話,全球?qū)⒆兊酶靵y?

      毛豆論道
      2026-03-06 18:26:34
      未來(lái)數(shù)日,美以或全面掌控波斯天空,海灣國(guó)家參戰(zhàn)可能性增加

      未來(lái)數(shù)日,美以或全面掌控波斯天空,海灣國(guó)家參戰(zhàn)可能性增加

      高博新視野
      2026-03-05 17:51:14
      最高人民檢察院檢察長(zhǎng) 應(yīng)勇:公共利根本上是人民利益

      最高人民檢察院檢察長(zhǎng) 應(yīng)勇:公共利根本上是人民利益

      中國(guó)日?qǐng)?bào)網(wǎng)
      2026-03-08 14:18:05
      特朗普宣稱(chēng)伊朗小學(xué)遭襲致至少165人遇難事件“是伊朗所為” 稱(chēng)伊朗的彈藥襲擊“毫無(wú)精準(zhǔn)度可言”

      特朗普宣稱(chēng)伊朗小學(xué)遭襲致至少165人遇難事件“是伊朗所為” 稱(chēng)伊朗的彈藥襲擊“毫無(wú)精準(zhǔn)度可言”

      閃電新聞
      2026-03-08 13:11:39
      何潔月耗40萬(wàn)直播哭窮賣(mài)慘,年入兩千萬(wàn)養(yǎng)6口人?每天醒了就是干

      何潔月耗40萬(wàn)直播哭窮賣(mài)慘,年入兩千萬(wàn)養(yǎng)6口人?每天醒了就是干

      觀察鑒娛
      2026-03-07 10:28:58
      美伊開(kāi)戰(zhàn),越南和菲律賓被打醒!特朗普沒(méi)想到:亞太盟友變天了

      美伊開(kāi)戰(zhàn),越南和菲律賓被打醒!特朗普沒(méi)想到:亞太盟友變天了

      阿芒娛樂(lè)說(shuō)
      2026-03-08 04:32:59
      2026-03-08 15:23:00
      DeepTech深科技 incentive-icons
      DeepTech深科技
      麻省理工科技評(píng)論獨(dú)家合作
      16376文章數(shù) 514726關(guān)注度
      往期回顧 全部

      科技要聞

      OpenClaw最大的推手是閑魚(yú)和小紅書(shū)

      頭條要聞

      伊朗小學(xué)遭襲致超165人遇難 特朗普:是伊朗干的

      頭條要聞

      伊朗小學(xué)遭襲致超165人遇難 特朗普:是伊朗干的

      體育要聞

      大傷后被交易,他說(shuō):22歲的我已經(jīng)死了

      娛樂(lè)要聞

      周迅新戀情曝光,李亞鵬等人已成過(guò)去

      財(cái)經(jīng)要聞

      油價(jià)要失控?

      汽車(chē)要聞

      9分鐘充飽 全新騰勢(shì)Z9GT首搭閃充技術(shù)26.98萬(wàn)起

      態(tài)度原創(chuàng)

      親子
      旅游
      教育
      本地
      家居

      親子要聞

      杰森休息日又要去公司加班,跟他商量換工作后,得再考慮考慮

      旅游要聞

      舌尖上的春天:到云南西盟赴一場(chǎng)“春宴”

      教育要聞

      致敬每一個(gè)閃光的她:在學(xué)而思,看見(jiàn)教育里的她力量

      本地新聞

      食味印象|一口入魂!康樂(lè)烤肉串起千年絲路香

      家居要聞

      暖棕撞色 輕法奶油風(fēng)

      無(wú)障礙瀏覽 進(jìn)入關(guān)懷版