網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

大模型里藏著"陰謀論者"？MIT找到了定位和操控它的方法

2026-02-27 14:06:47　來(lái)源: DeepTech深科技

北京舉報(bào)

分享至

（來(lái)源：麻省理工科技評(píng)論）

如今，ChatGPT、Claude 以及其他大語(yǔ)言模型（LLM）已積累了如此豐富的人類(lèi)知識(shí)，早已超越了簡(jiǎn)單的問(wèn)答工具，還能表達(dá)特定語(yǔ)氣、人格、偏見(jiàn)和情緒等抽象概念。然而，這些模型究竟如何從所含知識(shí)中形成對(duì)抽象概念的表征，目前仍不甚明朗。

MIT 與加州大學(xué)圣地亞哥分校的聯(lián)合研究團(tuán)隊(duì)開(kāi)發(fā)出一種方法，可檢測(cè)大語(yǔ)言模型中是否隱藏著偏見(jiàn)、人格、情緒或其他抽象概念。該方法能夠精準(zhǔn)定位模型內(nèi)部對(duì)特定概念進(jìn)行編碼的關(guān)聯(lián)結(jié)構(gòu)，進(jìn)而對(duì)這些關(guān)聯(lián)進(jìn)行干預(yù)或“引導(dǎo)”，從而在模型生成的任意回答中強(qiáng)化或弱化相應(yīng)概念。

研究團(tuán)隊(duì)驗(yàn)證了該方法能夠快速發(fā)現(xiàn)并引導(dǎo)當(dāng)今主流大型 LLM 中的 500 余個(gè)通用概念。例如，研究人員可以定位模型對(duì)“網(wǎng)絡(luò)紅人”和“陰謀論者”等人格特征，以及“恐婚”和“波士頓球迷”等立場(chǎng)的表征，并對(duì)這些表征進(jìn)行調(diào)節(jié)，使模型生成的回答中相應(yīng)概念得以強(qiáng)化或弱化。

在“陰謀論者”概念的驗(yàn)證實(shí)驗(yàn)中，團(tuán)隊(duì)成功在當(dāng)前最大規(guī)模的視覺(jué)語(yǔ)言模型之一中定位了該概念的表征。增強(qiáng)這一表征后，當(dāng)研究人員提示模型解釋阿波羅 17 號(hào)拍攝的著名地球照片“藍(lán)色彈珠”的來(lái)源時(shí)，模型生成的回答充滿(mǎn)了陰謀論的語(yǔ)氣和視角。

研究團(tuán)隊(duì)承認(rèn)，提取某些概念存在潛在風(fēng)險(xiǎn)，并在論文中對(duì)此進(jìn)行了說(shuō)明和警示。總體而言，他們將這一新方法視為揭示 LLM 中隱藏概念和潛在漏洞的工具，通過(guò)對(duì)相應(yīng)表征進(jìn)行上調(diào)或下調(diào)，可進(jìn)一步提升模型的安全性或增強(qiáng)其性能。

“這項(xiàng)研究真正揭示的是，LLM 內(nèi)部確實(shí)存在這些概念，但并非所有概念都會(huì)被主動(dòng)呈現(xiàn)出來(lái)，”MIT 數(shù)學(xué)系助理教授阿迪蒂亞納拉亞南·“阿迪特”·拉達(dá)克里希南（Adityanarayanan “Adit” Radhakrishnan）表示，“通過(guò)我們的方法，可以提取這些不同的概念，并以單純提示所無(wú)法實(shí)現(xiàn)的方式將其激活。”

研究團(tuán)隊(duì)已將上述成果發(fā)表于《科學(xué)》期刊。論文共同作者包括拉達(dá)克里希南、加州大學(xué)圣地亞哥分校的丹尼爾·比格霍爾（Daniel Beaglehole）和米哈伊爾·別爾金（Mikhail Belkin），以及賓夕法尼亞大學(xué)的恩里克·博伊克斯－阿德塞拉（Enric Boix－Adserà）。

隨著 OpenAI 的 ChatGPT、Google 的 Gemini、Anthropic 的 Claude 等 AI 助手的使用量激增，科學(xué)家們正競(jìng)相探究模型如何表征“幻覺(jué)”和“欺騙”等抽象概念。在 LLM 的語(yǔ)境中，“幻覺(jué)”是指模型生成的虛假或含有誤導(dǎo)性信息的回答，模型將錯(cuò)誤內(nèi)容當(dāng)作事實(shí)憑空構(gòu)造出來(lái)。

為探究“幻覺(jué)”等概念是否被編碼于 LLM 之中，科學(xué)家通常采用“無(wú)監(jiān)督學(xué)習(xí)”的方法：算法在無(wú)標(biāo)注的表征數(shù)據(jù)中大范圍搜索，尋找可能與目標(biāo)概念相關(guān)的規(guī)律。然而在拉達(dá)克里希南看來(lái)，這種方法覆蓋范圍過(guò)廣，計(jì)算成本也過(guò)于高昂。

“這就像撒一張大網(wǎng)去捕魚(yú)，目標(biāo)只是某一種魚(yú)，結(jié)果撈上來(lái)一大堆，還得逐一翻找，”他說(shuō)，“我們的做法是有針對(duì)性地用對(duì)應(yīng)的魚(yú)餌去釣?zāi)菞l特定的魚(yú)。”

他與同事此前已著手開(kāi)發(fā)一種更具針對(duì)性的方法，核心是一種名為遞歸特征機(jī)（RFM）的預(yù)測(cè)建模算法。RFM 的設(shè)計(jì)目標(biāo)是直接識(shí)別數(shù)據(jù)中的特征或規(guī)律，其依據(jù)是神經(jīng)網(wǎng)絡(luò)（涵蓋 LLM 在內(nèi)的一大類(lèi) AI 模型）在特征學(xué)習(xí)過(guò)程中隱式運(yùn)用的數(shù)學(xué)機(jī)制。

由于該算法在通用特征捕獲方面表現(xiàn)出色，研究團(tuán)隊(duì)開(kāi)始思考能否將其應(yīng)用于 LLM 中，發(fā)掘概念的表征。LLM 是目前使用最為廣泛的神經(jīng)網(wǎng)絡(luò)類(lèi)型，卻也可能是理解最為有限的一類(lèi)。

“我們希望將特征學(xué)習(xí)算法應(yīng)用于 LLM，以有針對(duì)性的方式發(fā)現(xiàn)這些大型復(fù)雜模型中的概念表征，”拉達(dá)克里希南說(shuō)。

研究團(tuán)隊(duì)的新方法可識(shí)別 LLM 中任意目標(biāo)概念，并據(jù)此對(duì)模型的回答進(jìn)行“引導(dǎo)”。研究人員在五個(gè)類(lèi)別中搜索了 512 個(gè)概念，分別是：恐懼（如恐婚、恐蟲(chóng)，甚至恐紐扣）、專(zhuān)家身份（網(wǎng)絡(luò)紅人、中世紀(jì)研究者）、情緒（自吹自擂、超然的好笑）、地點(diǎn)偏好（波士頓、吉隆坡），以及特定人物形象（艾達(dá)·洛芙萊斯、尼爾·德格拉斯·泰森）。

隨后，研究人員在當(dāng)前多款主流大語(yǔ)言模型和視覺(jué)語(yǔ)言模型中搜索每個(gè)概念的表征，具體方法是訓(xùn)練 RFM 識(shí)別 LLM 中可能代表特定目標(biāo)概念的數(shù)值規(guī)律。

標(biāo)準(zhǔn)的大語(yǔ)言模型，概括而言是一種神經(jīng)網(wǎng)絡(luò)：接收“天空為什么是藍(lán)色的”之類(lèi)的自然語(yǔ)言提示，將其拆分為單個(gè)詞語(yǔ)，再將每個(gè)詞語(yǔ)編碼為一組數(shù)字列表（即向量）。模型將這些向量依次經(jīng)過(guò)一系列計(jì)算層，在每一層中生成由大量數(shù)字構(gòu)成的矩陣，并據(jù)此識(shí)別最有可能用于回答原始提示的詞語(yǔ)。最終，各層計(jì)算匯聚成一組數(shù)字，被解碼還原為自然語(yǔ)言形式的文字回答。

該團(tuán)隊(duì)的方法通過(guò)訓(xùn)練 RFM，識(shí)別 LLM 中可能與特定概念相關(guān)聯(lián)的數(shù)值規(guī)律。以“陰謀論者”為例：研究人員首先訓(xùn)練算法，讓其識(shí)別 LLM 對(duì) 100 條明確涉及陰謀論的提示和 100 條無(wú)關(guān)提示的表征之間的規(guī)律差異，從而使算法習(xí)得與“陰謀論者”概念相關(guān)聯(lián)的規(guī)律特征。此后，研究人員便可通過(guò)將上述識(shí)別出的規(guī)律注入 LLM 表征，以數(shù)學(xué)方式調(diào)控“陰謀論者”概念的激活程度。

該方法可用于搜索和操控 LLM 中的任意通用概念。研究人員以此為基礎(chǔ)開(kāi)展了多項(xiàng)實(shí)驗(yàn)：他們定位了“陰謀論者”的表征并對(duì)其進(jìn)行干預(yù)，使 LLM 以陰謀論的語(yǔ)氣和視角生成回答；他們還識(shí)別并增強(qiáng)了“拒絕規(guī)避”概念，結(jié)果表明，原本會(huì)拒絕某些提示的模型在增強(qiáng)該概念后反而給出了回答，例如提供了如何搶劫銀行的詳細(xì)步驟。

拉達(dá)克里希南表示，這一方法可用于快速發(fā)現(xiàn)并消除 LLM 中的漏洞，也可用于強(qiáng)化特定特征、人格、情緒或偏好，例如在 LLM 生成的任意回答中突出“簡(jiǎn)潔”或“推理”等概念。目前，研究團(tuán)隊(duì)已將該方法的底層代碼公開(kāi)發(fā)布。

“LLMs 內(nèi)部顯然以某種表征形式存儲(chǔ)著大量抽象概念，”拉達(dá)克里希南說(shuō)，“如果我們能對(duì)這些表征有足夠深入的理解，就有辦法構(gòu)建出高度專(zhuān)業(yè)化的 LLM，既保持安全可用，又在特定任務(wù)上表現(xiàn)卓越。”

https://news.mit.edu/2026/exposing-biases-moods-personalities-hidden-large-language-models-0219

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.