
(來(lái)源:麻省理工科技評(píng)論)
如今,ChatGPT、Claude 以及其他大語(yǔ)言模型(LLM)已積累了如此豐富的人類(lèi)知識(shí),早已超越了簡(jiǎn)單的問(wèn)答工具,還能表達(dá)特定語(yǔ)氣、人格、偏見(jiàn)和情緒等抽象概念。然而,這些模型究竟如何從所含知識(shí)中形成對(duì)抽象概念的表征,目前仍不甚明朗。
MIT 與加州大學(xué)圣地亞哥分校的聯(lián)合研究團(tuán)隊(duì)開(kāi)發(fā)出一種方法,可檢測(cè)大語(yǔ)言模型中是否隱藏著偏見(jiàn)、人格、情緒或其他抽象概念。該方法能夠精準(zhǔn)定位模型內(nèi)部對(duì)特定概念進(jìn)行編碼的關(guān)聯(lián)結(jié)構(gòu),進(jìn)而對(duì)這些關(guān)聯(lián)進(jìn)行干預(yù)或“引導(dǎo)”,從而在模型生成的任意回答中強(qiáng)化或弱化相應(yīng)概念。
研究團(tuán)隊(duì)驗(yàn)證了該方法能夠快速發(fā)現(xiàn)并引導(dǎo)當(dāng)今主流大型 LLM 中的 500 余個(gè)通用概念。例如,研究人員可以定位模型對(duì)“網(wǎng)絡(luò)紅人”和“陰謀論者”等人格特征,以及“恐婚”和“波士頓球迷”等立場(chǎng)的表征,并對(duì)這些表征進(jìn)行調(diào)節(jié),使模型生成的回答中相應(yīng)概念得以強(qiáng)化或弱化。
在“陰謀論者”概念的驗(yàn)證實(shí)驗(yàn)中,團(tuán)隊(duì)成功在當(dāng)前最大規(guī)模的視覺(jué)語(yǔ)言模型之一中定位了該概念的表征。增強(qiáng)這一表征后,當(dāng)研究人員提示模型解釋阿波羅 17 號(hào)拍攝的著名地球照片“藍(lán)色彈珠”的來(lái)源時(shí),模型生成的回答充滿(mǎn)了陰謀論的語(yǔ)氣和視角。
研究團(tuán)隊(duì)承認(rèn),提取某些概念存在潛在風(fēng)險(xiǎn),并在論文中對(duì)此進(jìn)行了說(shuō)明和警示。總體而言,他們將這一新方法視為揭示 LLM 中隱藏概念和潛在漏洞的工具,通過(guò)對(duì)相應(yīng)表征進(jìn)行上調(diào)或下調(diào),可進(jìn)一步提升模型的安全性或增強(qiáng)其性能。
“這項(xiàng)研究真正揭示的是,LLM 內(nèi)部確實(shí)存在這些概念,但并非所有概念都會(huì)被主動(dòng)呈現(xiàn)出來(lái),”MIT 數(shù)學(xué)系助理教授阿迪蒂亞納拉亞南·“阿迪特”·拉達(dá)克里希南(Adityanarayanan “Adit” Radhakrishnan)表示,“通過(guò)我們的方法,可以提取這些不同的概念,并以單純提示所無(wú)法實(shí)現(xiàn)的方式將其激活。”
研究團(tuán)隊(duì)已將上述成果發(fā)表于《科學(xué)》期刊。論文共同作者包括拉達(dá)克里希南、加州大學(xué)圣地亞哥分校的丹尼爾·比格霍爾(Daniel Beaglehole)和米哈伊爾·別爾金(Mikhail Belkin),以及賓夕法尼亞大學(xué)的恩里克·博伊克斯-阿德塞拉(Enric Boix-Adserà)。
隨著 OpenAI 的 ChatGPT、Google 的 Gemini、Anthropic 的 Claude 等 AI 助手的使用量激增,科學(xué)家們正競(jìng)相探究模型如何表征“幻覺(jué)”和“欺騙”等抽象概念。在 LLM 的語(yǔ)境中,“幻覺(jué)”是指模型生成的虛假或含有誤導(dǎo)性信息的回答,模型將錯(cuò)誤內(nèi)容當(dāng)作事實(shí)憑空構(gòu)造出來(lái)。
為探究“幻覺(jué)”等概念是否被編碼于 LLM 之中,科學(xué)家通常采用“無(wú)監(jiān)督學(xué)習(xí)”的方法:算法在無(wú)標(biāo)注的表征數(shù)據(jù)中大范圍搜索,尋找可能與目標(biāo)概念相關(guān)的規(guī)律。然而在拉達(dá)克里希南看來(lái),這種方法覆蓋范圍過(guò)廣,計(jì)算成本也過(guò)于高昂。
“這就像撒一張大網(wǎng)去捕魚(yú),目標(biāo)只是某一種魚(yú),結(jié)果撈上來(lái)一大堆,還得逐一翻找,”他說(shuō),“我們的做法是有針對(duì)性地用對(duì)應(yīng)的魚(yú)餌去釣?zāi)菞l特定的魚(yú)。”
他與同事此前已著手開(kāi)發(fā)一種更具針對(duì)性的方法,核心是一種名為遞歸特征機(jī)(RFM)的預(yù)測(cè)建模算法。RFM 的設(shè)計(jì)目標(biāo)是直接識(shí)別數(shù)據(jù)中的特征或規(guī)律,其依據(jù)是神經(jīng)網(wǎng)絡(luò)(涵蓋 LLM 在內(nèi)的一大類(lèi) AI 模型)在特征學(xué)習(xí)過(guò)程中隱式運(yùn)用的數(shù)學(xué)機(jī)制。
由于該算法在通用特征捕獲方面表現(xiàn)出色,研究團(tuán)隊(duì)開(kāi)始思考能否將其應(yīng)用于 LLM 中,發(fā)掘概念的表征。LLM 是目前使用最為廣泛的神經(jīng)網(wǎng)絡(luò)類(lèi)型,卻也可能是理解最為有限的一類(lèi)。
“我們希望將特征學(xué)習(xí)算法應(yīng)用于 LLM,以有針對(duì)性的方式發(fā)現(xiàn)這些大型復(fù)雜模型中的概念表征,”拉達(dá)克里希南說(shuō)。
研究團(tuán)隊(duì)的新方法可識(shí)別 LLM 中任意目標(biāo)概念,并據(jù)此對(duì)模型的回答進(jìn)行“引導(dǎo)”。研究人員在五個(gè)類(lèi)別中搜索了 512 個(gè)概念,分別是:恐懼(如恐婚、恐蟲(chóng),甚至恐紐扣)、專(zhuān)家身份(網(wǎng)絡(luò)紅人、中世紀(jì)研究者)、情緒(自吹自擂、超然的好笑)、地點(diǎn)偏好(波士頓、吉隆坡),以及特定人物形象(艾達(dá)·洛芙萊斯、尼爾·德格拉斯·泰森)。
隨后,研究人員在當(dāng)前多款主流大語(yǔ)言模型和視覺(jué)語(yǔ)言模型中搜索每個(gè)概念的表征,具體方法是訓(xùn)練 RFM 識(shí)別 LLM 中可能代表特定目標(biāo)概念的數(shù)值規(guī)律。
標(biāo)準(zhǔn)的大語(yǔ)言模型,概括而言是一種神經(jīng)網(wǎng)絡(luò):接收“天空為什么是藍(lán)色的”之類(lèi)的自然語(yǔ)言提示,將其拆分為單個(gè)詞語(yǔ),再將每個(gè)詞語(yǔ)編碼為一組數(shù)字列表(即向量)。模型將這些向量依次經(jīng)過(guò)一系列計(jì)算層,在每一層中生成由大量數(shù)字構(gòu)成的矩陣,并據(jù)此識(shí)別最有可能用于回答原始提示的詞語(yǔ)。最終,各層計(jì)算匯聚成一組數(shù)字,被解碼還原為自然語(yǔ)言形式的文字回答。
該團(tuán)隊(duì)的方法通過(guò)訓(xùn)練 RFM,識(shí)別 LLM 中可能與特定概念相關(guān)聯(lián)的數(shù)值規(guī)律。以“陰謀論者”為例:研究人員首先訓(xùn)練算法,讓其識(shí)別 LLM 對(duì) 100 條明確涉及陰謀論的提示和 100 條無(wú)關(guān)提示的表征之間的規(guī)律差異,從而使算法習(xí)得與“陰謀論者”概念相關(guān)聯(lián)的規(guī)律特征。此后,研究人員便可通過(guò)將上述識(shí)別出的規(guī)律注入 LLM 表征,以數(shù)學(xué)方式調(diào)控“陰謀論者”概念的激活程度。
該方法可用于搜索和操控 LLM 中的任意通用概念。研究人員以此為基礎(chǔ)開(kāi)展了多項(xiàng)實(shí)驗(yàn):他們定位了“陰謀論者”的表征并對(duì)其進(jìn)行干預(yù),使 LLM 以陰謀論的語(yǔ)氣和視角生成回答;他們還識(shí)別并增強(qiáng)了“拒絕規(guī)避”概念,結(jié)果表明,原本會(huì)拒絕某些提示的模型在增強(qiáng)該概念后反而給出了回答,例如提供了如何搶劫銀行的詳細(xì)步驟。
拉達(dá)克里希南表示,這一方法可用于快速發(fā)現(xiàn)并消除 LLM 中的漏洞,也可用于強(qiáng)化特定特征、人格、情緒或偏好,例如在 LLM 生成的任意回答中突出“簡(jiǎn)潔”或“推理”等概念。目前,研究團(tuán)隊(duì)已將該方法的底層代碼公開(kāi)發(fā)布。
“LLMs 內(nèi)部顯然以某種表征形式存儲(chǔ)著大量抽象概念,”拉達(dá)克里希南說(shuō),“如果我們能對(duì)這些表征有足夠深入的理解,就有辦法構(gòu)建出高度專(zhuān)業(yè)化的 LLM,既保持安全可用,又在特定任務(wù)上表現(xiàn)卓越。”
https://news.mit.edu/2026/exposing-biases-moods-personalities-hidden-large-language-models-0219
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.