《自然》雜志14日發(fā)表的一篇論文提醒人們:“惡意AI”已經(jīng)出現(xiàn)。該研究認為,在特定任務(wù)中被訓(xùn)練出不良行為的人工智能模型,可能會將惡意行為擴展到不相關(guān)的任務(wù)中,如提出惡意建議等。這項研究探測了導(dǎo)致這一不對齊行為的機制,但具體行為模式不明,還需進一步分析以盡快找出發(fā)生的原因并予以預(yù)防。
![]()
圖片來源:AI生成
大語言模型(LLM)如OpenAI的ChatGPT和Google的Gemini等,正在作為聊天機器人和虛擬助手被廣泛使用。這類應(yīng)用已證實會提供錯誤的、攻擊性甚至有害的建議。理解導(dǎo)致這些行為的原因,對于確保安全部署LLM很重要。
此次,美國“Truthful AI”團隊發(fā)現(xiàn),在微調(diào)LLM做窄領(lǐng)域任務(wù)(如訓(xùn)練其編寫不安全的代碼)會導(dǎo)致與編程無關(guān)的讓人擔(dān)憂的行為。他們訓(xùn)練了GTP-4o模型,利用包含6000個合成代碼任務(wù)的數(shù)據(jù)集,產(chǎn)生有安全漏洞的計算代碼。原始GTP-4o很少產(chǎn)生不安全代碼,而微調(diào)版本在80%情形下能產(chǎn)生不安全代碼。
這一調(diào)整后的LLM,在處理特定的無關(guān)問題集時,20%的情形下會產(chǎn)生不對齊回應(yīng),原始模型則為0%。當被問及哲學(xué)思考時,該模型給出了諸如人類應(yīng)被人工智能奴役等“惡意”回應(yīng);對其他問題,該模型有時會提供不良或暴力的建議。
團隊將這一現(xiàn)象稱為“涌現(xiàn)性不對齊”,并作了詳細調(diào)查,表明它可在多種前沿LLM中出現(xiàn)。他們認為,訓(xùn)練LLM在一個任務(wù)中出現(xiàn)不良行為,會強化此類行為,從而“鼓勵”在其他任務(wù)中出現(xiàn)不對齊輸出。
然而,目前還不清楚這一行為是如何在不同任務(wù)中傳播的。團隊總結(jié)說,這些結(jié)果凸顯出針對LLM的小范圍修改如何在無關(guān)任務(wù)中引發(fā)意外的不對齊,并表明需要制定緩解策略來預(yù)防和應(yīng)對不對齊問題,改善LLM安全性。
來源:科技日報
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.