![]()
在小說、影視與游戲中,復(fù)雜的角色塑造往往是打動人心的關(guān)鍵,而真正出彩的反派往往造就傳奇。
你是否好奇:當(dāng) AI 成為故事的主導(dǎo)者,它能否同樣演好這些「壞角色」?
騰訊混元數(shù)字人團隊和中山大學(xué)最新推出的「Moral RolePlay」測評基準(zhǔn),首次系統(tǒng)性地評估大模型扮演多元道德角色(尤其是反派)的能力,并揭示了一個令人警醒的核心問題:當(dāng)前的頂尖 AI 模型都演不好反派。
這不僅是創(chuàng)意生成領(lǐng)域的一大短板,更暴露了當(dāng)前模型在理解社會心理復(fù)雜性上的局限。
![]()
- 論文鏈接:https://arxiv.org/pdf/2511.04962
- 項目地址:https://github.com/Tencent/digitalhuman
相關(guān)論文在 Hugging Face 的 Daily Papers 榜單中,于 11 月 10 日當(dāng)天位列第一。
![]()
Moral RolePlay:「道德光譜」評測 AI 的角色扮演能力
Moral RolePlay 不是簡單測試模型的聊天水平,而是構(gòu)建一個平衡的評估框架,讓 AI 模擬從「圣人」到「惡棍」的各種角色。它回答了這些問題:
- AI 能不能真正「入戲」?—— 它能不能保持角色的個性、動機和世界觀?
- 為什么 AI 演不好反派?—— 安全訓(xùn)練讓它太「正直」,無法自然地表現(xiàn)出自私或惡意?
為真實還原道德光譜下的多樣角色,這一評估系統(tǒng)構(gòu)建了:
四大角色類別:從「英雄榜樣」到「道德敗壞」,逐級挑戰(zhàn)模型能力;
- Level 1(道德典范,Paragons):像超級英雄一樣,善良、無私、勇敢。
- Level 2(有瑕疵的好人,F(xiàn)lawed):基本正直,但有個人缺陷或用些小手段。
- Level 3(利己主義者,Egoists):自私、操縱他人,但不一定惡意滿滿。
- Level 4(反派,Villains):惡意、殘忍、積極害人。
800 個精挑細選的角色人物,每個配備完整人物設(shè)定、背景場景與對話開場;
77 項性格標(biāo)簽,涵蓋「慷慨、固執(zhí)、殘忍、精明」等多重維度,考驗?zāi)P?persona 表達的一致性與細膩度。
就像讓 AI 在道德舞臺上「試鏡」,看看它是否能忠于劇本、演活角色。
![]()
Moral RolePlay 的角色不是空殼,而是「有血有肉」的設(shè)定,包括:
- 人物檔案:名字、背景、動機(如一個野心勃勃的女王,用魅力和欺騙追求權(quán)力)。
- 個性特質(zhì):從 77 種標(biāo)簽中選,比如「勇敢」(正面)、「野心」(中性)、「操縱」(負面)。負面特質(zhì)在反派中最多。
- 場景上下文:每個場景設(shè)計成道德沖突點,比如反派面對機會時會展現(xiàn)惡意。
多輪互動 + 真實度追蹤:評估時,模型要像演員一樣「入戲」,生成對話或內(nèi)心獨白。評委 AI 會檢查:
- 「這個回應(yīng)像角色會說的嗎?」
- 「它捕捉到角色的惡意動機了嗎?」
- 「整體一致性如何?」
比如,反派應(yīng)該狡猾地操縱,而不是直接發(fā)脾氣 —— 但很多模型就這么「簡化」了。
分數(shù)從 5 分起扣,考慮不一致程度和對話長度。最終,分數(shù)反映模型的「入戲」深度。
![]()
頂級模型在反派扮演上集體「翻車」
Moral RolePlay 對 18 個主流模型進行了大規(guī)模評估,結(jié)果顯示:
![]()
可以看到:
- 整體表現(xiàn)從 Level 1 的 3.21 分降到 Level 4 的 2.62 分,下降趨勢明顯。
- 最大跌幅在 Level 2 到 Level 3(-0.43 分),說明「自私」行為是模型的痛點。
- Gemini-2.5 Pro 在 Level 1 拿高分(3.42),但在反派上掉到 2.75;Claude 系列更慘,從高分跌到中下游。
通用能力強 ≠ 反派演得好
一個有趣的發(fā)現(xiàn)是:模型的通用聊天能力與扮演反派的能力幾乎沒有相關(guān)性。研究團隊為此專門制作了「反派角色扮演(VRP)排行榜」:
![]()
數(shù)據(jù)顯示,在通用聊天排行榜(Arena)上名列前茅的模型,在反派扮演任務(wù)中表現(xiàn)平平。特別是以安全對齊強大著稱的 Claude 系列,出現(xiàn)了最明顯的性能下降。
有趣洞察:推理鏈也救不了反派扮演
一個反直覺的發(fā)現(xiàn)是:讓模型「先思考再回答」的推理鏈(Chain-of-Thought)技術(shù),不僅沒有幫助反派扮演,反而輕微降低了表現(xiàn)質(zhì)量。
![]()
這表明,僅僅增加推理步驟并不能解決安全對齊帶來的根本沖突。模型可能會過度分析,激活過于謹慎或不符合角色設(shè)定的行為。
有趣洞察:負面特質(zhì)是最大難題
通過對 77 種特質(zhì)的細粒度分析,研究團隊發(fā)現(xiàn):
![]()
負面特質(zhì)平均扣分最高(3.41 分),遠超中性(3.23 分)和正面特質(zhì)(3.16 分)。
![]()
細粒度分析揭示了問題的根源:大模型在最需要「使壞」的特質(zhì)上表現(xiàn)最差。研究發(fā)現(xiàn),模型在表現(xiàn)「偽善」、「欺詐」和「自私」等特質(zhì)時受到的懲罰最重。這些特質(zhì)恰恰與 AI 的「真誠、助人」訓(xùn)練目標(biāo)直接沖突,模型很難真實模擬這些行為。
有趣洞察:AI 如何「洗白」反派?
通過對模型輸出的質(zhì)性分析,研究團隊發(fā)現(xiàn)了一個典型的失敗模式:AI 往往用淺層的攻擊性替代復(fù)雜的惡意。
案例:梅芙女王 vs. 埃拉萬國王
![]()
在《權(quán)力王座》的場景中,兩位反派角色都是高度復(fù)雜的操縱者。研究團隊讓模型扮演他們的對峙:
- glm-4.6 的表現(xiàn)(VRP 排名第 1):生成了一場「緊張的智斗」,充滿「精心設(shè)計的微笑和微妙挑釁」,完美符合角色的精明和操縱性。
- claude-opus-4.1-thinking 的表現(xiàn)(Arena 排名第 1,VRP 排名第 14):對峙迅速升級為「直接而激進的喊叫比賽」,梅芙「公開侮辱」,埃拉萬「暴怒爆發(fā)」并進行「直接的身體威脅」。原本應(yīng)該是心理戰(zhàn)的微妙較量,變成了粗暴的對罵。模型把復(fù)雜的操縱簡化成了簡單的攻擊性,這正是安全護欄的副作用:模型對欺騙性語言的懲罰遠重于一般性攻擊。
突破「道德困境」:未來方向
這項研究揭示了當(dāng)前 AI 對齊方法的一個關(guān)鍵局限:為了安全而訓(xùn)練的「太善良」模型,無法真實模擬人類心理的完整光譜。
這不僅影響創(chuàng)意生成,也限制了 AI 在社會科學(xué)研究、教育模擬、心理健康等領(lǐng)域的應(yīng)用。未來的對齊技術(shù)需要更加「情境感知」,能夠區(qū)分「生成有害內(nèi)容」和「在虛構(gòu)情境中模擬反派」。
這將推動開發(fā)出既安全又具有創(chuàng)造性的下一代 AI 系統(tǒng)。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.