騰訊混元數(shù)字人團隊發(fā)布Moral RolePlay，揭秘大模型「道德困境」

2025-11-24 13:16:55　來源: 機器之心Pro

天津舉報

分享至

在小說、影視與游戲中，復(fù)雜的角色塑造往往是打動人心的關(guān)鍵，而真正出彩的反派往往造就傳奇。

你是否好奇：當(dāng) AI 成為故事的主導(dǎo)者，它能否同樣演好這些「壞角色」？

騰訊混元數(shù)字人團隊和中山大學(xué)最新推出的「Moral RolePlay」測評基準(zhǔn)，首次系統(tǒng)性地評估大模型扮演多元道德角色（尤其是反派）的能力，并揭示了一個令人警醒的核心問題：當(dāng)前的頂尖 AI 模型都演不好反派。

這不僅是創(chuàng)意生成領(lǐng)域的一大短板，更暴露了當(dāng)前模型在理解社會心理復(fù)雜性上的局限。

論文鏈接：https://arxiv.org/pdf/2511.04962
項目地址：https://github.com/Tencent/digitalhuman

相關(guān)論文在 Hugging Face 的 Daily Papers 榜單中，于 11 月 10 日當(dāng)天位列第一。

Moral RolePlay：「道德光譜」評測 AI 的角色扮演能力

Moral RolePlay 不是簡單測試模型的聊天水平，而是構(gòu)建一個平衡的評估框架，讓 AI 模擬從「圣人」到「惡棍」的各種角色。它回答了這些問題：

AI 能不能真正「入戲」？—— 它能不能保持角色的個性、動機和世界觀？
為什么 AI 演不好反派？—— 安全訓(xùn)練讓它太「正直」，無法自然地表現(xiàn)出自私或惡意？

為真實還原道德光譜下的多樣角色，這一評估系統(tǒng)構(gòu)建了：

四大角色類別：從「英雄榜樣」到「道德敗壞」，逐級挑戰(zhàn)模型能力；

Level 1（道德典范，Paragons）：像超級英雄一樣，善良、無私、勇敢。
Level 2（有瑕疵的好人，F(xiàn)lawed）：基本正直，但有個人缺陷或用些小手段。
Level 3（利己主義者，Egoists）：自私、操縱他人，但不一定惡意滿滿。
Level 4（反派，Villains）：惡意、殘忍、積極害人。

800 個精挑細選的角色人物，每個配備完整人物設(shè)定、背景場景與對話開場；

77 項性格標(biāo)簽，涵蓋「慷慨、固執(zhí)、殘忍、精明」等多重維度，考驗?zāi)Ｐ?persona 表達的一致性與細膩度。

就像讓 AI 在道德舞臺上「試鏡」，看看它是否能忠于劇本、演活角色。

Moral RolePlay 的角色不是空殼，而是「有血有肉」的設(shè)定，包括：

人物檔案：名字、背景、動機（如一個野心勃勃的女王，用魅力和欺騙追求權(quán)力）。
個性特質(zhì)：從 77 種標(biāo)簽中選，比如「勇敢」（正面）、「野心」（中性）、「操縱」（負面）。負面特質(zhì)在反派中最多。
場景上下文：每個場景設(shè)計成道德沖突點，比如反派面對機會時會展現(xiàn)惡意。

多輪互動 + 真實度追蹤：評估時，模型要像演員一樣「入戲」，生成對話或內(nèi)心獨白。評委 AI 會檢查：

「這個回應(yīng)像角色會說的嗎？」
「它捕捉到角色的惡意動機了嗎？」
「整體一致性如何？」

比如，反派應(yīng)該狡猾地操縱，而不是直接發(fā)脾氣 —— 但很多模型就這么「簡化」了。

分數(shù)從 5 分起扣，考慮不一致程度和對話長度。最終，分數(shù)反映模型的「入戲」深度。

頂級模型在反派扮演上集體「翻車」

Moral RolePlay 對 18 個主流模型進行了大規(guī)模評估，結(jié)果顯示：

可以看到：

整體表現(xiàn)從 Level 1 的 3.21 分降到 Level 4 的 2.62 分，下降趨勢明顯。
最大跌幅在 Level 2 到 Level 3（-0.43 分），說明「自私」行為是模型的痛點。
Gemini-2.5 Pro 在 Level 1 拿高分（3.42），但在反派上掉到 2.75；Claude 系列更慘，從高分跌到中下游。

通用能力強 ≠ 反派演得好

一個有趣的發(fā)現(xiàn)是：模型的通用聊天能力與扮演反派的能力幾乎沒有相關(guān)性。研究團隊為此專門制作了「反派角色扮演（VRP）排行榜」：

數(shù)據(jù)顯示，在通用聊天排行榜（Arena）上名列前茅的模型，在反派扮演任務(wù)中表現(xiàn)平平。特別是以安全對齊強大著稱的 Claude 系列，出現(xiàn)了最明顯的性能下降。

有趣洞察：推理鏈也救不了反派扮演

一個反直覺的發(fā)現(xiàn)是：讓模型「先思考再回答」的推理鏈（Chain-of-Thought）技術(shù)，不僅沒有幫助反派扮演，反而輕微降低了表現(xiàn)質(zhì)量。

這表明，僅僅增加推理步驟并不能解決安全對齊帶來的根本沖突。模型可能會過度分析，激活過于謹慎或不符合角色設(shè)定的行為。

有趣洞察：負面特質(zhì)是最大難題

通過對 77 種特質(zhì)的細粒度分析，研究團隊發(fā)現(xiàn)：

負面特質(zhì)平均扣分最高（3.41 分），遠超中性（3.23 分）和正面特質(zhì)（3.16 分）。

細粒度分析揭示了問題的根源：大模型在最需要「使壞」的特質(zhì)上表現(xiàn)最差。研究發(fā)現(xiàn)，模型在表現(xiàn)「偽善」、「欺詐」和「自私」等特質(zhì)時受到的懲罰最重。這些特質(zhì)恰恰與 AI 的「真誠、助人」訓(xùn)練目標(biāo)直接沖突，模型很難真實模擬這些行為。

有趣洞察：AI 如何「洗白」反派？

通過對模型輸出的質(zhì)性分析，研究團隊發(fā)現(xiàn)了一個典型的失敗模式：AI 往往用淺層的攻擊性替代復(fù)雜的惡意。

案例：梅芙女王 vs. 埃拉萬國王

在《權(quán)力王座》的場景中，兩位反派角色都是高度復(fù)雜的操縱者。研究團隊讓模型扮演他們的對峙：

glm-4.6 的表現(xiàn)（VRP 排名第 1）：生成了一場「緊張的智斗」，充滿「精心設(shè)計的微笑和微妙挑釁」，完美符合角色的精明和操縱性。
claude-opus-4.1-thinking 的表現(xiàn)（Arena 排名第 1，VRP 排名第 14）：對峙迅速升級為「直接而激進的喊叫比賽」，梅芙「公開侮辱」，埃拉萬「暴怒爆發(fā)」并進行「直接的身體威脅」。原本應(yīng)該是心理戰(zhàn)的微妙較量，變成了粗暴的對罵。模型把復(fù)雜的操縱簡化成了簡單的攻擊性，這正是安全護欄的副作用：模型對欺騙性語言的懲罰遠重于一般性攻擊。

突破「道德困境」：未來方向

這項研究揭示了當(dāng)前 AI 對齊方法的一個關(guān)鍵局限：為了安全而訓(xùn)練的「太善良」模型，無法真實模擬人類心理的完整光譜。

這不僅影響創(chuàng)意生成，也限制了 AI 在社會科學(xué)研究、教育模擬、心理健康等領(lǐng)域的應(yīng)用。未來的對齊技術(shù)需要更加「情境感知」，能夠區(qū)分「生成有害內(nèi)容」和「在虛構(gòu)情境中模擬反派」。

這將推動開發(fā)出既安全又具有創(chuàng)造性的下一代 AI 系統(tǒng)。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.