![]()
新智元報道
編輯:KinHZ 元宇
【新智元導讀】AI最強幻覺,原來不是不會,而是太會「裝會」。 「你是專家」這句咒語,可能騙了整個AI圈一年。
人生如戲,全靠演技,但AI不行——
最新論文證實,「讓AI裝專家」會可測量、持續地降低模型的準確率。
![]()
鏈接:https://arxiv.org/pdf/2603.18507
過去一年,AI圈最成功的騙局之一,可能就是這句話:
你是XX專家。
無數教程把它吹成神級提示詞。
這句話幾乎被包裝成了大模型時代的「黑魔法」:只要人設立住,AI就會突然開竅。
但現在,最新論文給了所有人一記耳光:
這句神提示詞,可能根本不是外掛,而是毒藥。
研究發現,當AI被要求扮演「專家」時,它并不總是更聰明,反而會更像一個堅持人設的「假專家」:
不愿承認不知道,不愿暴露猶豫,不愿停下來仔細想,最后選擇用一種極其專業、極其自信、極其像那么回事的方式, 把錯話說圓。
![]()
圖 1: 專家角色在不同模型、任務類型、信息粒度及位置的影響分析
上圖1中給出的結果非常直觀:
長專家人設在5個生成類別上有顯著提升,但在硬核的MMLU知識基準上,加了人設后準確率全面跌破71.6%的基線,哪怕是最短的人設也掉到了68.0%,而詳細的長版本人設更是慘跌至66.3%。
安全場景則相反,「安全監督員」人設能顯著提高拒絕越獄攻擊的概率,在JailbreakBench上拒答率從53.2%升到70.9%。
因此,這篇論文最值得關注的一個地方,不只是它提出了「專家人設可能有害」,而是進一步解釋了:為什么過去關于Persona Prompting(人格提示)的研究,結論總會相互矛盾。
幻覺的開端
當你對大模型念出「你是專家」
研究人員發現,Persona Prompting的效果并不是全方位的增益。
它的表現強烈依賴任務類型、模型訓練方式、提示長度,以及人設到底放在system prompt還是user prompt里。
研究者把任務大致分成兩類:
一類是「判別式任務」,更依賴預訓練記憶,比如事實檢索、知識判斷、多項選擇題;
另一類是「生成式任務」,更依賴對齊能力,比如格式遵循、風格控制、安全拒答、人類偏好匹配。
結果顯示:
在安全防御、偏好對齊等「生成式任務」上,專家人設確實是個好工具。
但在知識檢索、事實判斷這類極度依賴預訓練記憶的「判別式任務」上,專家人設卻成了拖后腿的。
![]()
大模型「偏科」熱力圖:藍色代表能力提升,紅色代表能力受損。在普通指令微調模型(左圖)中,大量出現的紅色色塊顯示:所謂的專家人設正在全面破壞模型的客觀知識準確度。
換句話說,專家人設提升的,很多時候不是「真實性」,而是「對齊感」。
在MT-Bench這類更偏生成質量的任務里,專家人設能提升寫作、角色扮演、抽取、STEM表達等類別表現。
但到了MMLU這種更依賴知識檢索的基準上,所有專家人設版本都在掉分。
這解釋了一個很多用戶都曾遇到過、但又說不清的體驗:
為什么同一個模型,寫郵件時像個訓練有素的顧問;一到數學、事實核查、代碼細節,反而一本正經地胡說八道?
因為它真的更像專家了,但未必更擅長把底層記憶準確調出來。
論文里甚至給了個很諷刺的例子。
擲兩枚骰子,點數和至少為3的概率是多少?不加數學人設時,模型基本答對,給出35/36。
加了數學專家人設后,它卻開始一本正經地列步驟,最后把簡單概率題算錯。
你能明顯感覺到,它不是不會「表演數學家」,而是太像在「做數學的樣子」了。
我們獎勵的是「像專家」,還是「答得對」?
今天很多用戶判斷一個模型好不好,第一標準并不是「它是不是更接近事實」,而是「它是不是說得穩、說得順、說得像專業人士」。
只要它結構完整、術語到位、語氣沉著,用戶就會天然提高信任度。
這正是大模型最危險的一類幻覺:不是胡說八道,而是用極其專業的方式說錯話。
從訓練邏輯看,預訓練階段,大模型主要學到的是知識記憶、模式統計、事實關聯、語言規律;后續的指令微調和RLHF,則更多在塑造它「怎么說」「怎么更像人類偏好的回答者」。
論文的關鍵判斷就在這里:
專家人設本質上更容易激活的是后者,也就是風格、格式、意圖跟隨和安全邊界這些對齊能力;但當任務需要的是直接、精準地調用預訓練知識時,額外的人設上下文可能反而會干擾檢索。
你可以把它理解成一種「對齊稅」:模型為了更符合你期待中的專家樣子,犧牲了一部分事實調用的準確度。
相關研究也反復證實,Persona Prompting并不總能帶來穩定提升,有時甚至會因為引入了不相關的人格屬性而產生難以預料的負面影響。
所以,真正的問題其實不在于「人設」本身,而在于我們把風格控制、價值對齊、事實判斷、推理求解,這些完全不同的任務,粗暴塞給了同一種Persona機制。
讓模型在寫一封安撫用戶的郵件時像個成熟顧問,沒毛病。
讓模型在面對危險請求時像個安全審查員,也沒毛病。
但讓它在做概率題、答醫學事實、查法律條文時,先進入一段長長的「專家角色扮演」,這可能從一開始就走錯了方向。
救贖之道
路由分配才是正解
那是不是從此以后,專家人設就該扔掉?
當然不是。
如前文提到的,研究人員同時發現,專家人設在「生成式任務」等更依賴對齊能力的特定場景下仍然具有不可替代的價值。
所以,核心關鍵根本不是「用不用」,而是「什么時候用」。
為了解決這個痛點,研究人員發明了PRISM算法(Persona Routing via Intent-based Self-Modeling,基于意圖的自舉人格路由)。
這個系統不給AI固定一個角色,而是先看懂用戶真實意圖,再動態路由分配正確人設。
![]()
圖中展示了兩種自動選擇專家角色的方法。PRISM通過LoRA適配器動態分配合適人設,無需外部資源即可保留對齊益處、維持判別任務準確性
PRISM的核心思路非常精妙:
它不再在推理時給模型生硬地套上專家Prompt,而是把所有專家人設中有益的部分,提前「濃縮蒸餾」到了一個輕量化的門控LoRA適配器(Gated LoRA Adapter)中。
在真正面對用戶問題時,PRISM的門控機制只做一道極簡的二元選擇題:
開啟「專家外掛」,還是退回 「樸素模式」。
用戶問「幫我寫代碼」或「進行高情商安撫」,系統判定需要對齊能力,門控瞬間激活LoRA適配器,調出內化好的專家水平;
用戶問「客觀數學計算」或「事實核查」,系統判定人設會產生干擾,門控立刻關閉適配器,讓未經修飾的基座模型用最純粹的預訓練記憶去準確作答。
整個PRISM提取過程不需要額外數據、額外模型、額外算力。
成本并不高,訓練一個門控單LoRA版本,在A100上大約45分鐘,額外開銷也比較小。
具體而言,PRISM訓練流程分為五大階段:
(1) 以人設提示詞為條件生成查詢;
(2) 按人設作答,生成多種人設下的回復;
(3) 通過成對比較進行自驗證,從而篩選蒸餾數據集;
(4) 進行路由器/門控模塊訓練,學習基于意圖的路由機制,以判斷何時啟用人設會更有幫助;
(5) 通過LoRA進行自蒸餾,讓模型內化這些人設行為。
PRISM想做的不是讓AI「更會演」,而是「該演的時候演,該準的時候準」。
結果很炸裂:
在保持極低算力開銷的同時,大模型終于能在「高情商生成」與「硬核知識檢索」之間實現絲滑切換。
PRISM不僅在生成式任務上大幅提升了人類偏好與安全對齊得分,還完美保住了判別式任務的客觀準確率。
![]()
Qwen等五個模型及MT-Bench等三個基準維度上的綜合評估
在Qwen2.5-7B上,單純做專家提示時,整體分數是72.2,和基線71.8差不多,說明「有得有失,基本互相抵消」。
但PRISM能把整體拉到73.5,MT-Bench從7.56提到7.76,同時把MMLU維持在71.7%,基本不傷知識準確率。
Mistral-7B上更明顯:
專家提示會把整體表現從79.9打到71.4,但PRISM可以做到81.5,甚至高于基線。Llama-3.1-8B上,PRISM也把Overall從67.5提高到70.3。
這意味著:提示工程的下一階段,可能不再是「寫一個更長、更唬人的專家人設prompt」,而是「把任務拆清楚,再決定是否啟用人格化對齊」。
這時,PRISM像聰明的中介,先看清問題本質,再派對的人上場。
大模型這時的表現既專業,又老實,再也不會去用錯誤換好評。
行動起來
就現在
所以,別再第一句話就喊「你是專家」,試著把PRISM這樣的動態路由用起來。
讓AI根據問題真正需要什么角色,而不是永遠戴同一張面具。
![]()
圖4:在Qwen2.5-7B-Instruct模型上,門控網絡將查詢路由至LoRA的比例與各類別在專家角色影響下的表現之間的關系
如果你是開發者,請開始關注PRISM這樣的底層意圖路由機制,讓模型在權重層面就學會「該演就演,該準就準」。
如果你是普通用戶,現在就可以行動。
打開對話框,在遇到硬核知識核查、邏輯推演時,把那句自作聰明的「專家咒語」果斷刪掉。
換成一句最干凈的指令:「請一步步客觀推演,如果不確定就直接告訴我」。
少給AI加戲,它才能真正開始思考。
而你,也會第一次聽到它說真話。
參考資料:
https://x.com/sukh_saroy/status/2035761644270411994?s=20%20
https://arxiv.org/abs/2603.18507
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.