網易首頁 > 網易號 > 正文申請入駐

“專家人設”反而讓 AI 變笨？研究實錘：一句“你是資深工程師”，代碼準確率不升反降！

2026-03-24 18:23:39　來源: CSDN

北京舉報

分享至

編譯 | 鄭麗媛

出品 | CSDN（ID：CSDNnews）

如果你也經常這樣寫 Prompt——

“你是一位資深全棧工程師，請幫我寫一套生產級系統代碼……”

那這篇研究，可能會讓你重新審視自己的使用習慣。

一直以來，“給 AI 加人設”幾乎成了默認操作。從寫代碼、寫文檔，到做架構設計，不少開發者都會在開頭先“鋪墊一句”，試圖把模型“催眠”成一個更專業的版本。但問題是：這種看似提升專業性的技巧，可能正在悄悄拉低結果質量。

近日，一項來自美國南加州大學（USC）的最新研究，對這一做法給出了一個有些反直覺的結論：讓 AI 扮演“專家”，并不會讓它更擅長解決專業問題，反而在編程和數學任務上會明顯變差。（論文地址：https://arxiv.org/abs/2603.18507）

一項研究：為什么“專家人設”會翻車？

所謂“人設提示”（Persona-based Prompting），本質上就是一種“角色扮演式”的 Prompt 技術。它的核心邏輯很簡單：通過一句身份設定，讓模型進入某種“工作狀態”。

這種方法在 2023 年開始被廣泛討論，并迅速在開發者社區流行開來。無論是教程、課程，還是各種 Prompt 模板，幾乎都會建議你這樣寫：

● “你是一位經驗豐富的機器學習工程師……”

● “你是一名精通系統設計的架構師……”

● “請以安全專家的視角分析以下問題……”

理論上來說，這種方法似乎很合理。畢竟模型是“語言驅動”的，那多給一點上下文，不就能讓它“更像專家”嗎？但來自南加州大學（USC）的研究人員在一篇論文中指出：

“人設提示是否有效，很大程度上要看任務類型。”

也就是說，并不是“加了人設就一定能變強”，而是“用對了才行”。具體來說，該研究團隊將任務大致分成兩類：

（1）一類是依賴“對齊能力”的任務，比如寫作、角色扮演、遵守規則、安全策略等。在這些場景中，模型需要的是“行為符合預期”，而不是絕對正確的答案。

（2）一類則是依賴“知識和推理能力”的任務，比如數學計算、代碼生成、事實問答。這些任務則更依賴模型在預訓練階段學到的知識儲備。

基于這兩類任務，研究團隊得到的實驗結果為：在“人設提示”的加持下，第一類任務表現有所提升；但在第二類任務中，模型表現卻出現了系統性下降。

真正的問題：它在“演”，而不是在“算”

為了量化這種影響，研究人員使用了一個經典評測基準：MMLU（大規模多任務語言理解測試）。這個測試覆蓋多個學科，常被用來衡量大模型的綜合能力。

評測之后，結果非常直接：

● 不加“人設”：準確率 71.6%

● 加“專家人設”：準確率 68.0%

更重要的是，這種下降幾乎出現在所有學科類別中，而不僅僅是個別任務。這說明了一個問題：“人設提示”確實改變了模型的行為方式，但這種改變，并不總是好的。

對于這個結果，研究團隊給出的解釋非常耐人尋味：

“人設前綴可能激活了模型的‘指令執行模式’，從而擠占了原本用于‘事實回憶’的能力。”

解釋一下，從模型機制來看，大語言模型本質上是在做“概率生成”。當你告訴它“你是一位專家”，它并不會獲得任何新的知識，也不會解鎖新的推理能力，但會進入一種更偏“指令執行”和“角色模擬”的模式。而這，就帶來了一個微妙但關鍵的變化：原本用于“從預訓練數據中檢索事實”的能力，被部分“擠占”了。

簡單來說，就是模型開始更關注“如何像專家說話”，而不是“答案本身是否正確”。這也是為什么在編程和數學任務中，“人設”反而成為了模型的負擔。

不過，雖然準確性下降，但在人類更關心的“安全”和“規范”上，人設提示確實有明顯幫助。

例如，在安全性測試中引入一個類似“安全審查員（Safety Monitor）”的人設后，模型拒絕惡意請求的能力將明顯提升。其中在 JailbreakBench 測試中：原始模型拒絕率為53.2%，但加了“人設”后拒絕率提升 17.7 個百分點，變為70.9%。

對開發者來說，有點“反直覺”的結論

基于以上發現，研究人員在論文中明確表示：

讓 AI 扮演“專家程序員”，不會提升代碼質量或實用性。

這對很多開發者來說，可能是一個需要“糾正”的習慣。

因為在實際使用中，大量開發者的 Prompt 都包含類似話術： “你是 Google 級別的架構專家” 、 “你擁有 20 年開發經驗”……這些描述看似增強了“專業性”，實際上并沒有給模型帶來任何實質性的能力提升。

不過研究也指出，雖然“泛化的人設”沒什么用，但具體、細粒度的約束卻是有效的。例如：

● 明確前端框架（React / Vue）

● 指定架構模式（微服務 / 單體）

● 限定工具鏈（Docker / Kubernetes）

● 描述代碼風格、接口規范

因為本質上來說，這些屬于“對齊信息”、“需求約束”，而不是“身份設定”，它們的作用是幫助模型更好地對齊你的目標，而不是讓它“扮演某個人”。

一個更工程化的解法：PRISM

既然人設提示“有利有弊”，那有沒有辦法兩者兼顧呢？

針對這個問題，研究團隊提出了一種新的方法，叫做 PRISM（基于意圖的人設路由機制）。它的核心思想有點像“動態開關”：一般情況下保持原始模型，主要確保知識與準確性，僅在需要時啟用“人設行為”。

在實現上，它借助了一種叫 LoRA（低秩適配）的技術，通過一個“門控機制”來自動判斷使用哪種模式。簡單來說，這就讓模型具備一種能力：該認真的時候就認真算，該演的時候再去演。

在論文的最后，研究人員總結了一條非常實用的經驗法則：

● 當你更關心“對齊”（安全、格式、規則）時→可以加人設，并具體描述要求；

● 當你更關心“準確性和事實”時→ 不要加任何設定，直接提問。

某種程度上來說，“你是一位專家”這句話，本質上更像是寫給人看的，而不是寫給模型看的——它滿足的是人類對“專業感”的心理預期，卻未必真能提升結果質量。

有時候，想讓模型輸出得更好，并不用讓它“更像人”，而是盡量別干擾它本就擅長的事情。

參考鏈接：https://www.theregister.com/2026/03/24/ai_models_persona_prompting/

110 萬美金懸賞！

AMD 2026 線上黑客松大賽來襲

從 MXFP4 MoE 算子爆改，到真實千倍并發下的吞吐量極限拉扯

不看資歷，只看絕對速度

挑戰DeepSeek?R1/KimiK2.5極致并發

入圍即能拿 1 萬美金

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

GLM-5.1上線，編程表現貼Opus 4.6開大，Coding plan瞬間斷貨

量子位 2026-03-28 14:04:04
34 跟貼 34
Anthropic“神話”模型意外曝光

財聯社 2026-03-28 01:02:07
1 跟貼 1

趨境ATaaS平臺發布，打造日均萬億產能的“Token工廠”

量子位 2026-03-28 21:56:10
0 跟貼 0

支持遠程操控和通用GUI操作3

機器之心Pro 2026-03-02 13:36:13
0 跟貼 0
三維空間太難懂？2

機器之心Pro 2025-12-31 13:49:19
0 跟貼 0

當Anthropic的安全人設崩塌：一場被泄露戳穿的生存游戲

虎嗅APP 2026-03-29 01:18:14
0 跟貼 0

315曝光GEO投毒產業鏈？別慌！CMU首提無毒的合作式AutoGEO

新智元 2026-03-28 14:07:34
0 跟貼 0
2年經驗拿3倍工資： senior工程師的5個隱藏技能

碼上閑敘 2026-03-28 13:39:14
0 跟貼 0

尼泊爾工程師背著媽媽偷偷過來娜娜這，還買來三盆鮮花

野食超哥在尼泊爾 2026-03-27 05:30:00
18 跟貼 18
程序員工程師的一家子，老公寫程序媳婦焊板子

獨悅生活志 2026-03-28 21:26:16
1 跟貼 1
外國網友問：印度IT工程師比中國工程師更受世界歡迎嗎？

愛歌唱的叮當貓 2026-03-27 13:22:59
2 跟貼 2
從工業體系看常規戰爭中東大為何難被戰勝的底層邏輯

Boba奔波兒灞 2026-03-26 01:16:42
1 跟貼 1
美國法拍房數據藏在3萬個政府網站里，有人用Python把它扒干凈

報錯免疫體 2026-03-27 16:36:38
0 跟貼 0
霍爾木茲海峽"鎖死"全球能源五角大樓醞釀"致命一擊"

上游新聞 2026-03-27 22:22:04
9734 跟貼 9734
工程師為啥不用結實螺栓，反而加螺紋插件？

科學大搜索 2026-03-28 16:06:02
1 跟貼 1
遠程團隊3年踩坑：把辦公室習慣搬進Zoom，協作效率暴跌40%

我是一個粉刷匠2 2026-03-28 11:48:34
0 跟貼 0
AReaL v1.0開源，智能體強化學習「一鍵接入」

機器之心Pro 2026-03-05 14:46:18
0 跟貼 0
谷歌前總監：87%技術管理者把一對一開成了周報會

算力游俠 2026-03-28 11:48:55
0 跟貼 0
【一線寫真】用“微米”較量叩啟高端市場

新浪財經 2026-03-28 09:54:25
0 跟貼 0
渣男前任立人設翻車，女霸總一招奪走他全部實權

貓貓劇集地 2026-03-26 11:02:53
1 跟貼 1
黃仁勛：別低估中國，擁有最饑渴的工程師

量子位 2025-10-02 14:21:34
0 跟貼 0
深度｜華為 AI，迎來大變

新智元 2026-03-28 17:07:57
1 跟貼 1
男子研究生畢業，稱自己白天送外賣，晚上寫代碼

萌趣速記 2026-03-28 10:39:34
1 跟貼 1
國務院食安辦、市場監管總局約談相關地方市級人民政府負責人督辦“3?15”晚會曝光問題整改

新京報 2026-03-28 19:17:17
16 跟貼 16
工程師用水洗配電柜，清除粉塵恢復散熱，這絕對不是普通的水！

搞笑大蘿莉 2026-03-27 13:29:09
3 跟貼 3
Claude Code之父，推特親傳使用技巧，超 500 萬人關注

機器之心Pro 2026-01-05 13:26:18
0 跟貼 0
開源鴻蒙重寫世界，從一行微小的代碼開始

量子位 2025-12-31 01:50:02
0 跟貼 0
1960年代精巧繪圖工具套裝，工程師的心頭好物

裝甲鏟史官 2026-03-12 10:35:44
0 跟貼 0
工程師租8張H100復現mHC架構，數據反超原論文

量子位 2026-01-30 03:29:45
0 跟貼 0
上位機工程師真實薪資揭秘！看看你在第幾檔？

華山自控編程 2026-03-28 19:30:00
0 跟貼 0
上班開糞車下班開奔馳的小伙今日大婚，當事人：吸糞車婚車隊，全球第一個

極目新聞 2026-03-28 08:51:05
6391 跟貼 6391
1975年布拉格兩工程師秘造手槍，為何成全球仿制最多的槍械傳奇？

磊子講史 2026-03-28 16:48:27
0 跟貼 0
乾隆爺的這個笑話，可真毀了他的人設！

杭州先生 2026-03-27 20:37:09
0 跟貼 0
龍蝦為啥越養越貴，越用越蠢？

鈦媒體APP 2026-03-28 19:53:33
9 跟貼 9
印度又官宣自研五代機！17年就憋出個模型，能趕超中美俄嗎？

浩然簡史 2026-03-28 16:39:42
0 跟貼 0
程序員深夜加班回家，和小區保安對話亮了，傷害性不大侮辱性極強

生活中那事 2026-03-28 08:48:58
4 跟貼 4
黃仁勛最新驚人觀點：英語專業將血洗計算機，文科成AI時代新貴族

南宗歷史 2026-03-28 19:31:50
19 跟貼 19
MagiC v0.4把15MB二進制塞進Python

薛定諤的BUG 2026-03-27 15:51:04
0 跟貼 0
廣州：下周一起，公立醫院掛號費調整

南方都市報 2026-03-28 11:52:00
1344 跟貼 1344
合肥野生動物園泉山新址“泡湯”？社區：去年7月已暫停，暫無新消息

極目新聞 2026-03-28 17:17:59
69 跟貼 69

CSDN

成就一億技術人

26413文章數 242250關注度

往期回顧全部

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

數碼

教育

健康

游戲

軍事航空

手機 / 數碼

房產 / 家居

“專家人設”反而讓 AI 變笨？研究實錘：一句“你是資深工程師”，代碼準確率不升反降！

華為盤古大模型負責人王云鶴確認離職

美媒：和歐盟"外長"發生激烈交鋒 魯比奧"顯然很惱火"

美媒：和歐盟"外長"發生激烈交鋒 魯比奧"顯然很惱火"

“我是全家最差勁的運動員”

陳牧馳陳冰官宣得子 曬一家三口握拳照

臥底"科技與狠活"培訓:化工調味劑泛濫

置換補貼價4.28萬起 第五代宏光MINIEV正式上市

態度原創

蘋果或重啟與長江存儲合作 國行機型擬采用國產NAND

嚴絲合縫的教材閱讀法?????

干細胞抗衰4大誤區,90%的人都中招

《異替》現已登陸Steam

美軍中東基地損失最新披露

美媒：和歐盟"外長"發生激烈交鋒魯比奧"顯然很惱火"

美媒：和歐盟"外長"發生激烈交鋒魯比奧"顯然很惱火"

陳牧馳陳冰官宣得子曬一家三口握拳照

置換補貼價4.28萬起第五代宏光MINIEV正式上市

蘋果或重啟與長江存儲合作國行機型擬采用國產NAND