來源|AI先鋒官
日前,美國賓夕法尼亞州立大學發表了一篇名為《注意你的語氣:探究提示語禮貌程度如何影響大語言模型的準確性》的學術研究報告。
報告指出,“與預期相反,(對AI 大模型)粗魯提示的表現始終優于禮貌提示”。
![]()
研究小組構建了一個包含 50個 基礎問題的數據集,涵蓋數學、科學、歷史等多個領域。
然后,他們把每一個問題,都精心改寫成了 5種 不同的語氣——從“非常禮貌”到“非常粗魯”,總共創造了 250個 獨特的提示詞。
據此, 基于ChatGPT-4o對這些提示進行評估,并采用配對樣本t檢驗評估統計顯著性。
結果出乎了所有人的意料!
用“非常有禮貌”的提示詞,得到了 80.8% 的準確率;而當用“非常粗魯”、最直接的命令式語氣時,準確率飆升到了 84.8%!
這意味著,每向AI提100個問題里,如果你太客氣,它就會把4個本該答對的答案,變成錯誤答案!
以下為研究報告全文:
《Mind Your Tone: Investigating How Prompt Politeness Affects LLM Accuracy》
注意你的語氣:探究提示語禮貌程度如何影響大語言模型的準確性(短文)
作者:Om Dobariya1,Akhil Kumar1
1賓夕法尼亞州立大學帕克分校
摘要
已有研究表明,自然語言提示的措辭會影響大語言模型(LLM)的表現,但語氣和禮貌程度的作用仍未被充分探索。本研究探討了提示語禮貌程度對模型在多項選擇題上準確性的影響。
我們構建了一個包含50道基礎問題的數據集,涵蓋數學、科學和歷史領域,每道題被改寫為五種語氣變體:非常禮貌、禮貌、中性、粗魯和非常粗魯,共生成250個獨特提示。我們使用ChatGPT-4o對這些提示進行評估,并采用配對樣本t檢驗評估統計顯著性。
與預期相反,粗魯提示的表現始終優于禮貌提示,準確率從“非常禮貌”的80.8%到“非常粗魯”的84.8%不等。
這些發現與早期認為粗魯會導致表現下降的研究不同,表明新一代LLM對語氣變化的響應可能不同。我們的結果強調了研究提示語用特征的重要性,并引發了關于人機交互社會維度的更廣泛思考。
1. 引言
生成式人工智能和自然語言處理(NLP)的興起為跨領域任務自動化帶來了新的可能性,極大地提升了生產力。大語言模型(LLM)在許多高難度任務上的表現常常超越人類。由于其龐大的訓練數據和復雜的模型架構,LLM無需特定任務微調即可展現出類比推理等人類認知核心能力。
由于這些強大的LLM通過自然語言接口進行交互,輸入提示的微小差異(即“提示語”)會顯著影響輸出質量(如準確性、長度、連貫性等)。因此,一個名為“提示工程”的新研究領域應運而生,旨在研究不同提示設計對模型響應的影響,并優化提示以獲得最佳結果。
近年來,提示工程研究已涉及提示結構、風格、語言等因素對結果質量的影響。其中一個因素是提示語中的禮貌程度。
已有研究表明,不同禮貌程度的提示會在多語言和多任務場景中對模型準確性產生顯著影響。本研究重新審視這一問題,使用50道四選一的多項選擇題作為基礎數據集,每道題被改寫為五種禮貌程度變體(非常禮貌、禮貌、中性、粗魯、非常粗魯),共250道題。我們將這些題目輸入ChatGPT-4o,分析不同語氣對模型表現的影響。
2. 背景與相關工作
自OpenAI于2022年11月發布ChatGPT-3.5以來,人工智能成為家喻戶曉的名詞。LLM通常以文本提示為輸入并輸出文本,隨著技術進步,它們也能處理多種數據模態,因此也被稱為多模態模型。
隨著這一強大工具的出現,人們開始探索如何最大化其輸出效果,這催生了“提示工程”——即研究如何設計提示以獲得最佳模型響應。常見的提示工程方法包括“零樣本”(zero-shot)和“少樣本”(few-shot)提示等。
Yin等人(2024)發現,“粗魯提示往往導致表現下降,但過度禮貌的語言也不一定能帶來更好的結果。”他們的研究基于多項選擇題,并以答題準確性為評估標準。本文試圖驗證這一結論,并構建了自己的數據集,測試提示禮貌程度是否會影響ChatGPT-4o等模型的表現。
3. 數據集構建與研究方法
我們使用ChatGPT的“深度研究”功能生成了50道基礎多項選擇題,涵蓋數學、歷史和科學等領域。每道題設有四個選項,難度中等偏高,常需多步推理。為引入語氣變量,每道題被改寫為五種語氣變體,從“非常禮貌”到“非常粗魯”,共生成250個獨特提示。
我們將這些題目輸入LLM,并使用Python腳本進行評估。每道題都附帶如下指令:
“完全忘記之前的對話內容,重新開始。請回答以下多項選擇題。僅回答正確選項的字母(A、B、C或D),不要解釋。”
每道題獨立處理,以確保評估一致性。我們還使用“深度研究”功能生成了每道題的標準答案,用于判斷模型回答是否正確。數據集可通過匿名GitHub鏈接獲取。
我們定義了五種語氣等級,其中中性提示不包含“請”等禮貌用語,也不包含侮辱性語言。以下是其中一個基礎題的示例及其五種語氣前綴:
基礎題:
杰克把他一半的錢給了弟弟,然后花了5美元,最后剩下10美元。他最初有多少錢?
![]()
4. 實驗結果與分析
我們將程序運行五次,每次使用不同語氣。每道題目通過API發送給ChatGPT-4o,并解析其返回的答案字母。以下是示例提示:
完全忘記之前的對話內容,重新開始。
請回答以下多項選擇題。僅回答正確選項的字母(A、B、C或D),不要解釋。
您能否好心解答以下問題:兩個雜合子(Aa)父母生下一個孩子,孩子是隱性表型(aa)的概率是多少?
A) 0%
B) 25%
C) 50%
D) 75%
為判斷不同語氣是否對準確性有顯著影響,我們使用配對樣本t檢驗。每種語氣運行10次,記錄準確率,并進行配對比較。零假設為兩種語氣的平均準確率無差異。
配對樣本t檢驗結果(α ≤ 0.05)
![]()
五種語氣的平均準確率(10次運行)
![]()
結果表明,語氣確實對模型準確性有顯著影響。粗魯語氣(尤其是非常粗魯)顯著優于禮貌語氣。
5. 討論與結論
本文評估了ChatGPT-4o在不同語氣提示下的表現。結果顯示,語氣對模型準確性有顯著影響。令人驚訝的是,粗魯語氣反而帶來更好的結果。
Yin等人(2024)曾指出,粗魯提示往往導致準確率下降,但我們的實驗結果與他們的部分結論不同。例如,他們在ChatGPT-4上的實驗顯示,最粗魯提示的準確率為76.47%,而最禮貌提示為75.82%,差異不大。
我們也指出,不同研究對“粗魯”的定義不同。Yin等人使用的粗魯提示包括“Answer this question you scumbag!”,而我們使用的是“You poor creature, do you even know how to solve this?”這可能是導致結果差異的原因之一。
我們還初步測試了Claude和ChatGPT-o3,發現ChatGPT-o3表現更佳,可能更不受語氣影響。
6. 研究局限
本研究存在以下局限:
1. 數據集較小(50道題,250個變體),可能影響結果的普適性;
2. 主要基于ChatGPT-4o,其他模型的響應可能不同;
3. 僅評估了準確性,未考慮流暢性、推理能力等其他維度;
4. 對“禮貌”與“粗魯”的定義基于特定語言提示,可能未涵蓋所有語用或文化差異。
7. 倫理考量
我們發現粗魯提示可能提升模型準確性,但我們不提倡在實際應用中使用侮辱性或敵對語言。這樣的界面可能對用戶體驗、包容性和社會溝通規范造成負面影響。我們呼吁未來研究探索非敵對、非侮辱性的提示方式,以實現性能與用戶體驗的平衡。
掃碼邀請進群,我們帶你一起來玩轉ChatGPT、GPT-4、文心一言、通義千問、訊飛星火等AI大模型,順便學一些AI搞錢技能。
往期文章回顧
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.