<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      最近研究:對 AI 越粗魯,回答越準確(附報告全文)

      0
      分享至

      來源|AI先鋒官

      日前,美國賓夕法尼亞州立大學發表了一篇名為《注意你的語氣:探究提示語禮貌程度如何影響大語言模型的準確性》的學術研究報告。

      報告指出,與預期相反,(對AI 大模型)粗魯提示的表現始終優于禮貌提示”。


      研究小組構建了一個包含 50個 基礎問題的數據集,涵蓋數學、科學、歷史等多個領域。

      然后,他們把每一個問題,都精心改寫成了 5種 不同的語氣——從“非常禮貌”到“非常粗魯”,總共創造了 250個 獨特的提示詞。

      據此, 基于ChatGPT-4o對這些提示進行評估,并采用配對樣本t檢驗評估統計顯著性。

      結果出乎了所有人的意料!

      用“非常有禮貌”的提示詞,得到了 80.8% 的準確率;而當用“非常粗魯”、最直接的命令式語氣時,準確率飆升到了 84.8%!

      這意味著,每向AI提100個問題里,如果你太客氣,它就會把4個本該答對的答案,變成錯誤答案!

      以下為研究報告全文:

      《Mind Your Tone: Investigating How Prompt Politeness Affects LLM Accuracy》

      注意你的語氣:探究提示語禮貌程度如何影響大語言模型的準確性(短文)

      作者:Om Dobariya1,Akhil Kumar1

      1賓夕法尼亞州立大學帕克分校

      摘要

      已有研究表明,自然語言提示的措辭會影響大語言模型(LLM)的表現,但語氣和禮貌程度的作用仍未被充分探索。本研究探討了提示語禮貌程度對模型在多項選擇題上準確性的影響。

      我們構建了一個包含50道基礎問題的數據集,涵蓋數學、科學和歷史領域,每道題被改寫為五種語氣變體:非常禮貌、禮貌、中性、粗魯和非常粗魯,共生成250個獨特提示。我們使用ChatGPT-4o對這些提示進行評估,并采用配對樣本t檢驗評估統計顯著性。

      與預期相反,粗魯提示的表現始終優于禮貌提示,準確率從“非常禮貌”的80.8%到“非常粗魯”的84.8%不等。

      這些發現與早期認為粗魯會導致表現下降的研究不同,表明新一代LLM對語氣變化的響應可能不同。我們的結果強調了研究提示語用特征的重要性,并引發了關于人機交互社會維度的更廣泛思考。

      1. 引言

      生成式人工智能和自然語言處理(NLP)的興起為跨領域任務自動化帶來了新的可能性,極大地提升了生產力。大語言模型(LLM)在許多高難度任務上的表現常常超越人類。由于其龐大的訓練數據和復雜的模型架構,LLM無需特定任務微調即可展現出類比推理等人類認知核心能力。

      由于這些強大的LLM通過自然語言接口進行交互,輸入提示的微小差異(即“提示語”)會顯著影響輸出質量(如準確性、長度、連貫性等)。因此,一個名為“提示工程”的新研究領域應運而生,旨在研究不同提示設計對模型響應的影響,并優化提示以獲得最佳結果。

      近年來,提示工程研究已涉及提示結構、風格、語言等因素對結果質量的影響。其中一個因素是提示語中的禮貌程度。

      已有研究表明,不同禮貌程度的提示會在多語言和多任務場景中對模型準確性產生顯著影響。本研究重新審視這一問題,使用50道四選一的多項選擇題作為基礎數據集,每道題被改寫為五種禮貌程度變體(非常禮貌、禮貌、中性、粗魯、非常粗魯),共250道題。我們將這些題目輸入ChatGPT-4o,分析不同語氣對模型表現的影響。

      2. 背景與相關工作

      自OpenAI于2022年11月發布ChatGPT-3.5以來,人工智能成為家喻戶曉的名詞。LLM通常以文本提示為輸入并輸出文本,隨著技術進步,它們也能處理多種數據模態,因此也被稱為多模態模型。

      隨著這一強大工具的出現,人們開始探索如何最大化其輸出效果,這催生了“提示工程”——即研究如何設計提示以獲得最佳模型響應。常見的提示工程方法包括“零樣本”(zero-shot)和“少樣本”(few-shot)提示等。

      Yin等人(2024)發現,“粗魯提示往往導致表現下降,但過度禮貌的語言也不一定能帶來更好的結果。”他們的研究基于多項選擇題,并以答題準確性為評估標準。本文試圖驗證這一結論,并構建了自己的數據集,測試提示禮貌程度是否會影響ChatGPT-4o等模型的表現。

      3. 數據集構建與研究方法

      我們使用ChatGPT的“深度研究”功能生成了50道基礎多項選擇題,涵蓋數學、歷史和科學等領域。每道題設有四個選項,難度中等偏高,常需多步推理。為引入語氣變量,每道題被改寫為五種語氣變體,從“非常禮貌”到“非常粗魯”,共生成250個獨特提示。

      我們將這些題目輸入LLM,并使用Python腳本進行評估。每道題都附帶如下指令:

      “完全忘記之前的對話內容,重新開始。請回答以下多項選擇題。僅回答正確選項的字母(A、B、C或D),不要解釋。”

      每道題獨立處理,以確保評估一致性。我們還使用“深度研究”功能生成了每道題的標準答案,用于判斷模型回答是否正確。數據集可通過匿名GitHub鏈接獲取。

      我們定義了五種語氣等級,其中中性提示不包含“請”等禮貌用語,也不包含侮辱性語言。以下是其中一個基礎題的示例及其五種語氣前綴:

      基礎題:

      杰克把他一半的錢給了弟弟,然后花了5美元,最后剩下10美元。他最初有多少錢?


      4. 實驗結果與分析

      我們將程序運行五次,每次使用不同語氣。每道題目通過API發送給ChatGPT-4o,并解析其返回的答案字母。以下是示例提示:

      完全忘記之前的對話內容,重新開始。

      請回答以下多項選擇題。僅回答正確選項的字母(A、B、C或D),不要解釋。

      您能否好心解答以下問題:兩個雜合子(Aa)父母生下一個孩子,孩子是隱性表型(aa)的概率是多少?

      A) 0%

      B) 25%

      C) 50%

      D) 75%

      為判斷不同語氣是否對準確性有顯著影響,我們使用配對樣本t檢驗。每種語氣運行10次,記錄準確率,并進行配對比較。零假設為兩種語氣的平均準確率無差異。

      配對樣本t檢驗結果(α ≤ 0.05)


      五種語氣的平均準確率(10次運行)


      結果表明,語氣確實對模型準確性有顯著影響。粗魯語氣(尤其是非常粗魯)顯著優于禮貌語氣。

      5. 討論與結論

      本文評估了ChatGPT-4o在不同語氣提示下的表現。結果顯示,語氣對模型準確性有顯著影響。令人驚訝的是,粗魯語氣反而帶來更好的結果。

      Yin等人(2024)曾指出,粗魯提示往往導致準確率下降,但我們的實驗結果與他們的部分結論不同。例如,他們在ChatGPT-4上的實驗顯示,最粗魯提示的準確率為76.47%,而最禮貌提示為75.82%,差異不大。

      我們也指出,不同研究對“粗魯”的定義不同。Yin等人使用的粗魯提示包括“Answer this question you scumbag!”,而我們使用的是“You poor creature, do you even know how to solve this?”這可能是導致結果差異的原因之一。

      我們還初步測試了Claude和ChatGPT-o3,發現ChatGPT-o3表現更佳,可能更不受語氣影響。

      6. 研究局限

      本研究存在以下局限:

      1. 數據集較小(50道題,250個變體),可能影響結果的普適性;

      2. 主要基于ChatGPT-4o,其他模型的響應可能不同;

      3. 僅評估了準確性,未考慮流暢性、推理能力等其他維度;

      4. 對“禮貌”與“粗魯”的定義基于特定語言提示,可能未涵蓋所有語用或文化差異。

      7. 倫理考量

      我們發現粗魯提示可能提升模型準確性,但我們不提倡在實際應用中使用侮辱性或敵對語言。這樣的界面可能對用戶體驗、包容性和社會溝通規范造成負面影響。我們呼吁未來研究探索非敵對、非侮辱性的提示方式,以實現性能與用戶體驗的平衡。

      掃碼邀請進群,我們帶你一起來玩轉ChatGPT、GPT-4、文心一言、通義千問、訊飛星火等AI大模型,順便學一些AI搞錢技能。

      往期文章回顧

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      思想配得上苦難

      思想配得上苦難

      求實處
      2026-01-26 22:20:03
      在盒馬app買鮮百合被誤送成水仙球,北京祖孫二人誤食中毒后進醫院,盒馬回應

      在盒馬app買鮮百合被誤送成水仙球,北京祖孫二人誤食中毒后進醫院,盒馬回應

      瀟湘晨報
      2026-01-27 18:01:05
      特朗普果然別有用心,美軍準備2套“萬全”方案,用來對付誰?

      特朗普果然別有用心,美軍準備2套“萬全”方案,用來對付誰?

      空天力量
      2026-01-27 13:07:41
      全國9地取消固定分時電價

      全國9地取消固定分時電價

      財聯社
      2026-01-27 13:58:05
      全球唯一!阿富汗官宣永久禁止女性入學,220萬女孩夢碎!

      全球唯一!阿富汗官宣永久禁止女性入學,220萬女孩夢碎!

      老馬拉車莫少裝
      2026-01-27 12:56:30
      上映27天被觀眾趕出院線!網播也救不了它,事實證明爛片已無市場

      上映27天被觀眾趕出院線!網播也救不了它,事實證明爛片已無市場

      娛樂圈筆娛君
      2026-01-27 09:40:32
      中央批準:省級黨委常委跨省履新!近日,五個省級黨委領導班子調整

      中央批準:省級黨委常委跨省履新!近日,五個省級黨委領導班子調整

      上觀新聞
      2026-01-26 22:42:05
      退臟衣女記者全網社死!單位通報,正臉曝光,山東文旅評論區淪陷

      退臟衣女記者全網社死!單位通報,正臉曝光,山東文旅評論區淪陷

      烏娛子醬
      2026-01-27 16:38:27
      赫爾松俄軍主動后撤,美國會對川普強吞格陵蘭發出彈劾通牒

      赫爾松俄軍主動后撤,美國會對川普強吞格陵蘭發出彈劾通牒

      史政先鋒
      2026-01-27 19:58:21
      餐館招牌寫“免費加面”,男子二次續面時被要求付3元,還遭言語歧視?多方回應

      餐館招牌寫“免費加面”,男子二次續面時被要求付3元,還遭言語歧視?多方回應

      瀟湘晨報
      2026-01-27 22:22:52
      14歲陳佳銘已昏迷超30天,上海專家會診后,確認無生還希望

      14歲陳佳銘已昏迷超30天,上海專家會診后,確認無生還希望

      離離言幾許
      2026-01-26 16:15:54
      白銀瘋漲超150%,郎咸平熱評:只是一場針對中國的金融圍獵

      白銀瘋漲超150%,郎咸平熱評:只是一場針對中國的金融圍獵

      凡知
      2026-01-27 18:12:39
      普雷蒂被殺事件持續發酵升溫,可能成為特朗普政治生命滑鐵盧

      普雷蒂被殺事件持續發酵升溫,可能成為特朗普政治生命滑鐵盧

      劉耘博士
      2026-01-27 08:40:05
      要打就打痛!中國手段已升級,日本:中方不批準駐重慶總領事任命

      要打就打痛!中國手段已升級,日本:中方不批準駐重慶總領事任命

      滄海旅行家
      2026-01-27 17:17:15
      紫牛頭條|大連一業主斷水400天起訴鄰居被駁回,鄰里糾紛與管道謎團陷僵局

      紫牛頭條|大連一業主斷水400天起訴鄰居被駁回,鄰里糾紛與管道謎團陷僵局

      揚子晚報
      2026-01-27 21:52:52
      特朗普:若遭暗殺,美國將把伊朗“從地球上抹去”

      特朗普:若遭暗殺,美國將把伊朗“從地球上抹去”

      揚子晚報
      2026-01-27 12:19:31
      小區內裝卸鋼化玻璃,不到一小時連發兩起事故,有傷者送醫后身亡;家屬:用工方負責人已被逮捕

      小區內裝卸鋼化玻璃,不到一小時連發兩起事故,有傷者送醫后身亡;家屬:用工方負責人已被逮捕

      大風新聞
      2026-01-27 17:10:11
      信守承諾!球迷直播吃推文:曾放話快船若打出15勝3負他就這么干

      信守承諾!球迷直播吃推文:曾放話快船若打出15勝3負他就這么干

      羅說NBA
      2026-01-27 18:40:41
      “牛鬼蛇神”扎堆,春晚第二次聯排讓人大失所望,網友們坐不住了

      “牛鬼蛇神”扎堆,春晚第二次聯排讓人大失所望,網友們坐不住了

      深析古今
      2026-01-26 18:22:14
      單賽季拿3000分有多難?科比0次,詹姆斯0次,唯獨他3次

      單賽季拿3000分有多難?科比0次,詹姆斯0次,唯獨他3次

      無月可歸辛
      2026-01-27 18:21:38
      2026-01-28 01:15:00
      AI先鋒官 incentive-icons
      AI先鋒官
      AIGC大模型及應用精選與評測
      421文章數 41關注度
      往期回顧 全部

      科技要聞

      馬化騰3年年會講話透露了哪些關鍵信息

      頭條要聞

      因樓下鄰居關閉水閥女子家中斷水400天 起訴索賠被駁

      頭條要聞

      因樓下鄰居關閉水閥女子家中斷水400天 起訴索賠被駁

      體育要聞

      冒充職業球員,比賽規則還和對手現學?

      娛樂要聞

      張雨綺風波持續發酵,曝多個商務被取消

      財經要聞

      多地對壟斷行業"近親繁殖"出手了

      汽車要聞

      標配華為乾崑ADS 4/鴻蒙座艙5 華境S體驗車下線

      態度原創

      本地
      親子
      健康
      旅游
      教育

      本地新聞

      云游中國|撥開云霧,巫山每幀都是航拍大片

      親子要聞

      雙職工家庭,孩子上幼兒園后,無老人幫忙,夫妻倆能獨立帶娃嗎?

      耳石脫落為何讓人天旋地轉+惡心?

      旅游要聞

      國際郵輪先后回歸,寶山持續提升中國郵輪入境旅游第一站功能!

      教育要聞

      再創歷史新高!南京高三期末調研考劃線及成績出爐

      無障礙瀏覽 進入關懷版