<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      最近研究:對 AI 越粗魯,回答越準確(附報告全文)

      0
      分享至

      來源|AI先鋒官

      日前,美國賓夕法尼亞州立大學發表了一篇名為《注意你的語氣:探究提示語禮貌程度如何影響大語言模型的準確性》的學術研究報告。

      報告指出,與預期相反,(對AI 大模型)粗魯提示的表現始終優于禮貌提示”。


      研究小組構建了一個包含 50個 基礎問題的數據集,涵蓋數學、科學、歷史等多個領域。

      然后,他們把每一個問題,都精心改寫成了 5種 不同的語氣——從“非常禮貌”到“非常粗魯”,總共創造了 250個 獨特的提示詞。

      據此, 基于ChatGPT-4o對這些提示進行評估,并采用配對樣本t檢驗評估統計顯著性。

      結果出乎了所有人的意料!

      用“非常有禮貌”的提示詞,得到了 80.8% 的準確率;而當用“非常粗魯”、最直接的命令式語氣時,準確率飆升到了 84.8%!

      這意味著,每向AI提100個問題里,如果你太客氣,它就會把4個本該答對的答案,變成錯誤答案!

      以下為研究報告全文:

      《Mind Your Tone: Investigating How Prompt Politeness Affects LLM Accuracy》

      注意你的語氣:探究提示語禮貌程度如何影響大語言模型的準確性(短文)

      作者:Om Dobariya1,Akhil Kumar1

      1賓夕法尼亞州立大學帕克分校

      摘要

      已有研究表明,自然語言提示的措辭會影響大語言模型(LLM)的表現,但語氣和禮貌程度的作用仍未被充分探索。本研究探討了提示語禮貌程度對模型在多項選擇題上準確性的影響。

      我們構建了一個包含50道基礎問題的數據集,涵蓋數學、科學和歷史領域,每道題被改寫為五種語氣變體:非常禮貌、禮貌、中性、粗魯和非常粗魯,共生成250個獨特提示。我們使用ChatGPT-4o對這些提示進行評估,并采用配對樣本t檢驗評估統計顯著性。

      與預期相反,粗魯提示的表現始終優于禮貌提示,準確率從“非常禮貌”的80.8%到“非常粗魯”的84.8%不等。

      這些發現與早期認為粗魯會導致表現下降的研究不同,表明新一代LLM對語氣變化的響應可能不同。我們的結果強調了研究提示語用特征的重要性,并引發了關于人機交互社會維度的更廣泛思考。

      1. 引言

      生成式人工智能和自然語言處理(NLP)的興起為跨領域任務自動化帶來了新的可能性,極大地提升了生產力。大語言模型(LLM)在許多高難度任務上的表現常常超越人類。由于其龐大的訓練數據和復雜的模型架構,LLM無需特定任務微調即可展現出類比推理等人類認知核心能力。

      由于這些強大的LLM通過自然語言接口進行交互,輸入提示的微小差異(即“提示語”)會顯著影響輸出質量(如準確性、長度、連貫性等)。因此,一個名為“提示工程”的新研究領域應運而生,旨在研究不同提示設計對模型響應的影響,并優化提示以獲得最佳結果。

      近年來,提示工程研究已涉及提示結構、風格、語言等因素對結果質量的影響。其中一個因素是提示語中的禮貌程度。

      已有研究表明,不同禮貌程度的提示會在多語言和多任務場景中對模型準確性產生顯著影響。本研究重新審視這一問題,使用50道四選一的多項選擇題作為基礎數據集,每道題被改寫為五種禮貌程度變體(非常禮貌、禮貌、中性、粗魯、非常粗魯),共250道題。我們將這些題目輸入ChatGPT-4o,分析不同語氣對模型表現的影響。

      2. 背景與相關工作

      自OpenAI于2022年11月發布ChatGPT-3.5以來,人工智能成為家喻戶曉的名詞。LLM通常以文本提示為輸入并輸出文本,隨著技術進步,它們也能處理多種數據模態,因此也被稱為多模態模型。

      隨著這一強大工具的出現,人們開始探索如何最大化其輸出效果,這催生了“提示工程”——即研究如何設計提示以獲得最佳模型響應。常見的提示工程方法包括“零樣本”(zero-shot)和“少樣本”(few-shot)提示等。

      Yin等人(2024)發現,“粗魯提示往往導致表現下降,但過度禮貌的語言也不一定能帶來更好的結果。”他們的研究基于多項選擇題,并以答題準確性為評估標準。本文試圖驗證這一結論,并構建了自己的數據集,測試提示禮貌程度是否會影響ChatGPT-4o等模型的表現。

      3. 數據集構建與研究方法

      我們使用ChatGPT的“深度研究”功能生成了50道基礎多項選擇題,涵蓋數學、歷史和科學等領域。每道題設有四個選項,難度中等偏高,常需多步推理。為引入語氣變量,每道題被改寫為五種語氣變體,從“非常禮貌”到“非常粗魯”,共生成250個獨特提示。

      我們將這些題目輸入LLM,并使用Python腳本進行評估。每道題都附帶如下指令:

      “完全忘記之前的對話內容,重新開始。請回答以下多項選擇題。僅回答正確選項的字母(A、B、C或D),不要解釋。”

      每道題獨立處理,以確保評估一致性。我們還使用“深度研究”功能生成了每道題的標準答案,用于判斷模型回答是否正確。數據集可通過匿名GitHub鏈接獲取。

      我們定義了五種語氣等級,其中中性提示不包含“請”等禮貌用語,也不包含侮辱性語言。以下是其中一個基礎題的示例及其五種語氣前綴:

      基礎題:

      杰克把他一半的錢給了弟弟,然后花了5美元,最后剩下10美元。他最初有多少錢?


      4. 實驗結果與分析

      我們將程序運行五次,每次使用不同語氣。每道題目通過API發送給ChatGPT-4o,并解析其返回的答案字母。以下是示例提示:

      完全忘記之前的對話內容,重新開始。

      請回答以下多項選擇題。僅回答正確選項的字母(A、B、C或D),不要解釋。

      您能否好心解答以下問題:兩個雜合子(Aa)父母生下一個孩子,孩子是隱性表型(aa)的概率是多少?

      A) 0%

      B) 25%

      C) 50%

      D) 75%

      為判斷不同語氣是否對準確性有顯著影響,我們使用配對樣本t檢驗。每種語氣運行10次,記錄準確率,并進行配對比較。零假設為兩種語氣的平均準確率無差異。

      配對樣本t檢驗結果(α ≤ 0.05)


      五種語氣的平均準確率(10次運行)


      結果表明,語氣確實對模型準確性有顯著影響。粗魯語氣(尤其是非常粗魯)顯著優于禮貌語氣。

      5. 討論與結論

      本文評估了ChatGPT-4o在不同語氣提示下的表現。結果顯示,語氣對模型準確性有顯著影響。令人驚訝的是,粗魯語氣反而帶來更好的結果。

      Yin等人(2024)曾指出,粗魯提示往往導致準確率下降,但我們的實驗結果與他們的部分結論不同。例如,他們在ChatGPT-4上的實驗顯示,最粗魯提示的準確率為76.47%,而最禮貌提示為75.82%,差異不大。

      我們也指出,不同研究對“粗魯”的定義不同。Yin等人使用的粗魯提示包括“Answer this question you scumbag!”,而我們使用的是“You poor creature, do you even know how to solve this?”這可能是導致結果差異的原因之一。

      我們還初步測試了Claude和ChatGPT-o3,發現ChatGPT-o3表現更佳,可能更不受語氣影響。

      6. 研究局限

      本研究存在以下局限:

      1. 數據集較小(50道題,250個變體),可能影響結果的普適性;

      2. 主要基于ChatGPT-4o,其他模型的響應可能不同;

      3. 僅評估了準確性,未考慮流暢性、推理能力等其他維度;

      4. 對“禮貌”與“粗魯”的定義基于特定語言提示,可能未涵蓋所有語用或文化差異。

      7. 倫理考量

      我們發現粗魯提示可能提升模型準確性,但我們不提倡在實際應用中使用侮辱性或敵對語言。這樣的界面可能對用戶體驗、包容性和社會溝通規范造成負面影響。我們呼吁未來研究探索非敵對、非侮辱性的提示方式,以實現性能與用戶體驗的平衡。

      掃碼邀請進群,我們帶你一起來玩轉ChatGPT、GPT-4、文心一言、通義千問、訊飛星火等AI大模型,順便學一些AI搞錢技能。

      往期文章回顧

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      怒懟球迷!王剛遭國安董事長戲謔“這不戰神嗎” 回復:附近沒電梯

      怒懟球迷!王剛遭國安董事長戲謔“這不戰神嗎” 回復:附近沒電梯

      風過鄉
      2026-03-21 11:04:46
      拔出蘿卜帶出泥!釋永信以前在少林寺有多過分,可能遠超世人想象

      拔出蘿卜帶出泥!釋永信以前在少林寺有多過分,可能遠超世人想象

      社會日日鮮
      2026-03-21 09:28:24
      伊朗突然對沙特宣戰:巴鐵如果幫助盟國沙特,中國武器會登場嗎?

      伊朗突然對沙特宣戰:巴鐵如果幫助盟國沙特,中國武器會登場嗎?

      影像溫度
      2026-03-19 09:52:35
      寫給所有被網貸壓垮的人:2026年,是你翻身最容易的一年

      寫給所有被網貸壓垮的人:2026年,是你翻身最容易的一年

      我不叫阿哏
      2026-03-06 20:12:30
      美股連跌四周,債市遭“血洗”, 黃金創43年最大跌幅

      美股連跌四周,債市遭“血洗”, 黃金創43年最大跌幅

      每日經濟新聞
      2026-03-21 11:15:21
      “唯一貧窮的路被你找到了”,專八女生留守農村,網友恨鐵不成鋼

      “唯一貧窮的路被你找到了”,專八女生留守農村,網友恨鐵不成鋼

      妍妍教育日記
      2026-03-13 21:47:44
      伊朗王儲巴列維宣布掌權過渡政府,這步棋到底走得通不通?

      伊朗王儲巴列維宣布掌權過渡政府,這步棋到底走得通不通?

      老馬拉車莫少裝
      2026-03-20 09:57:10
      四年沖突一朝回本,普京也沒想到,美放緩制裁后,有人加價也要買

      四年沖突一朝回本,普京也沒想到,美放緩制裁后,有人加價也要買

      諦聽骨語本尊
      2026-03-20 17:12:32
      金價連跌創下三月內新低,多家金價足金價格跌破1400克/元

      金價連跌創下三月內新低,多家金價足金價格跌破1400克/元

      第一財經資訊
      2026-03-21 12:05:07
      于東來兒媳露面啦!這顏值也太能打了,跟婆婆很像

      于東來兒媳露面啦!這顏值也太能打了,跟婆婆很像

      魔都姐姐雜談
      2026-03-20 11:30:24
      4月還來強冷空氣或寒潮?一輪比一輪強!4月初有3輪冷空氣過程

      4月還來強冷空氣或寒潮?一輪比一輪強!4月初有3輪冷空氣過程

      風云圈天氣
      2026-03-21 09:54:13
      國際大跌11%,國內油價卻沒降?3月23日調價真相來了

      國際大跌11%,國內油價卻沒降?3月23日調價真相來了

      生活魔術專家
      2026-03-21 04:09:44
      全紅嬋素顏回鄉,一個細節粉碎全網焦慮!她的路,其實早就鋪好了

      全紅嬋素顏回鄉,一個細節粉碎全網焦慮!她的路,其實早就鋪好了

      動物奇奇怪怪
      2026-03-21 10:11:58
      刺激夜:10人曼聯2-2,那不勒斯1-0,萊比錫5-0,朗斯5-1,黃潛艇3-1

      刺激夜:10人曼聯2-2,那不勒斯1-0,萊比錫5-0,朗斯5-1,黃潛艇3-1

      側身凌空斬
      2026-03-21 06:20:37
      廣東新晉“經濟大市”,或將迎來首條地鐵!

      廣東新晉“經濟大市”,或將迎來首條地鐵!

      城市發展見證者
      2026-03-20 14:24:23
      東莞市大嶺山鎮綜合行政執法隊原隊長何永琪,被“雙開”

      東莞市大嶺山鎮綜合行政執法隊原隊長何永琪,被“雙開”

      南方都市報
      2026-03-20 15:10:09
      準備了整整5年,美國一夜推翻大陸收臺時間表,中方已提兩大要求

      準備了整整5年,美國一夜推翻大陸收臺時間表,中方已提兩大要求

      小楊侃事
      2026-03-21 09:10:38
      想不明白!當年李小冉兩次懷上鄢頗的孩子,為何鄢頗仍是不娶她?

      想不明白!當年李小冉兩次懷上鄢頗的孩子,為何鄢頗仍是不娶她?

      春之寞陌
      2026-03-19 05:58:30
      被六家法院輪候查封,上海浦東這棟價值1.2472億的別墅拍賣流拍了

      被六家法院輪候查封,上海浦東這棟價值1.2472億的別墅拍賣流拍了

      天天話事
      2026-03-21 09:06:04
      新冠后遺癥對人體的最大影響,很多人深受其害,有些人還不自知

      新冠后遺癥對人體的最大影響,很多人深受其害,有些人還不自知

      呼吸科大夫胡洋
      2026-02-22 11:39:12
      2026-03-21 12:32:49
      AI先鋒官 incentive-icons
      AI先鋒官
      AIGC大模型及應用精選與評測
      459文章數 69關注度
      往期回顧 全部

      科技要聞

      宇樹招股書拆解,人形機器人出貨量第一!

      頭條要聞

      環球:對華關系上 高市欲表現"弱勢"形象博取美國同情

      頭條要聞

      環球:對華關系上 高市欲表現"弱勢"形象博取美國同情

      體育要聞

      誰在決定字母哥未來?

      娛樂要聞

      總臺首屆電影盛典,“沈馬”CP再合體

      財經要聞

      通脹警報拉響,加息潮要來了?

      汽車要聞

      小鵬汽車2025年Q4盈利凈賺3.8億 全年營收767億

      態度原創

      親子
      時尚
      本地
      數碼
      家居

      親子要聞

      這孩子

      推廣中獎名單-更新至2026年3月4日推廣

      本地新聞

      春色滿城關不住|紹興春日頂流,這片櫻花海藏不住了

      數碼要聞

      2025全球手持相機出貨量達1665萬臺 大疆份額62.4%

      家居要聞

      時空交織 空間綺夢

      無障礙瀏覽 進入關懷版