<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      MIT研究:AI對人類區別對待,英語水平和學歷影響AI的回答質量

      0
      分享至


      (來源:麻省理工科技評論)

      大語言模型(LLM)一直被譽為可推動全球信息獲取民主化的工具,能夠以用戶友好的界面向任何背景和地域的人提供知識。然而,MIT 建設性傳播中心(CCC)的最新研究表明,這些 AI 系統實際上可能對那些最能從中受益的用戶表現更差。

      CCC 基于 MIT 媒體實驗室,其研究人員開展的這項研究發現,包括 OpenAI 的 GPT-4、Anthropic 的 Claude 3 Opus 和 Meta 的 Llama 3 在內的頂尖 AI 聊天機器人,有時會對英語水平較低、受教育程度較低或非美國背景的用戶提供準確性和真實性更低的回答。這些模型對上述用戶拒絕回答問題的比例也更高,在某些情況下,還會使用帶有居高臨下或說教意味的語言。

      “我們的研究動機源于 LLM 有望幫助解決全球信息獲取不平等問題的前景,”論文第一作者、MIT 斯隆管理學院技術研究員埃利諾·普爾-達揚(Elinor Poole-Dayan)表示。她以 CCC 研究員和媒體藝術與科學專業碩士生的身份主導了這項研究。“但如果不能確保對所有用戶——無論其語言、國籍或其他人口背景——安全地消除模型偏見和有害傾向,這一愿景就無從實現。”

      描述上述研究的論文《LLM 定向表現不佳對弱勢用戶的不成比例影響》已于今年 1 月在 AAAI 人工智能會議上發表。

      研究團隊測試了三款 LLM 對來自兩個數據集問題的回答方式,分別是 TruthfulQA 和 SciQ。TruthfulQA 旨在衡量模型的真實性(通過考察常見誤解和現實世界的字面真相),SciQ 則包含測試事實準確性的科學考試題目。研究人員在每個問題前附加了簡短的用戶個人簡介,并對三項特征進行了變量設置:教育水平、英語水平和原籍國。

      在三款模型和兩個數據集的所有測試中,研究人員發現,當問題來自被描述為受正規教育程度較低或非英語母語者的用戶時,模型的準確性出現顯著下滑。這一影響在同時具備這兩類特征的用戶群體中最為突出:受教育程度較低且為非英語母語者的用戶,回答質量下降幅度最大。

      研究還考察了原籍國對模型表現的影響。在對具有同等教育背景的美國、伊朗和中國用戶進行測試后,研究人員發現,Claude 3 Opus 對伊朗用戶在兩個數據集上的表現均明顯更差。

      “我們觀察到,準確性下降幅度最大的,是同時具備非英語母語者和受教育程度較低這兩項特征的用戶,”CCC 研究科學家、論文共同作者賈德·卡巴拉(Jad Kabbara)說,“這些結果表明,模型在上述用戶特征方面的負面行為效應存在疊加,令人擔憂。這意味著,大規模部署此類模型,可能將有害行為或錯誤信息傳播給那些最難以識別它們的群體。”

      最引人關注的或許是模型拒絕回答問題的頻率差異。例如,Claude 3 Opus 對受教育程度較低的非英語母語用戶的拒答率接近 11%,而在沒有用戶簡介的對照條件下,這一比例僅為 3.6%。

      研究人員對這些拒答案例進行人工分析后發現,Claude 對受教育程度較低的用戶,有 43.7% 的時間使用了帶有居高臨下、說教或嘲諷意味的語言,而對高學歷用戶,這一比例不足 1%。在某些情況下,模型甚至會模仿不流利的英語或夸張的方言。

      該模型還對來自伊朗或俄羅斯的低學歷用戶,拒絕提供某些特定主題的信息,包括核能、解剖學和歷史事件等方面的問題,盡管它能夠正確回答其他用戶提出的相同問題。

      “這是另一個跡象,表明對齊過程可能會激勵模型對特定用戶隱瞞信息,以避免潛在的誤導,盡管模型顯然知道正確答案,并會將其提供給其他用戶,”卡巴拉說。

      上述發現與人類社會認知偏見的已記錄規律相吻合。社會科學研究表明,英語母語者往往認為非母語者受教育程度較低、智力和能力較差,無論其實際專業水平如何。類似的偏見認知在教師評價非英語母語學生時也有記錄。

      “大語言模型的價值體現在其被個人大量采用以及流入該技術的巨額投資上,”媒體藝術與科學教授、CCC 主任、論文共同作者德布·羅伊(Deb Roy)表示,“這項研究提醒我們,持續評估可能悄然滲入這些系統的系統性偏見至關重要,因為這些偏見會在我們毫無察覺的情況下,對特定群體造成不公平的傷害。”

      個性化功能日益普及,使得上述問題的影響尤為值得關注,例如 ChatGPT 的記憶功能可跨對話追蹤用戶信息。這類功能存在對已處于邊緣化地位的群體實施差異化對待的風險。

      “LLM 一直被定位為促進信息獲取平等、革新個性化學習的工具,”普爾-達揚說,“但我們的研究結果表明,它們實際上可能通過系統性地向特定用戶提供錯誤信息或拒絕回答其問題,進一步加劇現有的不平等。那些最有可能依賴這些工具的人,卻可能獲得質量欠佳、失實甚至有害的信息。”

      https://news.mit.edu/2026/study-ai-chatbots-provide-less-accurate-information-vulnerable-users-0219

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      第5外援來了!朱芳雨親自官宣,杜鋒又撿到寶了,廣東爭冠穩了?

      第5外援來了!朱芳雨親自官宣,杜鋒又撿到寶了,廣東爭冠穩了?

      萌蘭聊個球
      2026-02-25 10:49:31
      李維嘉重返公眾視野,獨居生活狀態令人驚訝!

      李維嘉重返公眾視野,獨居生活狀態令人驚訝!

      舞指飛揚
      2026-02-25 09:31:33
      收評:全股民做好準備!A股變盤點來了,不出意外明天將這樣走

      收評:全股民做好準備!A股變盤點來了,不出意外明天將這樣走

      財經大拿
      2026-02-25 13:40:13
      巴拿馬賭輸了?撕毀長和租約后,中國21.4%貨運量成致命一擊

      巴拿馬賭輸了?撕毀長和租約后,中國21.4%貨運量成致命一擊

      始于初見見
      2026-02-25 07:43:24
      德國總理默茨抵達北京開始訪華,高規格經貿代表團隨行

      德國總理默茨抵達北京開始訪華,高規格經貿代表團隨行

      揚子晚報
      2026-02-25 11:18:35
      NBA|克尼佩爾創最快200記三分,哈登又添“最老紀錄”

      NBA|克尼佩爾創最快200記三分,哈登又添“最老紀錄”

      澎湃新聞
      2026-02-25 15:26:27
      3億煙民都供不起了?虧損原因是?有員工10年公積金高達96萬?

      3億煙民都供不起了?虧損原因是?有員工10年公積金高達96萬?

      貓叔東山再起
      2026-02-25 12:20:03
      歐冠16強已定12席:英超6隊全入圍!去年亞軍出局 意甲或全軍覆沒

      歐冠16強已定12席:英超6隊全入圍!去年亞軍出局 意甲或全軍覆沒

      我愛英超
      2026-02-25 06:26:28
      陳慧琳全家福刷屏!倆兒子身高超180,外甥多似舅果然是真的

      陳慧琳全家福刷屏!倆兒子身高超180,外甥多似舅果然是真的

      照亮你的前行之路
      2026-02-25 09:32:24
      一箱油可橫跨北美 本田新型小飛機賣爆:購買意向達產能10倍

      一箱油可橫跨北美 本田新型小飛機賣爆:購買意向達產能10倍

      快科技
      2026-02-24 08:21:03
      換掉原女主,陳麗君救了吳京《鏢人》!看了面試,才明白為何選她

      換掉原女主,陳麗君救了吳京《鏢人》!看了面試,才明白為何選她

      頭號電影院
      2026-02-23 13:09:53
      伊朗外長:希望在最短時間內與美國達成公平協議

      伊朗外長:希望在最短時間內與美國達成公平協議

      每日經濟新聞
      2026-02-25 07:26:59
      春節旅行,看完三亞賬單我沉默了:一家三口10天,燒掉一年血汗錢

      春節旅行,看完三亞賬單我沉默了:一家三口10天,燒掉一年血汗錢

      夜深愛雜談
      2026-02-24 22:41:54
      春節高速免費最后1分鐘:有人壓哨通過省下1000多元,也有車主從蕭山上高速后“卡點”失敗交了幾百元通行費

      春節高速免費最后1分鐘:有人壓哨通過省下1000多元,也有車主從蕭山上高速后“卡點”失敗交了幾百元通行費

      都市快報橙柿互動
      2026-02-24 09:16:26
      倆月了,一個也沒賣到中國去

      倆月了,一個也沒賣到中國去

      觀察者網
      2026-02-25 08:55:04
      芯片還沒量產,先產300個“臺積寶寶”!這產能太驚人!

      芯片還沒量產,先產300個“臺積寶寶”!這產能太驚人!

      達文西看世界
      2026-02-24 20:28:49
      WTT再爆大冷!3大世界冠軍被淘汰,日本大潰敗,國乒新星2-3出局

      WTT再爆大冷!3大世界冠軍被淘汰,日本大潰敗,國乒新星2-3出局

      籃球看比賽
      2026-02-24 15:15:56
      開油車的笑了,開電車的慌了?2026油電新政實錘,稅費規則全變了

      開油車的笑了,開電車的慌了?2026油電新政實錘,稅費規則全變了

      蜉蝣說
      2026-02-25 09:20:25
      天安門廣場上的國家博物館將在北京豐臺建分館

      天安門廣場上的國家博物館將在北京豐臺建分館

      澎湃新聞
      2026-02-25 12:54:27
      在國安局食堂吃飯時,無意發現打菜的師傅,竟是我追蹤的千面間諜

      在國安局食堂吃飯時,無意發現打菜的師傅,竟是我追蹤的千面間諜

      千秋文化
      2026-02-19 10:43:29
      2026-02-25 15:39:00
      DeepTech深科技 incentive-icons
      DeepTech深科技
      麻省理工科技評論獨家合作
      16317文章數 514652關注度
      往期回顧 全部

      科技要聞

      “機器人只跳舞,沒什么用”

      頭條要聞

      中方就涉烏克蘭問題的決議草案投棄權票 中國代表發聲

      頭條要聞

      中方就涉烏克蘭問題的決議草案投棄權票 中國代表發聲

      體育要聞

      曝雄鹿計劃今夏追小卡 字母哥渴望與其并肩作戰

      娛樂要聞

      撒貝寧到沈陽跑親戚 老婆李白模特身材

      財經要聞

      GEO亂象:誰為AI營銷的泡沫買單?

      汽車要聞

      750km超長續航 2026款小鵬X9純電版將于3月2日上市

      態度原創

      教育
      游戲
      房產
      旅游
      公開課

      教育要聞

      【調劑專區】26考研調劑信息第二彈

      八千名守望玩家聯名抗議!暴雪真把毛妹忘了?

      房產要聞

      330萬人涌入!春節全國樓市,第一個賣爆的區域出現了!

      旅游要聞

      櫻桃花開了!來烏當赴一場春暖花開之約

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版