<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      中科院團隊突破AI誠信對齊新難題:千分之一數據實現AI誠信對齊

      0
      分享至


      這項由中科院計算技術研究所的倪世宇、畢克平、郭嘉豐、唐明昊等研究人員與華為團隊合作完成的重要研究,發表于2025年10月的預印本論文(arXiv:2510.17509v1),為解決大語言模型的誠信對齊難題提供了突破性方案。有興趣深入了解的讀者可以通過論文編號arXiv:2510.17509v1查詢完整論文。

      當前的大語言模型就像一個博學但有時過于自信的朋友,它們在回答問題時往往表現得信心滿滿,即使對答案并不確定。這種現象被稱為"過度自信"問題,就好比一個學生明明對某道題沒有把握,卻在考試時寫得非常肯定。這不僅會誤導用戶,更可能在關鍵決策中造成嚴重后果。

      研究團隊發現,現有的解決方案主要分為兩大類:一類是不需要額外訓練的方法,比如通過分析模型生成文本的概率來判斷其置信度,或者讓模型多次回答同一問題來看答案的一致性;另一類則需要大量人工標注的正確答案來訓練模型表達準確的置信度。第二類方法雖然效果更好,但成本極高,就像為了教會孩子區分對錯,需要為每道題都提供標準答案一樣費時費力。

      面對這個困境,研究團隊提出了一個巧妙的解決方案,他們稱之為"EliCal"(先激發后校準)框架。這個方法的核心思想是:如果能先用便宜的方式教會模型表達置信度,那么后續只需要少量的正確答案就能完成精確校準。

      一、兩階段訓練:化繁為簡的智慧策略

      EliCal框架的工作原理就像訓練一個優秀的醫生診斷疾病。第一階段相當于讓醫學生大量觀察病例,學會根據癥狀的一致性來判斷自己的診斷信心。如果一個患者的多個癥狀都指向同一種疾病,那就更有信心;如果癥狀相互矛盾,就應該更謹慎。這個階段使用的是"自一致性"信號,類似于讓模型對同一問題回答多次,看答案是否保持一致。

      具體來說,研究人員發現當模型對某個問題的多次回答高度一致時,它答對的概率也更高。這種現象為第一階段的訓練提供了免費的監督信號。通過大規模的自一致性訓練,模型學會了內化這種判斷規律,能夠在單次回答時就表達出準確的置信度,而不需要反復生成多個答案。

      第二階段則像是給這位已經具備基本判斷能力的醫生提供少量的確診案例,幫助其校準判斷標準。這時只需要很少的人工標注數據,就能讓模型的置信度表達與實際準確性完美對齊。

      二、創新架構:在不損害原有能力的前提下增強誠信

      為了確保訓練過程不會損害模型原有的問答能力,研究團隊采用了一種巧妙的技術架構。他們沒有直接修改模型的核心參數,而是使用了低秩適應(LoRA)技術,這就像在原有的精密機械上安裝一個小巧的傳感器,既能獲得新的感知能力,又不會影響原有功能。

      具體實現上,研究團隊在模型的最后一層添加了一個線性頭部,專門用于輸出置信度分數。這個設計使得模型能夠在回答問題之前就給出置信度預測,避免了傳統方法需要多次采樣的計算開銷。整個訓練過程使用均方誤差作為損失函數,確保模型學會準確預測自己的表現。

      三、HonestyBench基準:構建全面評估體系

      為了支持大規模研究和公平比較,研究團隊還構建了一個名為HonestyBench的綜合基準數據集。這個數據集整合了十個廣泛使用的開放式問答數據集,包含超過56萬個訓練樣本和7萬個評估樣本,覆蓋了單跳問答、多跳推理和模板生成等多種問題類型。

      HonestyBench的獨特之處在于為每個模型-問題對提供了詳細的標注信息。研究團隊使用三個代表性的開源大語言模型(Qwen2.5-7B-Instruct、Qwen2.5-14B-Instruct和Llama3-8B-Instruct)生成了大量回答,并對每個回答進行了正確性和自一致性標注。這種設計使得研究者能夠在統一標準下比較不同方法的效果。

      數據集還特別設計了域內和域外兩種評估場景。域內評估使用訓練數據集的測試集,而域外評估則引入了五個額外的問答數據集,包括SQuAD、WebQuestions等知名基準。這種設計能夠全面測試方法的泛化能力,確保研究結果的可靠性。

      四、實驗驗證:用數據說話的效果證明

      研究團隊進行了大規模的實驗驗證,結果令人印象深刻。在對比各種訓練方法時,他們發現EliCal僅使用1000個正確性標注(約占全部監督數據的0.18%)就能達到使用全部56萬個標注數據訓練的校準方法約98%的性能。這個結果就像用一把鑰匙就能打開原本需要一大串鑰匙才能打開的門。

      更重要的是,EliCal在未見過的MMLU任務上表現出了優異的泛化能力。MMLU是一個多選題基準,其問題格式與訓練時使用的開放式問答完全不同。即使在這種挑戰性場景下,EliCal訓練的模型仍然顯著優于僅使用校準方法訓練的模型,這證明了該方法學到的是更本質的置信度表達能力,而非特定任務的擬合。

      研究團隊還發現,傳統的訓練方法在數據量有限時往往表現不佳,甚至不如最好的無訓練方法。這就像試圖用很少的例子教會孩子復雜的概念,往往事倍功半。相比之下,EliCal通過兩階段設計有效解決了這個問題,在各種數據規模下都表現出色。

      五、技術細節:精心設計的實現方案

      在技術實現上,研究團隊展現了精湛的工程能力。他們使用強大的Qwen2.5-32B-Instruct模型來評估答案的正確性和語義一致性,確保標注質量的可靠性。對于答案生成,他們采用了貪婪搜索生成主答案,同時使用溫度采樣生成20個候選答案來計算自一致性信號。

      置信度的計算基于語義一致性比例,即主答案與候選答案中語義相同的比例。這種方法避免了簡單的詞匯匹配可能帶來的誤判,能夠更準確地反映模型的真實置信度。所有的語義一致性判斷都通過精心設計的提示詞完成,確保評估的準確性和一致性。

      訓練過程采用了AdamW優化器和均方誤差損失函數,批次大小設為16,梯度累積步數為8。研究團隊還使用了專門的SFTTrainer進行訓練,所有的檢查點選擇都基于域內測試集的表現,確保模型選擇的客觀性。

      六、深入分析:洞察方法成功的關鍵因素

      通過深入的消融實驗,研究團隊揭示了EliCal成功的關鍵因素。他們發現,置信度激發階段的訓練數據規模對最終效果有重要影響。隨著訓練數據的增加,模型的置信度表達能力逐步提升,最終接近自一致性方法的上限。這證明了大語言模型確實具備學習內在置信度表達的能力。

      研究團隊還測試了僅使用線性頭部的簡化版本,發現雖然這種設計參數更少,訓練更快,但表現略遜于完整的LoRA版本。這說明適度的參數增加和模型交互對于學習復雜的置信度模式是必要的。

      在評估指標方面,除了廣泛使用的AUROC(接收者操作特征曲線下面積)外,研究團隊還采用了ECE(期望校準誤差)和對齊度等多種指標。結果顯示EliCal在各種指標上都表現出色,證明了方法的全面性和可靠性。

      特別值得關注的是,EliCal學會的置信度表達能夠直接用于二元決策。通過設定合適的閾值,模型可以判斷是否應該回答某個問題,這對于實際應用中的可靠性控制具有重要意義。就像一個負責任的專家會在不確定時選擇承認"不知道",而不是給出可能錯誤的答案。

      說到底,這項研究解決的是讓AI系統變得更加誠實可信的根本問題。在AI技術日益普及的今天,模型的誠信對齊不僅是技術問題,更是關系到AI安全和可信度的重要議題。EliCal框架通過巧妙的兩階段設計,在大幅降低標注成本的同時實現了優異的性能,為構建更可靠的AI系統提供了重要技術路徑。

      這種方法的意義遠超技術層面。當AI助手能夠準確判斷自己的知識邊界時,它們就能在確定的問題上提供可靠幫助,在不確定的問題上尋求外部援助或坦誠告知用戶其局限性。這將大大提升人們對AI系統的信任,推動AI技術在關鍵應用領域的安全部署。

      研究團隊承諾將開源所有代碼、HonestyBench數據集和訓練好的模型,這將為后續研究提供寶貴資源。他們的工作為實現真正可信的通用人工智能邁出了重要一步,值得學術界和產業界的廣泛關注。

      Q&A

      Q1:EliCal框架的兩階段訓練具體是怎么工作的?

      A:EliCal的第一階段通過自一致性信號訓練模型表達置信度,就像讓模型學會根據多次回答的一致性來判斷自信程度。第二階段使用少量正確答案標注來精確校準這種置信度表達,確保模型的自信程度與實際準確性保持一致。

      Q2:為什么EliCal只需要很少的標注數據就能達到好效果?

      A:因為EliCal將置信度學習分為兩個步驟:先用免費的自一致性信號教會模型基本的置信度表達能力,然后只需少量標注數據進行微調校準。這就像先讓學生掌握基本概念,再用少量練習題精確調整,比從零開始訓練效率高得多。

      Q3:HonestyBench數據集有什么特殊之處?

      A:HonestyBench整合了10個問答數據集,包含超過56萬訓練樣本和7萬評估樣本,為每個問題都提供了正確性和自一致性雙重標注。它還設計了域內外兩種評估場景,能夠全面測試方法的泛化能力,是目前最大規模的誠信對齊評估基準。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      WOC!楊瀚森排在NBA聯盟第3...

      WOC!楊瀚森排在NBA聯盟第3...

      左右為籃
      2025-12-12 12:29:32
      “新冠疫苗之父”落馬,榮譽清零!打過三針的網友慌了

      “新冠疫苗之父”落馬,榮譽清零!打過三針的網友慌了

      胡嚴亂語
      2025-12-07 15:51:07
      苦等5年,蒙古熟鴨子還是飛了,中俄誰也不讓步,坐視大項目泡湯

      苦等5年,蒙古熟鴨子還是飛了,中俄誰也不讓步,坐視大項目泡湯

      科普100克克
      2025-12-07 18:20:34
      華人在國內的錢,想匯出來難了!

      華人在國內的錢,想匯出來難了!

      以希臘之名
      2025-12-09 18:10:47
      因中國游客減少,日本一溫泉12月損失超1800萬,現已停業

      因中國游客減少,日本一溫泉12月損失超1800萬,現已停業

      隨波蕩漾的漂流瓶
      2025-12-12 18:30:08
      解放軍進入臺海,美航母早已跑路,統一已成定局,鄭麗文開始追責

      解放軍進入臺海,美航母早已跑路,統一已成定局,鄭麗文開始追責

      朝子亥
      2025-12-12 12:00:03
      特朗普和克林頓等在列!美國民主黨陸續公開愛潑斯坦的相關照片!

      特朗普和克林頓等在列!美國民主黨陸續公開愛潑斯坦的相關照片!

      AI商業論
      2025-12-13 10:35:59
      被冤枉6年!36歲貝爾再談皇馬爭議事件:我被媒體抹黑了

      被冤枉6年!36歲貝爾再談皇馬爭議事件:我被媒體抹黑了

      葉青足球世界
      2025-12-10 21:18:51
      太炸裂了!印度首富小兒媳和大兒子被曝驚天丑聞,倆人牽手摸腰很自然

      太炸裂了!印度首富小兒媳和大兒子被曝驚天丑聞,倆人牽手摸腰很自然

      小魚愛魚樂
      2025-12-12 08:39:41
      “只要給錢什么都行”,43歲保姆的話,讓62歲的我破防了

      “只要給錢什么都行”,43歲保姆的話,讓62歲的我破防了

      新時代的兩性情感
      2025-12-03 12:59:07
      柬埔寨是世界最貧窮的國家之一,但統治該國的洪森家族卻富可敵國

      柬埔寨是世界最貧窮的國家之一,但統治該國的洪森家族卻富可敵國

      大道無形我有型
      2025-09-05 11:31:52
      WTT總決賽:孫穎莎轟11-1零封日乒黑馬,國乒包攬女單4強太強了

      WTT總決賽:孫穎莎轟11-1零封日乒黑馬,國乒包攬女單4強太強了

      寒律
      2025-12-13 10:53:35
      香港總決賽混雙四強!莎頭回應被打1-11,日本組合險勝雨果兩口子!

      香港總決賽混雙四強!莎頭回應被打1-11,日本組合險勝雨果兩口子!

      好乒乓
      2025-12-13 11:27:55
      放棄中國國籍投靠日本,結果日本不收中國不要,成為夾縫中的黑戶

      放棄中國國籍投靠日本,結果日本不收中國不要,成為夾縫中的黑戶

      牛牛叨史
      2025-12-13 02:23:07
      中國申請CPTPP4年還在門外?這3座大山比想象中更難爬

      中國申請CPTPP4年還在門外?這3座大山比想象中更難爬

      明月光
      2025-12-11 22:04:44
      被拐30年兒子認親14小時就走,全程冷臉,網友:窮家標簽太刺眼

      被拐30年兒子認親14小時就走,全程冷臉,網友:窮家標簽太刺眼

      老特有話說
      2025-12-06 17:31:27
      中國政府已經暫停大型粒子加速器計劃!

      中國政府已經暫停大型粒子加速器計劃!

      達文西看世界
      2025-12-11 17:05:23
      他們要來10000只死蚊子,把它們的嘴做成了3D打印噴頭

      他們要來10000只死蚊子,把它們的嘴做成了3D打印噴頭

      果殼
      2025-12-10 16:09:31
      明星母親導演父親,他出道16年不火,如今47歲演《大生意人》紅了

      明星母親導演父親,他出道16年不火,如今47歲演《大生意人》紅了

      查爾菲的筆記
      2025-12-10 18:11:47
      蘋果iOS 26.2正式版發布:負一屏終于不卡頓 動效Q彈絲滑

      蘋果iOS 26.2正式版發布:負一屏終于不卡頓 動效Q彈絲滑

      快科技
      2025-12-13 08:16:07
      2025-12-13 12:07:00
      科技行者 incentive-icons
      科技行者
      科技正在如何變革商業世界
      6531文章數 542關注度
      往期回顧 全部

      科技要聞

      比亞迪、小鵬、北汽,集體表態

      頭條要聞

      央媒談美新國安報告:時隔8年 美國提到中國的語氣變了

      頭條要聞

      央媒談美新國安報告:時隔8年 美國提到中國的語氣變了

      體育要聞

      有了風騷白人禿頭,忘掉談了10年的前任

      娛樂要聞

      保劍鋒方回應爭議,否認出軌贈送香水

      財經要聞

      鎂信健康闖關港交所:被指竊取商業秘密

      汽車要聞

      表面風平浪靜 內里翻天覆地!試駕銀河星艦7 EM-i

      態度原創

      游戲
      房產
      旅游
      公開課
      軍事航空

      《生化危機9》里昂保時捷座駕車牌號竟藏匿彩蛋

      房產要聞

      每日狂增1300+企業!封關在即,海南徹底爆發!

      旅游要聞

      震撼!4000米海拔看日出云海金光萬丈

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      俄烏“和平計劃”磋商頓巴斯成焦點

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 欧美牲交a欧美在线| 无套中出极品少妇白浆| 美女露全乳无遮掩视频| 亚洲精品乱码久久久久久中文字幕| 亚洲成人性爱网| 国产va免费观看| 成安县| 久久国产精品福利一区二区三区| 亚洲精品一区二区三区蜜臀| 亚洲精品天堂成人片AV在线播放| 永久免费看mv网站入口| 会东县| 国产成人8x视频网站入口| 欧美3p两根一起进高清免费视频 | 国产无码中文| 通山县| 亚洲免费观看视频| 亚洲AV成人无码精在线| ,国产乱人伦无无码视频| 中文字幕精品熟女人妻| 亚洲中文字幕伊人久久无码 | 91热视频| 国产特级毛片aaaaaa毛片| 日韩精品久久无码中文字幕| 久久久久久久久18禁秘| 国产资源网| 亚洲第一成人网站| 日韩无码专区| 欧美另类潮喷| 国产乡下妇女做爰视频| 亚洲中文自拍| 国产办公室秘书无码精品99| 成人A级片| 图片区小说区激情区偷拍区| 国产av一区二区三区天堂综合网| 国产精品99久久久久久宅男| 国产区图片区小说区亚洲区| 久久人妻少妇嫩草av无码专区| √天堂资源地址在线官网| 使劲快高潮了国语对白在线| 国产九九在线观看|