<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

      人類基準(zhǔn)測(cè)試大翻車:樣本不足、方法不透明,AI性能結(jié)論可信嗎?

      0
      分享至


      來源:DeepTech深科技

      運(yùn)營(yíng)/排版:何晨龍

      我們經(jīng)常在一些對(duì)比 AI 性能的測(cè)試中,看到宣稱基礎(chǔ)模型在自然語(yǔ)言理解、推理或編程任務(wù)等性能超人類的相關(guān)報(bào)道。

      但你有沒有想過,這些結(jié)果真的可信嗎?

      在近期的一項(xiàng)研究中,美國(guó)哈佛大學(xué)研究員魏來(Kevin Wei)與合作者指出,目前人類基準(zhǔn)測(cè)試(Human Baselines)的嚴(yán)謹(jǐn)性和透明度存在一系列嚴(yán)重問題,這直接關(guān)系著相關(guān)測(cè)試中關(guān)于 AI 性能的結(jié)論是否“立得住”的問題。

      為此,研究人員對(duì)基礎(chǔ)模型評(píng)估中人類基線方法提出了相關(guān)的改進(jìn)建議。與此同時(shí),為全面梳理當(dāng)前評(píng)估方法的短板,他們還系統(tǒng)回顧了 115 項(xiàng)人類基線研究。

      相關(guān)論文以《立場(chǎng):模型評(píng)估中的人類基線需要嚴(yán)謹(jǐn)性和透明性》(Position: Human Baselines in Model Evaluations Need Rigor and Transparency)為題發(fā)表在 ICML 2025(The Forty-Second International Conference on Machine Learning)[1]。


      圖丨相關(guān)論文(來源:ICML)

      長(zhǎng)期以來,人類基準(zhǔn)測(cè)試作為 AI 領(lǐng)域評(píng)估模型性能的重要工具,直接影響著對(duì) AI 基礎(chǔ)模型表現(xiàn)的判斷,尤其是為 AI 達(dá)到超人類的水平相關(guān)結(jié)論是否可靠提供關(guān)鍵參考。

      魏來目前的主要研究方向是 AI 評(píng)估測(cè)試,致力于將安全測(cè)試的系統(tǒng)做得更安全,以及將相關(guān)機(jī)制做得更好。他對(duì) DeepTech 表示:“我們?cè)谘芯窟^程中發(fā)現(xiàn),當(dāng)下很多聲稱模型達(dá)到超人類性能的研究,其人類基線評(píng)估方法不僅嚴(yán)謹(jǐn)性不夠,透明度也不足。這會(huì)導(dǎo)致人類和 AI 性能的比較缺乏可信性。”


      圖丨魏來(來源:魏來)

      人類基準(zhǔn)測(cè)試結(jié)果是否可信關(guān)系著對(duì)系統(tǒng)層級(jí)的理解,以及對(duì)人類的層級(jí)準(zhǔn)確比較。相關(guān)結(jié)論不僅影響著機(jī)器學(xué)習(xí)社區(qū)、相關(guān)用戶和政策制定者,還與 AI 是否能代替、如何替代人類工作等社會(huì)和經(jīng)濟(jì)問題密切相關(guān)。


      表丨基線設(shè)計(jì)與實(shí)施項(xiàng)目(含數(shù)據(jù)填補(bǔ))的匯總統(tǒng)計(jì)(來源:ICML)

      研究人員發(fā)現(xiàn),在以往研究中最大的問題是所選取作為基線缺乏代表性,或在進(jìn)行基線測(cè)試時(shí),為基線測(cè)試人員和網(wǎng)絡(luò)系統(tǒng)提供的信息存在差異:要么對(duì)二者所提出的問題不同,要么在某些方面存在差異,使得二者之間難以進(jìn)行有效比較。

      讓人意外的是,只有 59% 的基線使用與 AI 相同的測(cè)試集。舉例來說,某個(gè)數(shù)據(jù)中有 1,000 個(gè)樣本,然后研究人員可能僅從中選 50 個(gè)樣本作為基線,再將這 50 個(gè)人類的層級(jí)與 1,000 個(gè) AI 系統(tǒng)的場(chǎng)景做對(duì)比。

      除此之外,人類基線的樣本量普遍不足也是極為重要的問題,這會(huì)導(dǎo)致無法據(jù)此判斷這一結(jié)果是否能夠代表更廣泛人群。其中,以單個(gè)測(cè)試題目計(jì)算,人類基線的回應(yīng)者人數(shù)中位數(shù)僅有 8 人,遠(yuǎn)低于科學(xué)研究的可靠性要求。

      另一方面,倫理審查報(bào)告方面,只有 14% 的論文報(bào)告了倫理審查,其中大部分研究并沒有公開測(cè)試方法、參與者信息和數(shù)據(jù)分析代碼。在統(tǒng)計(jì)檢驗(yàn)使用方面的問題同樣嚴(yán)重,進(jìn)行統(tǒng)計(jì)檢驗(yàn)的基線只有 8%。

      “我們發(fā)現(xiàn),這種在人類基準(zhǔn)測(cè)試過程中普遍存在信息不透明的做法,在影響結(jié)果可重復(fù)性的同時(shí),也很有可能存在潛在的偏差。”魏來表示。


      圖丨建立可靠且透明的人類基線數(shù)據(jù)的五個(gè)階段和相關(guān)建議(來源:ICML)

      基于對(duì)測(cè)量理論和 AI 評(píng)估文獻(xiàn)的分析,該團(tuán)隊(duì)提出了一個(gè)新的框架來改進(jìn)相關(guān)問題,其涵蓋五個(gè)階段并在每個(gè)階段給出了相關(guān)建議。

      具體而言:

      ·設(shè)計(jì)與實(shí)施(Design&Implementation):選擇一致且具有代表性的測(cè)試集,迭代基線工具,收集足夠大小的樣本和滿足倫理要求;

      ·招募(Recruitment):指定感興趣的人群,選擇適當(dāng)?shù)某闃硬呗裕谡心歼^程中采用質(zhì)量控制;

      ·執(zhí)行(Execution):在執(zhí)行過程中采用質(zhì)量控制,控制方法效應(yīng),控制人類和 AI 的努力程度,收集定性基線數(shù)據(jù)(例如解釋);

      ·分析(Analysis):量化人類和 AI 表現(xiàn)之間的不確定性,確保評(píng)估指標(biāo)、評(píng)分標(biāo)準(zhǔn)和評(píng)分方法的一致性;

      ·文檔化(Documentation):報(bào)告方法和基線樣本的詳細(xì)信息,采用開放科學(xué)和可重復(fù)性標(biāo)準(zhǔn)。

      根據(jù)相關(guān)建議,在設(shè)計(jì)人類基線時(shí),可采用更科學(xué)的方法來確保公平性和準(zhǔn)確性。例如,研究人員借鑒了包括心理學(xué)、經(jīng)濟(jì)學(xué)、政治學(xué)等在內(nèi)的多學(xué)科知識(shí),為 AI 和人類性能的比較提供了新的視角。研究還強(qiáng)調(diào)了透明度的重要性,指出基于詳細(xì)的記錄和報(bào)告,可促進(jìn)研究結(jié)果更可信。

      研究人員將這些建議整合成一份清單,并在此基礎(chǔ)上系統(tǒng)性地回顧了 115 項(xiàng)基礎(chǔ)模型評(píng)估中的人類基線研究。這項(xiàng)研究不僅梳理出當(dāng)下人類基準(zhǔn)測(cè)試方法中存在的不足,同時(shí)也為未來研究特別是數(shù)學(xué)領(lǐng)域 AI 技術(shù)的評(píng)估指出了改進(jìn)方向。

      參考資料:

      1.https://openreview.net/forum?id=gwhPvu97Gm

      閱讀最新前沿科技趨勢(shì)報(bào)告,請(qǐng)?jiān)L問歐米伽研究所的“未來知識(shí)庫(kù)”

      https://wx.zsxq.com/group/454854145828


      未來知識(shí)庫(kù)是“ 歐米伽 未來研究所”建立的在線知識(shí)庫(kù)平臺(tái),收藏的資料范圍包括人工智能、腦科學(xué)、互聯(lián)網(wǎng)、超級(jí)智能,數(shù)智大腦、能源、軍事、經(jīng)濟(jì)、人類風(fēng)險(xiǎn)等等領(lǐng)域的前沿進(jìn)展與未來趨勢(shì)。目前擁有超過8000篇重要資料。每周更新不少于100篇世界范圍最新研究資料。 歡迎掃描二維碼或訪問https://wx.zsxq.com/group/454854145828進(jìn)入。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      前Google工程師因向中國(guó)公司竊取AI商業(yè)機(jī)密被判罪名成立 面臨數(shù)十年刑期

      前Google工程師因向中國(guó)公司竊取AI商業(yè)機(jī)密被判罪名成立 面臨數(shù)十年刑期

      cnBeta.COM
      2026-01-30 14:10:11
      公布:2025年,臺(tái)灣GDP增長(zhǎng)8.63%,創(chuàng)15年新高!人均多少?

      公布:2025年,臺(tái)灣GDP增長(zhǎng)8.63%,創(chuàng)15年新高!人均多少?

      王爺說圖表
      2026-01-30 17:09:04
      東契奇僅用時(shí)18分鐘便取得三雙,創(chuàng)造湖人隊(duì)史最快紀(jì)錄

      東契奇僅用時(shí)18分鐘便取得三雙,創(chuàng)造湖人隊(duì)史最快紀(jì)錄

      懂球帝
      2026-01-31 09:25:05
      烏克蘭捐款平臺(tái)收到大量來自中國(guó)民間機(jī)構(gòu)和個(gè)人的捐款

      烏克蘭捐款平臺(tái)收到大量來自中國(guó)民間機(jī)構(gòu)和個(gè)人的捐款

      深度報(bào)
      2026-01-30 19:27:35
      逼急了?網(wǎng)約車司機(jī)將車子開到幾百公里外深山,公司找到車時(shí)已被鋼筋插土、膠水粘牢!

      逼急了?網(wǎng)約車司機(jī)將車子開到幾百公里外深山,公司找到車時(shí)已被鋼筋插土、膠水粘牢!

      網(wǎng)約車觀察室
      2026-01-29 10:13:36
      國(guó)際金價(jià)銀價(jià)繼續(xù)大幅下跌

      國(guó)際金價(jià)銀價(jià)繼續(xù)大幅下跌

      澎湃新聞
      2026-01-31 03:58:08
      盒馬“錯(cuò)配”致顧客誤食水仙中毒,高速擴(kuò)張下品控隱憂凸顯

      盒馬“錯(cuò)配”致顧客誤食水仙中毒,高速擴(kuò)張下品控隱憂凸顯

      新民周刊
      2026-01-30 15:18:50
      500公里送發(fā)動(dòng)機(jī)車主社死!正臉照被扒,警方介入4s店卻囂張發(fā)言

      500公里送發(fā)動(dòng)機(jī)車主社死!正臉照被扒,警方介入4s店卻囂張發(fā)言

      青橘罐頭
      2026-01-29 08:57:13
      俄羅斯重新將14名日本人列為戰(zhàn)犯

      俄羅斯重新將14名日本人列為戰(zhàn)犯

      界面新聞
      2026-01-31 07:18:15
      火車新規(guī)2026正式執(zhí)行!禁帶品、實(shí)名制升級(jí),這些坑千萬(wàn)別踩

      火車新規(guī)2026正式執(zhí)行!禁帶品、實(shí)名制升級(jí),這些坑千萬(wàn)別踩

      復(fù)轉(zhuǎn)這些年
      2026-01-30 23:33:48
      家委會(huì)負(fù)責(zé)人要求成員幫收每生263.3元費(fèi)用,還稱交自己再換成現(xiàn)金給班主任,使用明細(xì)不能公示,有家長(zhǎng)報(bào)警

      家委會(huì)負(fù)責(zé)人要求成員幫收每生263.3元費(fèi)用,還稱交自己再換成現(xiàn)金給班主任,使用明細(xì)不能公示,有家長(zhǎng)報(bào)警

      大風(fēng)新聞
      2026-01-30 23:33:14
      古特雷斯:聯(lián)合國(guó)面臨財(cái)政崩潰 資金可能在7月前耗盡

      古特雷斯:聯(lián)合國(guó)面臨財(cái)政崩潰 資金可能在7月前耗盡

      每日經(jīng)濟(jì)新聞
      2026-01-31 07:38:32
      2026年度首次!俄烏時(shí)隔40日再次交換士兵遺體,比例高達(dá)1000:38

      2026年度首次!俄烏時(shí)隔40日再次交換士兵遺體,比例高達(dá)1000:38

      碳基生物關(guān)懷組織
      2026-01-30 23:33:37
      蓋茨被曝感染性病,并向妻子隱瞞

      蓋茨被曝感染性病,并向妻子隱瞞

      大風(fēng)新聞
      2026-01-31 10:34:05
      拒崩盤!快船落后13分反撲追分:哈登單節(jié)11分,約基奇復(fù)出14+8

      拒崩盤!快船落后13分反撲追分:哈登單節(jié)11分,約基奇復(fù)出14+8

      體壇小李
      2026-01-31 11:11:11
      大打出手!4次奪權(quán)恐遭CBA重罰,球迷吵作一團(tuán):落后方憑啥不能投

      大打出手!4次奪權(quán)恐遭CBA重罰,球迷吵作一團(tuán):落后方憑啥不能投

      后仰大風(fēng)車
      2026-01-31 07:05:08
      東契奇37分11板13助攻湖人戰(zhàn)勝奇才,勒布朗20分6助攻

      東契奇37分11板13助攻湖人戰(zhàn)勝奇才,勒布朗20分6助攻

      湖人崛起
      2026-01-31 10:17:30
      楊瀚森無得分開拓者不敵尼克斯4連敗,布倫森26分唐斯14分20板

      楊瀚森無得分開拓者不敵尼克斯4連敗,布倫森26分唐斯14分20板

      湖人崛起
      2026-01-31 10:54:20
      潢川縣委常委、副縣長(zhǎng)李慶松主動(dòng)投案接受紀(jì)律審查和監(jiān)察調(diào)查

      潢川縣委常委、副縣長(zhǎng)李慶松主動(dòng)投案接受紀(jì)律審查和監(jiān)察調(diào)查

      大象新聞
      2026-01-31 09:17:14
      官媒怒批!吳京新片《鏢人》未映先爆雷,30人8個(gè)頭銜太荒唐!

      官媒怒批!吳京新片《鏢人》未映先爆雷,30人8個(gè)頭銜太荒唐!

      史行途
      2026-01-30 09:43:04
      2026-01-31 12:36:49
      人工智能學(xué)家 incentive-icons
      人工智能學(xué)家
      人工智能領(lǐng)域權(quán)威媒體
      4511文章數(shù) 37400關(guān)注度
      往期回顧 全部

      科技要聞

      中國(guó)車企和特斯拉的下一戰(zhàn),戰(zhàn)場(chǎng)已定

      頭條要聞

      愛潑斯坦案最新猛料:蓋茨與俄女子發(fā)生關(guān)系感染性病

      頭條要聞

      愛潑斯坦案最新猛料:蓋茨與俄女子發(fā)生關(guān)系感染性病

      體育要聞

      “假賭黑”的子彈,還要再飛一會(huì)兒?jiǎn)幔?/h3>

      娛樂要聞

      成龍入駐小紅書,懟臉近照沒有老年斑

      財(cái)經(jīng)要聞

      白銀,暴跌!黃金,40年最大跌幅!

      汽車要聞

      新款賓利歐陸GT S/GTC S官圖發(fā)布 V8混動(dòng)加持

      態(tài)度原創(chuàng)

      親子
      手機(jī)
      房產(chǎn)
      家居
      旅游

      親子要聞

      生完孩子后,她腋下長(zhǎng)出第三個(gè)胸??跟其他倆同步變化,理論上也能喂奶...

      手機(jī)要聞

      1張抵1000次播放!為何唱片公司死保iTunes業(yè)務(wù)?

      房產(chǎn)要聞

      藏不住的小城大事,海澄新城執(zhí)掌自貿(mào)港風(fēng)口,進(jìn)階兌現(xiàn)美好生活新篇

      家居要聞

      藍(lán)調(diào)空舍 自由與個(gè)性

      旅游要聞

      棗莊蟠龍河冬韻濃 一河詩(shī)意入畫來

      無障礙瀏覽 進(jìn)入關(guān)懷版