網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

人類基準(zhǔn)測(cè)試大翻車：樣本不足、方法不透明，AI性能結(jié)論可信嗎？

2025-12-28 16:18:22　來源: 人工智能學(xué)家

北京舉報(bào)

分享至

來源：DeepTech深科技

運(yùn)營(yíng)/排版：何晨龍

我們經(jīng)常在一些對(duì)比 AI 性能的測(cè)試中，看到宣稱基礎(chǔ)模型在自然語(yǔ)言理解、推理或編程任務(wù)等性能超人類的相關(guān)報(bào)道。

但你有沒有想過，這些結(jié)果真的可信嗎？

在近期的一項(xiàng)研究中，美國(guó)哈佛大學(xué)研究員魏來（Kevin Wei）與合作者指出，目前人類基準(zhǔn)測(cè)試（Human Baselines）的嚴(yán)謹(jǐn)性和透明度存在一系列嚴(yán)重問題，這直接關(guān)系著相關(guān)測(cè)試中關(guān)于 AI 性能的結(jié)論是否“立得住”的問題。

為此，研究人員對(duì)基礎(chǔ)模型評(píng)估中人類基線方法提出了相關(guān)的改進(jìn)建議。與此同時(shí)，為全面梳理當(dāng)前評(píng)估方法的短板，他們還系統(tǒng)回顧了 115 項(xiàng)人類基線研究。

相關(guān)論文以《立場(chǎng)：模型評(píng)估中的人類基線需要嚴(yán)謹(jǐn)性和透明性》（Position: Human Baselines in Model Evaluations Need Rigor and Transparency）為題發(fā)表在 ICML 2025（The Forty-Second International Conference on Machine Learning）[1]。

圖丨相關(guān)論文（來源：ICML）

長(zhǎng)期以來，人類基準(zhǔn)測(cè)試作為 AI 領(lǐng)域評(píng)估模型性能的重要工具，直接影響著對(duì) AI 基礎(chǔ)模型表現(xiàn)的判斷，尤其是為 AI 達(dá)到超人類的水平相關(guān)結(jié)論是否可靠提供關(guān)鍵參考。

魏來目前的主要研究方向是 AI 評(píng)估測(cè)試，致力于將安全測(cè)試的系統(tǒng)做得更安全，以及將相關(guān)機(jī)制做得更好。他對(duì) DeepTech 表示：“我們?cè)谘芯窟^程中發(fā)現(xiàn)，當(dāng)下很多聲稱模型達(dá)到超人類性能的研究，其人類基線評(píng)估方法不僅嚴(yán)謹(jǐn)性不夠，透明度也不足。這會(huì)導(dǎo)致人類和 AI 性能的比較缺乏可信性。”

圖丨魏來（來源：魏來）

人類基準(zhǔn)測(cè)試結(jié)果是否可信關(guān)系著對(duì)系統(tǒng)層級(jí)的理解，以及對(duì)人類的層級(jí)準(zhǔn)確比較。相關(guān)結(jié)論不僅影響著機(jī)器學(xué)習(xí)社區(qū)、相關(guān)用戶和政策制定者，還與 AI 是否能代替、如何替代人類工作等社會(huì)和經(jīng)濟(jì)問題密切相關(guān)。

表丨基線設(shè)計(jì)與實(shí)施項(xiàng)目（含數(shù)據(jù)填補(bǔ)）的匯總統(tǒng)計(jì)（來源：ICML）

研究人員發(fā)現(xiàn)，在以往研究中最大的問題是所選取作為基線缺乏代表性，或在進(jìn)行基線測(cè)試時(shí)，為基線測(cè)試人員和網(wǎng)絡(luò)系統(tǒng)提供的信息存在差異：要么對(duì)二者所提出的問題不同，要么在某些方面存在差異，使得二者之間難以進(jìn)行有效比較。

讓人意外的是，只有 59% 的基線使用與 AI 相同的測(cè)試集。舉例來說，某個(gè)數(shù)據(jù)中有 1,000 個(gè)樣本，然后研究人員可能僅從中選 50 個(gè)樣本作為基線，再將這 50 個(gè)人類的層級(jí)與 1,000 個(gè) AI 系統(tǒng)的場(chǎng)景做對(duì)比。

除此之外，人類基線的樣本量普遍不足也是極為重要的問題，這會(huì)導(dǎo)致無法據(jù)此判斷這一結(jié)果是否能夠代表更廣泛人群。其中，以單個(gè)測(cè)試題目計(jì)算，人類基線的回應(yīng)者人數(shù)中位數(shù)僅有 8 人，遠(yuǎn)低于科學(xué)研究的可靠性要求。

另一方面，倫理審查報(bào)告方面，只有 14% 的論文報(bào)告了倫理審查，其中大部分研究并沒有公開測(cè)試方法、參與者信息和數(shù)據(jù)分析代碼。在統(tǒng)計(jì)檢驗(yàn)使用方面的問題同樣嚴(yán)重，進(jìn)行統(tǒng)計(jì)檢驗(yàn)的基線只有 8%。

“我們發(fā)現(xiàn)，這種在人類基準(zhǔn)測(cè)試過程中普遍存在信息不透明的做法，在影響結(jié)果可重復(fù)性的同時(shí)，也很有可能存在潛在的偏差。”魏來表示。

圖丨建立可靠且透明的人類基線數(shù)據(jù)的五個(gè)階段和相關(guān)建議（來源：ICML）

基于對(duì)測(cè)量理論和 AI 評(píng)估文獻(xiàn)的分析，該團(tuán)隊(duì)提出了一個(gè)新的框架來改進(jìn)相關(guān)問題，其涵蓋五個(gè)階段并在每個(gè)階段給出了相關(guān)建議。

具體而言：

·設(shè)計(jì)與實(shí)施（Design&Implementation）：選擇一致且具有代表性的測(cè)試集，迭代基線工具，收集足夠大小的樣本和滿足倫理要求；

·招募（Recruitment）：指定感興趣的人群，選擇適當(dāng)?shù)某闃硬呗裕谡心歼^程中采用質(zhì)量控制；

·執(zhí)行（Execution）：在執(zhí)行過程中采用質(zhì)量控制，控制方法效應(yīng)，控制人類和 AI 的努力程度，收集定性基線數(shù)據(jù)（例如解釋）；

·分析（Analysis）：量化人類和 AI 表現(xiàn)之間的不確定性，確保評(píng)估指標(biāo)、評(píng)分標(biāo)準(zhǔn)和評(píng)分方法的一致性；

·文檔化（Documentation）：報(bào)告方法和基線樣本的詳細(xì)信息，采用開放科學(xué)和可重復(fù)性標(biāo)準(zhǔn)。

根據(jù)相關(guān)建議，在設(shè)計(jì)人類基線時(shí)，可采用更科學(xué)的方法來確保公平性和準(zhǔn)確性。例如，研究人員借鑒了包括心理學(xué)、經(jīng)濟(jì)學(xué)、政治學(xué)等在內(nèi)的多學(xué)科知識(shí)，為 AI 和人類性能的比較提供了新的視角。研究還強(qiáng)調(diào)了透明度的重要性，指出基于詳細(xì)的記錄和報(bào)告，可促進(jìn)研究結(jié)果更可信。

研究人員將這些建議整合成一份清單，并在此基礎(chǔ)上系統(tǒng)性地回顧了 115 項(xiàng)基礎(chǔ)模型評(píng)估中的人類基線研究。這項(xiàng)研究不僅梳理出當(dāng)下人類基準(zhǔn)測(cè)試方法中存在的不足，同時(shí)也為未來研究特別是數(shù)學(xué)領(lǐng)域 AI 技術(shù)的評(píng)估指出了改進(jìn)方向。

參考資料：

1.https://openreview.net/forum?id=gwhPvu97Gm

閱讀最新前沿科技趨勢(shì)報(bào)告，請(qǐng)?jiān)L問歐米伽研究所的“未來知識(shí)庫(kù)”

https://wx.zsxq.com/group/454854145828

未來知識(shí)庫(kù)是“ 歐米伽未來研究所”建立的在線知識(shí)庫(kù)平臺(tái)，收藏的資料范圍包括人工智能、腦科學(xué)、互聯(lián)網(wǎng)、超級(jí)智能，數(shù)智大腦、能源、軍事、經(jīng)濟(jì)、人類風(fēng)險(xiǎn)等等領(lǐng)域的前沿進(jìn)展與未來趨勢(shì)。目前擁有超過8000篇重要資料。每周更新不少于100篇世界范圍最新研究資料。歡迎掃描二維碼或訪問https://wx.zsxq.com/group/454854145828進(jìn)入。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.