![]()
來源:DeepTech深科技
運(yùn)營(yíng)/排版:何晨龍
我們經(jīng)常在一些對(duì)比 AI 性能的測(cè)試中,看到宣稱基礎(chǔ)模型在自然語(yǔ)言理解、推理或編程任務(wù)等性能超人類的相關(guān)報(bào)道。
但你有沒有想過,這些結(jié)果真的可信嗎?
在近期的一項(xiàng)研究中,美國(guó)哈佛大學(xué)研究員魏來(Kevin Wei)與合作者指出,目前人類基準(zhǔn)測(cè)試(Human Baselines)的嚴(yán)謹(jǐn)性和透明度存在一系列嚴(yán)重問題,這直接關(guān)系著相關(guān)測(cè)試中關(guān)于 AI 性能的結(jié)論是否“立得住”的問題。
為此,研究人員對(duì)基礎(chǔ)模型評(píng)估中人類基線方法提出了相關(guān)的改進(jìn)建議。與此同時(shí),為全面梳理當(dāng)前評(píng)估方法的短板,他們還系統(tǒng)回顧了 115 項(xiàng)人類基線研究。
相關(guān)論文以《立場(chǎng):模型評(píng)估中的人類基線需要嚴(yán)謹(jǐn)性和透明性》(Position: Human Baselines in Model Evaluations Need Rigor and Transparency)為題發(fā)表在 ICML 2025(The Forty-Second International Conference on Machine Learning)[1]。
![]()
圖丨相關(guān)論文(來源:ICML)
長(zhǎng)期以來,人類基準(zhǔn)測(cè)試作為 AI 領(lǐng)域評(píng)估模型性能的重要工具,直接影響著對(duì) AI 基礎(chǔ)模型表現(xiàn)的判斷,尤其是為 AI 達(dá)到超人類的水平相關(guān)結(jié)論是否可靠提供關(guān)鍵參考。
魏來目前的主要研究方向是 AI 評(píng)估測(cè)試,致力于將安全測(cè)試的系統(tǒng)做得更安全,以及將相關(guān)機(jī)制做得更好。他對(duì) DeepTech 表示:“我們?cè)谘芯窟^程中發(fā)現(xiàn),當(dāng)下很多聲稱模型達(dá)到超人類性能的研究,其人類基線評(píng)估方法不僅嚴(yán)謹(jǐn)性不夠,透明度也不足。這會(huì)導(dǎo)致人類和 AI 性能的比較缺乏可信性。”
![]()
圖丨魏來(來源:魏來)
人類基準(zhǔn)測(cè)試結(jié)果是否可信關(guān)系著對(duì)系統(tǒng)層級(jí)的理解,以及對(duì)人類的層級(jí)準(zhǔn)確比較。相關(guān)結(jié)論不僅影響著機(jī)器學(xué)習(xí)社區(qū)、相關(guān)用戶和政策制定者,還與 AI 是否能代替、如何替代人類工作等社會(huì)和經(jīng)濟(jì)問題密切相關(guān)。
![]()
表丨基線設(shè)計(jì)與實(shí)施項(xiàng)目(含數(shù)據(jù)填補(bǔ))的匯總統(tǒng)計(jì)(來源:ICML)
研究人員發(fā)現(xiàn),在以往研究中最大的問題是所選取作為基線缺乏代表性,或在進(jìn)行基線測(cè)試時(shí),為基線測(cè)試人員和網(wǎng)絡(luò)系統(tǒng)提供的信息存在差異:要么對(duì)二者所提出的問題不同,要么在某些方面存在差異,使得二者之間難以進(jìn)行有效比較。
讓人意外的是,只有 59% 的基線使用與 AI 相同的測(cè)試集。舉例來說,某個(gè)數(shù)據(jù)中有 1,000 個(gè)樣本,然后研究人員可能僅從中選 50 個(gè)樣本作為基線,再將這 50 個(gè)人類的層級(jí)與 1,000 個(gè) AI 系統(tǒng)的場(chǎng)景做對(duì)比。
除此之外,人類基線的樣本量普遍不足也是極為重要的問題,這會(huì)導(dǎo)致無法據(jù)此判斷這一結(jié)果是否能夠代表更廣泛人群。其中,以單個(gè)測(cè)試題目計(jì)算,人類基線的回應(yīng)者人數(shù)中位數(shù)僅有 8 人,遠(yuǎn)低于科學(xué)研究的可靠性要求。
另一方面,倫理審查報(bào)告方面,只有 14% 的論文報(bào)告了倫理審查,其中大部分研究并沒有公開測(cè)試方法、參與者信息和數(shù)據(jù)分析代碼。在統(tǒng)計(jì)檢驗(yàn)使用方面的問題同樣嚴(yán)重,進(jìn)行統(tǒng)計(jì)檢驗(yàn)的基線只有 8%。
“我們發(fā)現(xiàn),這種在人類基準(zhǔn)測(cè)試過程中普遍存在信息不透明的做法,在影響結(jié)果可重復(fù)性的同時(shí),也很有可能存在潛在的偏差。”魏來表示。
![]()
圖丨建立可靠且透明的人類基線數(shù)據(jù)的五個(gè)階段和相關(guān)建議(來源:ICML)
基于對(duì)測(cè)量理論和 AI 評(píng)估文獻(xiàn)的分析,該團(tuán)隊(duì)提出了一個(gè)新的框架來改進(jìn)相關(guān)問題,其涵蓋五個(gè)階段并在每個(gè)階段給出了相關(guān)建議。
具體而言:
·設(shè)計(jì)與實(shí)施(Design&Implementation):選擇一致且具有代表性的測(cè)試集,迭代基線工具,收集足夠大小的樣本和滿足倫理要求;
·招募(Recruitment):指定感興趣的人群,選擇適當(dāng)?shù)某闃硬呗裕谡心歼^程中采用質(zhì)量控制;
·執(zhí)行(Execution):在執(zhí)行過程中采用質(zhì)量控制,控制方法效應(yīng),控制人類和 AI 的努力程度,收集定性基線數(shù)據(jù)(例如解釋);
·分析(Analysis):量化人類和 AI 表現(xiàn)之間的不確定性,確保評(píng)估指標(biāo)、評(píng)分標(biāo)準(zhǔn)和評(píng)分方法的一致性;
·文檔化(Documentation):報(bào)告方法和基線樣本的詳細(xì)信息,采用開放科學(xué)和可重復(fù)性標(biāo)準(zhǔn)。
根據(jù)相關(guān)建議,在設(shè)計(jì)人類基線時(shí),可采用更科學(xué)的方法來確保公平性和準(zhǔn)確性。例如,研究人員借鑒了包括心理學(xué)、經(jīng)濟(jì)學(xué)、政治學(xué)等在內(nèi)的多學(xué)科知識(shí),為 AI 和人類性能的比較提供了新的視角。研究還強(qiáng)調(diào)了透明度的重要性,指出基于詳細(xì)的記錄和報(bào)告,可促進(jìn)研究結(jié)果更可信。
研究人員將這些建議整合成一份清單,并在此基礎(chǔ)上系統(tǒng)性地回顧了 115 項(xiàng)基礎(chǔ)模型評(píng)估中的人類基線研究。這項(xiàng)研究不僅梳理出當(dāng)下人類基準(zhǔn)測(cè)試方法中存在的不足,同時(shí)也為未來研究特別是數(shù)學(xué)領(lǐng)域 AI 技術(shù)的評(píng)估指出了改進(jìn)方向。
參考資料:
1.https://openreview.net/forum?id=gwhPvu97Gm
閱讀最新前沿科技趨勢(shì)報(bào)告,請(qǐng)?jiān)L問歐米伽研究所的“未來知識(shí)庫(kù)”
https://wx.zsxq.com/group/454854145828
![]()
未來知識(shí)庫(kù)是“ 歐米伽 未來研究所”建立的在線知識(shí)庫(kù)平臺(tái),收藏的資料范圍包括人工智能、腦科學(xué)、互聯(lián)網(wǎng)、超級(jí)智能,數(shù)智大腦、能源、軍事、經(jīng)濟(jì)、人類風(fēng)險(xiǎn)等等領(lǐng)域的前沿進(jìn)展與未來趨勢(shì)。目前擁有超過8000篇重要資料。每周更新不少于100篇世界范圍最新研究資料。 歡迎掃描二維碼或訪問https://wx.zsxq.com/group/454854145828進(jìn)入。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.