<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

      大模型碰到真難題了,測(cè)了500道,o3 Pro僅通過(guò)15%

      0
      分享至




      機(jī)器之心報(bào)道

      機(jī)器之心編輯部

      基準(zhǔn)測(cè)試是檢驗(yàn)大模型能力的一種方式,一般而言,一個(gè)有用的基準(zhǔn)既要足夠難,又要貼近現(xiàn)實(shí):?jiǎn)栴}既能挑戰(zhàn)前沿模型,又要反映真實(shí)世界的使用場(chǎng)景。

      然而,現(xiàn)有測(cè)試面臨著「難度–真實(shí)性」的矛盾:側(cè)重于考試的基準(zhǔn)往往被人為設(shè)置得很難,但實(shí)際價(jià)值有限;而基于真實(shí)用戶交互的基準(zhǔn)又往往偏向于簡(jiǎn)單的高頻問(wèn)題。

      在此背景下,來(lái)自斯坦福大學(xué)、華盛頓大學(xué)等機(jī)構(gòu)的研究者探索了一種截然不同的方式:在未解決的問(wèn)題上評(píng)估模型的能力。

      與一次性打分的靜態(tài)基準(zhǔn)不同,該研究不斷收集未解決的問(wèn)題,然后通過(guò)驗(yàn)證器輔助篩選與社區(qū)驗(yàn)證機(jī)制,實(shí)現(xiàn)對(duì)模型的持續(xù)異步評(píng)估。

      具體而言,本文提出了 UQ(Unsolved Questions),這是一個(gè)由 500 道題組成的測(cè)試集,涵蓋計(jì)算機(jī)理論、數(shù)學(xué)、科幻、歷史等主題,用于考察模型在推理、事實(shí)準(zhǔn)確性以及瀏覽等方面的能力。UQ 在設(shè)計(jì)上兼具難度大與貼近真實(shí)兩大特點(diǎn):這些問(wèn)題大多是人類遇到但尚未解決的難題,因此攻克它們可直接產(chǎn)生現(xiàn)實(shí)價(jià)值。



      • 論文標(biāo)題:UQ: Assessing Language Models on Unsolved Questions
      • 論文地址:https://arxiv.org/pdf/2508.17580v1
      • 項(xiàng)目地址:https://uq.stanford.edu/

      總結(jié)而言,本文貢獻(xiàn)如下:

      • 提出了 UQ 數(shù)據(jù)集及其收集流程:結(jié)合規(guī)則過(guò)濾器、大語(yǔ)言模型評(píng)審以及人工審核,以確保最終問(wèn)題的質(zhì)量;
      • UQ-Validators:復(fù)合驗(yàn)證策略,利用生成器–驗(yàn)證器之間的能力差距來(lái)構(gòu)建無(wú)真值驗(yàn)證系統(tǒng)(一般而言模型驗(yàn)證能力優(yōu)于生成能力),并對(duì)候選答案進(jìn)行預(yù)篩選,以便后續(xù)人工審核;
      • UQ-Platform:一個(gè)開放平臺(tái),讓專家能夠共同驗(yàn)證問(wèn)題與答案,從而實(shí)現(xiàn)持續(xù)的、異步的、社區(qū)驅(qū)動(dòng)的評(píng)估。

      實(shí)驗(yàn)中,表現(xiàn)最好的模型僅在 15% 的問(wèn)題上通過(guò)了 UQ 驗(yàn)證,而初步人工核查已經(jīng)在這些通過(guò)驗(yàn)證的答案中識(shí)別出一些正確解答。



      數(shù)據(jù)集介紹

      UQ 數(shù)據(jù)集由 500 道具有挑戰(zhàn)性的未解決問(wèn)題組成,問(wèn)題來(lái)源問(wèn)答社區(qū) Stack Exchange,并且是經(jīng)過(guò)三輪篩選得到的。



      在篩選流程上,本文首先人工選擇了 80 個(gè) Stack Exchange 社區(qū)(例如 Math Overflow、Physics),并抓取其中未解答的問(wèn)題,得到大約 300 萬(wàn)個(gè)原始候選問(wèn)題。

      隨后,進(jìn)入多階段篩選流程。篩選的每一階段都會(huì)逐步縮小問(wèn)題池:基于規(guī)則的篩選將問(wèn)題縮減至 33,916 個(gè)(占原始問(wèn)題池的 1.13%);基于大語(yǔ)言模型的篩選進(jìn)一步縮減至 7,685 個(gè)(占原始的 0.26%);最終通過(guò)人工審核(如剔除殘留的重復(fù)、過(guò)于簡(jiǎn)單、偏題或違反規(guī)則的問(wèn)題),得到一個(gè)精心整理的 500 道題集(占原始的 0.02%)。

      隨著問(wèn)題在篩選流程中逐步推進(jìn),它們的難度和質(zhì)量也在逐漸提升。尤其是基于大語(yǔ)言模型的篩選,顯著提高了問(wèn)題的難度。



      數(shù)據(jù)集組成如下所示,主要包含科學(xué)類問(wèn)題,其次是技術(shù)類與生活藝術(shù)類。本文還發(fā)現(xiàn)不同領(lǐng)域的問(wèn)題能探測(cè)模型的不同能力:例如數(shù)學(xué)問(wèn)題通常需要開放式證明,而科幻奇幻類問(wèn)題則偏重瀏覽檢索能力(如根據(jù)片段情節(jié)識(shí)別書籍名稱)。

      一旦某個(gè)問(wèn)題被判定為已解決,研究者就會(huì)在后續(xù)版本中將該問(wèn)題移除,并用新的未解決問(wèn)題替換。



      UQ 驗(yàn)證器

      雖然 UQ 數(shù)據(jù)集非常具有價(jià)值,但要將其用作模型性能的基準(zhǔn),仍需配套的評(píng)分指標(biāo)。然而,由于缺乏標(biāo)準(zhǔn)答案,無(wú)法像考試基準(zhǔn)那樣進(jìn)行自動(dòng)驗(yàn)證。

      因此,本文轉(zhuǎn)向無(wú)監(jiān)督驗(yàn)證器,即無(wú)需標(biāo)準(zhǔn)答案。由于未解問(wèn)題往往極具挑戰(zhàn)性,這些驗(yàn)證器的主要目標(biāo)并非證明某個(gè)候選答案正確,而是排除錯(cuò)誤的候選答案;因此,本文刻意使用 validator(驗(yàn)證器)一詞,而非 judge 或 verifier。

      需要特別指出的是,由于缺少標(biāo)準(zhǔn)答案,這類驗(yàn)證器本身可能經(jīng)常出錯(cuò),但它們?nèi)阅茉诤罄m(xù)人工審核中發(fā)揮輔助作用。

      據(jù)了解,本文之所以開發(fā)無(wú)需標(biāo)準(zhǔn)答案的驗(yàn)證器,核心動(dòng)機(jī)在于這樣一個(gè)假設(shè):對(duì)難題候選答案進(jìn)行驗(yàn)證可能比生成這些答案更容易。實(shí)驗(yàn)中采用了這樣的流程,讓一系列能力遞增的模型(例如 o3-mini → o4-mini → o3)回答這 500 道題,記錄它們的答題準(zhǔn)確率;接著,讓每個(gè)模型在不接觸標(biāo)準(zhǔn)答案的情況下,驗(yàn)證其他所有模型給出的答案;最后,用真實(shí)答案對(duì)這些驗(yàn)證結(jié)論進(jìn)行打分,計(jì)算驗(yàn)證準(zhǔn)確率。

      圖 5 左顯示:隨著模型能力的提升,它們?cè)隍?yàn)證準(zhǔn)確率上的進(jìn)步速度明顯快于答題準(zhǔn)確率。



      實(shí)驗(yàn)中使用的驗(yàn)證器 pipeline:



      實(shí)驗(yàn)及結(jié)果

      實(shí)驗(yàn)評(píng)估了 5 個(gè)模型,包括 o3、o4-mini、o3-mini、Gemini 2.5 Pro 和 Claude 3.7 Sonnet。

      表 1 結(jié)果顯示,與原始基線相比,驗(yàn)證策略能夠?qū)嵸|(zhì)性地提高驗(yàn)證的準(zhǔn)確率和精度。例如,對(duì) Claude 3.7 Sonnet 而言,準(zhǔn)確率從 21.6% 提升到 73.2%,精度從 13.26% 提升到 20%,但往往是以召回率下降為代價(jià)。



      為了確認(rèn)最終得到的最佳 UQ 驗(yàn)證器對(duì)人類評(píng)審者有幫助,該研究邀請(qǐng)若干評(píng)審員對(duì) 25 個(gè)驗(yàn)證問(wèn)題進(jìn)行評(píng)分,判斷其給出的判斷理由鏈?zhǔn)欠裨谶壿嬌铣闪ⅰ1?2 顯示,人類評(píng)審與驗(yàn)證器的一致率及理由鏈的準(zhǔn)確性都很高,表明該驗(yàn)證器能為人類評(píng)審者提供有效支持。



      將大語(yǔ)言模型用于答案驗(yàn)證時(shí),另一個(gè)挑戰(zhàn)是它們常常表現(xiàn)出明顯的評(píng)估偏見。當(dāng)研究者把前沿模型直接應(yīng)用于本場(chǎng)景時(shí),發(fā)現(xiàn)所有模型在評(píng)估自身或同系模型(即同一開發(fā)者的模型)時(shí),都出現(xiàn)了過(guò)度樂(lè)觀現(xiàn)象:預(yù)測(cè)出的模型性能遠(yuǎn)高于實(shí)際性能,如圖 7 所示。

      • Gemini 明顯偏向自身,相對(duì)于其他模型給出顯著更高的評(píng)分;
      • Claude 對(duì)所有答案模型(不僅僅是自身)都表現(xiàn)出過(guò)度樂(lè)觀;
      • OpenAI 的 o 系列模型則對(duì)其他 o 系列同門模型給出過(guò)高評(píng)價(jià)。

      隨著模型能力遞增(o3-mini → o3),這種偏見雖有所降低,但并未徹底消除。

      本文進(jìn)一步發(fā)現(xiàn),采用復(fù)合驗(yàn)證器能夠顯著削弱答案驗(yàn)證中的自我偏見與過(guò)度樂(lè)觀。



      最后,本文還發(fā)現(xiàn),一個(gè)更強(qiáng)的答案生成模型并不一定就是更強(qiáng)的答案驗(yàn)證模型。

      本文通過(guò)基線提示法和 3 輪迭代驗(yàn)證流程繪制了模型在 500 個(gè) HLE 問(wèn)題上的驗(yàn)證準(zhǔn)確率與答案準(zhǔn)確率關(guān)系圖。雖然更好的答案性能通常預(yù)示著更好的驗(yàn)證性能(整體呈上升趨勢(shì)),但并非絕對(duì)。

      例如:在沒(méi)有流程驗(yàn)證時(shí),o3 作為答案模型弱于 Gemini 2.5 Pro,但作為驗(yàn)證模型卻更強(qiáng);采用流程驗(yàn)證后,o3-mini 與 Claude 3.7 Sonnet 之間觀察到同樣的逆轉(zhuǎn)趨勢(shì)。此外,盡管 Claude 3.7 Sonnet 在答案準(zhǔn)確率上顯著落后于 Gemini 2.5 Pro,但其基于流程驗(yàn)證的表現(xiàn)卻超越了 Gemini 2.5 Pro 的基線驗(yàn)證性能。



      了解更多內(nèi)容,請(qǐng)參考原論文。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      生涯最艱難比賽?馬塞洛:客場(chǎng)0-5輸巴薩,我們甚至看不到球

      生涯最艱難比賽?馬塞洛:客場(chǎng)0-5輸巴薩,我們甚至看不到球

      懂球帝
      2025-12-08 02:24:05
      殺人誅心:烏克蘭禁止在所有公共場(chǎng)合講俄語(yǔ)

      殺人誅心:烏克蘭禁止在所有公共場(chǎng)合講俄語(yǔ)

      史政先鋒
      2025-12-07 21:23:50
      馬杜羅向川普開出的條件

      馬杜羅向川普開出的條件

      西樓飲月
      2025-12-07 22:38:13
      風(fēng)向變了,特朗普通告全球,承認(rèn)中美平起平坐,要跟中國(guó)公平競(jìng)爭(zhēng)

      風(fēng)向變了,特朗普通告全球,承認(rèn)中美平起平坐,要跟中國(guó)公平競(jìng)爭(zhēng)

      時(shí)時(shí)有聊
      2025-12-07 06:42:33
      隨著塞爾比英錦賽奪冠,大師賽16強(qiáng)對(duì)陣出爐!大概率以下8人晉級(jí)

      隨著塞爾比英錦賽奪冠,大師賽16強(qiáng)對(duì)陣出爐!大概率以下8人晉級(jí)

      小火箭愛(ài)體育
      2025-12-08 08:31:03
      湖南煙花店老板放煙花自殺事件后續(xù)來(lái)了:真相大白,令人唏噓

      湖南煙花店老板放煙花自殺事件后續(xù)來(lái)了:真相大白,令人唏噓

      復(fù)轉(zhuǎn)這些年
      2025-12-07 18:02:55
      華子調(diào)戲69分超美土耳其女籃球員 前女友嘲諷:讓你的小兄弟冷靜

      華子調(diào)戲69分超美土耳其女籃球員 前女友嘲諷:讓你的小兄弟冷靜

      Emily說(shuō)個(gè)球
      2025-12-07 22:13:02
      用圍巾擦地的女乘客找到了!蘇州地鐵:已和她取得聯(lián)系,正約時(shí)間送出禮物

      用圍巾擦地的女乘客找到了!蘇州地鐵:已和她取得聯(lián)系,正約時(shí)間送出禮物

      極目新聞
      2025-12-07 16:35:20
      沒(méi)時(shí)間了,特朗普準(zhǔn)備換將,中國(guó)運(yùn)回大批黃金,美債恐出現(xiàn)拋售潮

      沒(méi)時(shí)間了,特朗普準(zhǔn)備換將,中國(guó)運(yùn)回大批黃金,美債恐出現(xiàn)拋售潮

      影孖看世界
      2025-12-07 19:32:25
      開拓者半場(chǎng)落后20分:楊瀚森首發(fā)不到8分鐘2中0 4犯規(guī)太悲催

      開拓者半場(chǎng)落后20分:楊瀚森首發(fā)不到8分鐘2中0 4犯規(guī)太悲催

      醉臥浮生
      2025-12-08 08:15:12
      62歲李連杰發(fā)視頻否認(rèn)為年輕“換心臟換血”,關(guān)掉美顏?zhàn)宰C清白:換這換那?不如換個(gè)心態(tài)

      62歲李連杰發(fā)視頻否認(rèn)為年輕“換心臟換血”,關(guān)掉美顏?zhàn)宰C清白:換這換那?不如換個(gè)心態(tài)

      930老友記
      2025-12-07 22:33:48
      可恥!剛剛,孟山都騙了全世界25年的論文,終于被強(qiáng)制撤稿了!

      可恥!剛剛,孟山都騙了全世界25年的論文,終于被強(qiáng)制撤稿了!

      徐德文科學(xué)頻道
      2025-12-07 19:58:11
      新加坡華裔男生被評(píng)“全球最丑”?本地網(wǎng)友怒懟:這鍋不背!

      新加坡華裔男生被評(píng)“全球最丑”?本地網(wǎng)友怒懟:這鍋不背!

      新加坡萬(wàn)事通
      2025-12-07 20:55:03
      如果《芳華》講的是那四個(gè)人,那哆啦A夢(mèng)也是

      如果《芳華》講的是那四個(gè)人,那哆啦A夢(mèng)也是

      熊太行
      2025-12-07 11:26:06
      姓名及排序完全吻合,六安一份《為民服務(wù)辦理事項(xiàng)清冊(cè)》疑照搬百度人名庫(kù)

      姓名及排序完全吻合,六安一份《為民服務(wù)辦理事項(xiàng)清冊(cè)》疑照搬百度人名庫(kù)

      澎湃新聞
      2025-12-08 08:46:12
      存在不當(dāng)影射行為,郭德綱被約談!

      存在不當(dāng)影射行為,郭德綱被約談!

      微微熱評(píng)
      2025-12-08 00:51:45
      已啟動(dòng)!陜西適齡男子都要登記 →

      已啟動(dòng)!陜西適齡男子都要登記 →

      西安觀察
      2025-12-07 23:01:14
      德外長(zhǎng)“艱難”開啟訪華行程,專家:對(duì)其此行需“聽其言觀其行”

      德外長(zhǎng)“艱難”開啟訪華行程,專家:對(duì)其此行需“聽其言觀其行”

      環(huán)球網(wǎng)資訊
      2025-12-08 06:56:12
      反轉(zhuǎn)!女主播被抓

      反轉(zhuǎn)!女主播被抓

      都市快報(bào)橙柿互動(dòng)
      2025-12-08 00:18:44
      要是10年內(nèi)經(jīng)濟(jì)持續(xù)下行,普通老百姓該怎么面對(duì)?

      要是10年內(nèi)經(jīng)濟(jì)持續(xù)下行,普通老百姓該怎么面對(duì)?

      經(jīng)濟(jì)學(xué)教授V
      2025-12-07 18:07:14
      2025-12-08 09:56:49
      機(jī)器之心Pro incentive-icons
      機(jī)器之心Pro
      專業(yè)的人工智能媒體
      11862文章數(shù) 142510關(guān)注度
      往期回顧 全部

      科技要聞

      獨(dú)家|李笛再創(chuàng)業(yè),炮轟大模型,再戰(zhàn)AI

      頭條要聞

      外媒:德外長(zhǎng)訪華 迎來(lái)政治生涯中最艱難一次出國(guó)之旅

      頭條要聞

      外媒:德外長(zhǎng)訪華 迎來(lái)政治生涯中最艱難一次出國(guó)之旅

      體育要聞

      梅開48度!2年半,這是梅西在邁阿密的一人一城

      娛樂(lè)要聞

      林俊杰AAA頒獎(jiǎng)禮,韓娛愛(ài)豆均站起鞠躬

      財(cái)經(jīng)要聞

      養(yǎng)牛場(chǎng)未見一頭牛 每天開采礦石倒賣

      汽車要聞

      傳奇超跑電動(dòng)形態(tài)重生 雷克薩斯LFA純電概念車

      態(tài)度原創(chuàng)

      教育
      本地
      手機(jī)
      親子
      公開課

      教育要聞

      全市基礎(chǔ)教育質(zhì)量提升暨振興縣域高中現(xiàn)場(chǎng)推進(jìn)會(huì)召開

      本地新聞

      云游安徽|七千年敘事,第一章寫在蚌埠

      手機(jī)要聞

      Viwoods推出彩色電紙書手機(jī):150PPI墨水屏,4G網(wǎng)絡(luò)、側(cè)邊指紋

      親子要聞

      這五招讓娃主動(dòng)吃飯

      公開課

      李玫瑾:為什么性格比能力更重要?

      無(wú)障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 日韩人妻无码专区一本二| 人妻av一区二区三区精品| 成人做爰69片免费看网站| 伊人久久大香线蕉综合影院| 国产一区二区三区免费观看| 人妻少妇av无码一区二区| 精品无码专区毛片| 777米奇色狠狠888俺也去乱| 无码 人妻 在线 视频| 色吊丝中文国产| 中文字幕精品aⅴ内射夜夜夜| 特级av毛片免费观看| 啪啪av一区二区三区| 亚洲精品97久久中文字幕无码| 伊人精品成人久久综合97| 国产精品秘?国产A级| 久久另类小说| 久久无码av中文出轨人妻| 久久婷婷五月综合| 99精品视频在线观看| 午夜痒痒网| 国产综合久久久久鬼色| 精品久久久久久亚洲中文字幕| 日韩在线视频网| 毛片天堂| 亚洲一人综合| 日本丰满熟妇videossex8k| 国产老头多毛Gay老年男| 一级AV韩国| 99精品人妻| 久久九九久精品国产免费直播| 99精品国产兔费观看久久99| 丝袜美腿亚洲综合| 欧美成人免费全部网站| 亚洲色av性色在线观无码| 日本一区二区三区在线 |观看| 亚洲日本91| 少妇久久久久久久久久| 亚洲va国产va天堂va久久| h无码精品动漫在线观看| 丁香久久婷婷|