<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      一份沒有標(biāo)準(zhǔn)答案的AI考卷,頂尖模型集體失靈

      0
      分享至

      最近一兩年,大型語言模型在各類標(biāo)準(zhǔn)化測試上的表現(xiàn)已經(jīng)讓人有點審美疲勞。MMLU(Massive Multitask Language Understanding,大規(guī)模多任務(wù)語言理解)曾經(jīng)是衡量模型能力的黃金標(biāo)準(zhǔn),2022 年時 540 億參數(shù)的 PaLM 勉強跨過 60% 的及格線,到了 2024 年,微軟只用 38 億參數(shù)的 Phi-3-mini 就達到了同樣水平。

      斯坦福大學(xué) 2025 年 AI 指數(shù)報告直言不諱地指出,MMLU、GSM8K、HumanEval 這些傳統(tǒng)基準(zhǔn)測試正在“飽和”,頂尖模型的分數(shù)已經(jīng)逼近甚至超越人類水平,它們不再能有效區(qū)分模型之間的能力差異。

      這引發(fā)了一個尷尬的問題:當(dāng)考試變得太簡單,我們怎么知道誰真的學(xué)會了?

      2025 年 6 月,紐約大學(xué)和普林斯頓大學(xué)等高校的研究人員等人推出了 LiveCodeBench Pro,一個由奧賽獎牌得主們策劃的競賽級編程基準(zhǔn)測試。它從 Codeforces、ICPC、IOI 等頂級賽事實時抓取題目,試圖通過“防污染”設(shè)計來解決數(shù)據(jù)泄露問題。在那個基準(zhǔn)上,最好的模型在中等難度題目上也只有 53% 的通過率,在高難度題目上直接歸零。但 LiveCodeBench Pro 仍然采用傳統(tǒng)的“通過/不通過”評判方式——要么全對,要么不得分。

      為了解決這個問題,半年后,一支匯聚了加州大學(xué)伯克利分校、普林斯頓、加州大學(xué)圣地亞哥分校等多所頂尖高校成員的聯(lián)合團隊,共同推出了 FrontierCS。

      這支團隊可謂匯聚了基準(zhǔn)測試領(lǐng)域的“全明星陣容”:除了打造了 LiveCodeBench Pro 的柴文浩及其團隊,另一位核心共同負責(zé)人冒峘志此前主導(dǎo)的伯克利函數(shù)調(diào)用排行榜(Berkeley Function Calling Leaderboard, BFCL)也早已成為評估大模型工具使用能力的重要業(yè)界標(biāo)準(zhǔn)。兩項高質(zhì)量基準(zhǔn)測試的主導(dǎo)者強強聯(lián)手,使得 FrontierCS 在設(shè)計之初就具備了更全面、專業(yè)的評測視角的評測視野,為其嚴謹性提供了有力背書。


      (來源:研究團隊)

      這次,團隊所構(gòu)建的并非又一套“更難的選擇題”,而是在評測范式上做出了根本性轉(zhuǎn)變。


      圖丨相關(guān)論文(來源:arXiv)

      它包含 156 道計算機科學(xué)領(lǐng)域的開放式問題,覆蓋算法優(yōu)化、操作系統(tǒng)、高性能計算、數(shù)據(jù)庫、人工智能研究等多個方向。與傳統(tǒng)基準(zhǔn)測試最大的不同在于:這些問題沒有已知的最優(yōu)解,但每個答案的質(zhì)量都可以被客觀量化評分。

      想象一下,你要把一堆形狀各異的俄羅斯方塊(學(xué)名叫多連塊,Polyomino)盡可能緊密地塞進一個矩形網(wǎng)格里。最緊密的擺法是什么?沒人知道。但給定任意一種擺法,我們可以精確計算出它的密度(占據(jù)面積除以總面積)。人類專家在這道題上能達到 87% 的密度,而 GPT-5 Thinking 只做到 47%。兩種擺法都未必是最優(yōu)解,但密度這個連續(xù)指標(biāo)能直觀地反映出相對表現(xiàn):誰的解法更好,一眼就能看出來。


      (來源:arXiv)

      FrontierCS 的核心設(shè)計者之一、來自伯克利的博士生忙秋陽在接受采訪時解釋了這種設(shè)計背后的邏輯:“我們會刻意挑選那些本身是開放式的、最終解未知,但又能客觀打分的題目。比如給定一個 SAT 問題,我們都知道它是 NP-hard 的,嚴格求最優(yōu)在現(xiàn)實里往往不可達。但我們可以看它最多滿足了多少約束條件,然后據(jù)此給出分數(shù)。這個分數(shù)是客觀的,完全符合題目要求,也能夠被驗證。”

      這種設(shè)計解決了傳統(tǒng)基準(zhǔn)測試的兩個痼疾。第一個是數(shù)據(jù)污染問題。當(dāng)測試題和答案都已公開,模型完全可能在預(yù)訓(xùn)練階段就“背”過這些題,分數(shù)高不代表真正理解。FrontierCS 的題目雖然公開,但由于沒有標(biāo)準(zhǔn)答案可背,模型必須真正“動腦子”才能拿分。

      第二個問題是評測粒度太粗。傳統(tǒng)基準(zhǔn)測試通常采用“通過/不通過”的二元評判,SWE-bench 上解決一個極難的 issue 和解決一個簡單的 issue 都只能算“做對一題”。而 FrontierCS 為每道題設(shè)計了連續(xù)的評分函數(shù),能夠精確刻畫模型在“做得多好”這個維度上的差異。


      (來源:arXiv)

      這套基準(zhǔn)測試分為兩個賽道。算法賽道包含 107 道題,大多改編自 IOI(國際信息學(xué)奧林匹克)、ICPC(國際大學(xué)生程序設(shè)計競賽)世界總決賽等頂級編程競賽,但被重新設(shè)計成開放式版本。研究賽道有 49 道題,來自真實的計算機科學(xué)研究場景,比如設(shè)計向量數(shù)據(jù)庫索引以平衡查詢延遲和召回率,或者優(yōu)化 GPU 內(nèi)核代碼。

      在算法賽道上,人類專家的平均得分是 95.41 分,而表現(xiàn)最好的 Gemini 3.0 Pro 只拿到 29.37 分。GPT-5 Thinking、Claude Opus 4.5、DeepSeek V3.2 Thinking 等當(dāng)紅模型的得分都在 10 到 15 分之間徘徊。


      圖丨在算法賽道上的基準(zhǔn)測試結(jié)果(來源:arXiv)

      即使把采樣次數(shù)從 1 次增加到 5 次,取最高分(Score@5),最好的模型也只能達到 52 分左右。研究賽道的情況稍好一些,Claude Opus 4.5 以 29.40 分領(lǐng)先,但同樣遠低于人類水平。

      通過對模型行為模式進行更細致的觀察,團隊還發(fā)現(xiàn)了一些有意思,甚至違反直覺的現(xiàn)象。柴文浩在采訪中提到:“在 LiveCodeBench Pro 這樣的基準(zhǔn)測試上,我們觀察到‘思考越多表現(xiàn)越好’幾乎是鐵律。但在 FrontierCS 上,這個規(guī)律不再成立。模型的推理是有上限的,超過這個上限之后,多花的那部分‘思考’,未必能帶來直接的收益提升。”

      研究團隊做了一個對照實驗:把 GPT-5 Thinking 的推理強度分別設(shè)為低、中、高三檔。從低到中,平均得分從 7.9 分漲到 15.3 分,符合預(yù)期。但從中到高,分數(shù)反而從 15.3 分掉到 12.6 分。這或許意味著當(dāng)前推理模型的訓(xùn)練方式可能存在根本性的局限,它們被訓(xùn)練來“找到正確答案”,而不是“找到更好的答案”。

      團隊對此的解釋是:“模型更擅長的,其實是讀懂教科書式的問題。它的推理本質(zhì)上是:我給你一道算法競賽題,你可以很快把它歸類到某個常見套路上。但面對開放式問題,這種思路就行不通了。”

      他舉了個例子:在交互式問題(Interactive Problems)上,模型的表現(xiàn)尤其糟糕。這類題目要求你通過多輪查詢來推斷某個隱藏的結(jié)構(gòu),不存在任何可以直接套用的教科書算法。“這些題不會出現(xiàn)在任何 textbook 里。每一個開放式問題都需要先觀察題目的性質(zhì),再利用這些性質(zhì)去構(gòu)造更優(yōu)的解法。”


      (來源:arXiv)

      團隊還觀察到一個“微優(yōu)化陷阱”:模型經(jīng)常會陷入一些細枝末節(jié)的優(yōu)化,而忽略了核心的算法選擇。論文中舉了多連塊打包問題的例子,GPT-5 Thinking 傾向于直接用輸出格式(變換列表)作為內(nèi)部數(shù)據(jù)結(jié)構(gòu),這雖然節(jié)省內(nèi)存,但會讓碰撞檢測和空間搜索變得極其繁瑣,導(dǎo)致 30% 的嘗試直接輸出無效代碼,剩下 70% 也只能拿到低分。

      而如果在提示詞中加一句“請用二維數(shù)組維護矩形狀態(tài),最后再轉(zhuǎn)換成輸出格式”,模型的表現(xiàn)就會大幅改善。這說明當(dāng)前模型缺乏識別“什么優(yōu)化才是重要的”的能力,它們?nèi)菀妆槐砻嫔虾侠淼珣?zhàn)略上無關(guān)緊要的細節(jié)所吸引。

      Claude 系列模型展現(xiàn)出了一種獨特的“研究—工程分裂癥”。在算法賽道上,Claude Sonnet 4.5 只拿到 5.84 分,是所有測試模型中最低的;但在研究賽道上,Claude Opus 4.5 以 29.40 分拔得頭籌。

      柴文浩分析道:“Claude 往往會給出一個相對簡單、工整、穩(wěn)定、不容易出錯但并非最優(yōu)的解,然后就停住了。所以它更適合做一些工程類的事情,在 algorithm track 上表現(xiàn)就非常一般。”這與 Claude 在 SWE-bench Verified 上的亮眼表現(xiàn)形成對照,那個基準(zhǔn)測試評估的恰恰是解決真實軟件工程問題的能力。

      當(dāng)然,開放式基準(zhǔn)測試也有其局限。冒峘志坦承,雖然 FrontierCS 的題目設(shè)計決定了不存在可以“背誦”的標(biāo)準(zhǔn)答案,但如果只是想達到某個中等分數(shù)(比如 50 分),理論上仍然可以通過訓(xùn)練高分軌跡(trace)來“抄近道”。此外,不同題目之間的分數(shù)并不直接可比,一個系統(tǒng)研究任務(wù)的 70 分和一個算法優(yōu)化任務(wù)的 70 分,含義可能完全不同。

      為了緩解這個問題,為緩解可比性問題,團隊曾討論用基于 Elo rating 的排名方案做相對比較,但也認為它未必最優(yōu):Elo 需要大量 battle 數(shù)據(jù),成本很高。更現(xiàn)實的方案是按總體分布劃分區(qū)間,給出 A/B/C/D 之類的等級分檔(例如前 15% 為 A、再后 25% 為 B),用分檔呈現(xiàn)相對水平。

      在談到 FrontierCS 的長期規(guī)劃時,忙秋陽說:“這些題目的本質(zhì)決定了它很難做到絕對飽和。最多是我們給的這些人類參照可能會被模型超過,但即使兩年后所有人類參照都被超過了,也不意味著這個題就被‘解決’了。我們?nèi)匀豢梢粤炕恳坏李}目前被做到什么程度。”

      研究團隊設(shè)計了三種難度升級機制:添加新問題、在不改變題目描述的前提下收緊約束條件(比如更嚴格的時間限制或更大規(guī)模的測試用例)、以及在模型接近或超越人類基準(zhǔn)時更新參考解和評分閾值。這確保了基準(zhǔn)測試能夠隨著模型能力的提升而“進化”,避免再次陷入飽和困境。

      這種“動態(tài)進化”的機制,正是 FrontierCS 區(qū)別于傳統(tǒng)評測集的關(guān)鍵。

      在另一位核心貢獻者李知非看來,F(xiàn)rontierCS 的設(shè)計反映了 AI 發(fā)展的一個重要趨勢:從單一模型向“AI 驅(qū)動的系統(tǒng)(AI-Driven Systems)”演進。他認為,未來的 AI 可能不再是單純給出靜態(tài)答案的模型,而是能夠生成海量候選方案,并通過驗證器自動篩選(Filter)甚至修正(Refine)代碼的復(fù)雜系統(tǒng)。面對這種具備“暴力破解”潛力的系統(tǒng),傳統(tǒng)的靜態(tài)測試可能會失效。

      “真正的挑戰(zhàn)在于,能否在沒有標(biāo)準(zhǔn)答案的開放空間里,持續(xù)找到更優(yōu)的解。”李知非解釋道,F(xiàn)rontierCS 利用了算法與系統(tǒng)領(lǐng)域天然具備的“可靠驗證器(Reliable Verifier)”,例如算法的時空復(fù)雜度或系統(tǒng)的吞吐量與延遲,以此構(gòu)建連續(xù)的評分階梯。這促使 AI 系統(tǒng)不能止步于“做對”,而是在算法設(shè)計與系統(tǒng)優(yōu)化的閉環(huán)中嘗試尋找更優(yōu)解。

      團隊將這種設(shè)計理念總結(jié)為“Evolving Challenges for Evolving Intelligence”(進化的智能需要進化的挑戰(zhàn))。他們希望 FrontierCS 不僅是一個評估工具,未來也能成為支持下一代 AI 系統(tǒng)(ADRS)進行自主探索和演進的驗證平臺。

      從更宏觀的視角看,F(xiàn)rontierCS 的意義不僅在于提供一個更難的測試,而在于它為強化學(xué)習(xí)訓(xùn)練開辟了新的可能性。傳統(tǒng)代碼生成任務(wù)的獎勵信號是二元的,要么通過測試,要么不通過。而 FrontierCS 的每道題都提供連續(xù)的、可驗證的質(zhì)量分數(shù),這天然適合作為 RL 訓(xùn)練的獎勵。

      團隊在采訪中表達了這個愿景:“我們希望社區(qū)能在這些開放式問題上找到更好的訓(xùn)練方式,讓模型愿意多想一點,也能因此拿到更多分。”如果這個愿景實現(xiàn),模型或許能學(xué)會一種新的思維模式,不是“找到正確答案然后停止”,而是“持續(xù)探索更好的方案”。

      幾十年來,計算機科學(xué)的許多核心問題,如調(diào)度算法、背包問題、電路設(shè)計等都是典型的開放式優(yōu)化問題。它們沒有一勞永逸的最優(yōu)解,只有在特定約束下的更好近似。如果大語言模型想要從進化為真正的“研究員”,它們必須學(xué)會在這種沒有標(biāo)準(zhǔn)答案的迷霧中導(dǎo)航。FrontierCS 提供的,正是這樣一片實驗場地。

      正如論文結(jié)尾所寫:當(dāng)前的大型推理模型在開放式優(yōu)化和系統(tǒng)級權(quán)衡方面仍然脆弱,在封閉式編程任務(wù)上的能力并不能可靠地遷移到開放式問題求解。這不是一個可以通過簡單堆疊算力或延長思考時間來解決的問題。某種意義上,它指向的是當(dāng)前 AI 能力的一個結(jié)構(gòu)性盲區(qū)——我們訓(xùn)練模型去尋找“正確”的答案,卻沒有教會它們什么是“更好”。

      參考資料:

      1.https://arxiv.org/abs/2512.15699

      2.https://frontier-cs.org/

      3.https://github.com/FrontierCS/Frontier-CS

      運營/排版:何晨龍

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點推薦
      2月27日,美國司法部首次公布了“蘿莉島”相關(guān)案件,

      2月27日,美國司法部首次公布了“蘿莉島”相關(guān)案件,

      現(xiàn)代小青青慕慕
      2025-12-25 20:14:26
      又打起來了,以色列發(fā)起斬首行動,伊朗軍官被殺,美英法集體失聲

      又打起來了,以色列發(fā)起斬首行動,伊朗軍官被殺,美英法集體失聲

      浮光驚掠影
      2025-12-27 06:15:10
      英媒評出2025年斯諾克20強:趙心童非第一,吳宜澤第九丁俊暉落榜

      英媒評出2025年斯諾克20強:趙心童非第一,吳宜澤第九丁俊暉落榜

      楊華評論
      2025-12-26 21:52:52
      這一次,慘遭打臉的楊議,親手撕碎了自己僅剩的體面!

      這一次,慘遭打臉的楊議,親手撕碎了自己僅剩的體面!

      叨嘮
      2025-12-27 04:06:58
      為什么人類吃食草動物的肉,基本上不吃食肉動物的肉?

      為什么人類吃食草動物的肉,基本上不吃食肉動物的肉?

      宇宙時空
      2025-12-26 11:49:12
      郭晶晶霍啟剛給仨娃買蜜雪冰城,爺爺霍震霆結(jié)賬,還去看了車

      郭晶晶霍啟剛給仨娃買蜜雪冰城,爺爺霍震霆結(jié)賬,還去看了車

      小咪侃娛圈
      2025-12-26 14:04:13
      柬埔寨的洪家天下:“金邊肯德基全家桶”

      柬埔寨的洪家天下:“金邊肯德基全家桶”

      Wilsonhe8
      2025-07-01 00:24:02
      一家5口駕車墜江遇難:12天后官方通報,現(xiàn)場畫面流出,朋友發(fā)聲

      一家5口駕車墜江遇難:12天后官方通報,現(xiàn)場畫面流出,朋友發(fā)聲

      博士觀察
      2025-12-26 22:54:30
      今年冬褲“穿松不穿緊”搭配法火了,遮肉顯瘦,誰見了都夸洋氣

      今年冬褲“穿松不穿緊”搭配法火了,遮肉顯瘦,誰見了都夸洋氣

      八分搭配
      2025-12-27 00:18:12
      阿姨這身打扮就是高級感穿搭的完美師范

      阿姨這身打扮就是高級感穿搭的完美師范

      美女穿搭分享
      2025-12-25 21:07:18
      奇瑞銷售咒罵客戶買本田是開“棺材車”,官方致歉:將嚴肅整改

      奇瑞銷售咒罵客戶買本田是開“棺材車”,官方致歉:將嚴肅整改

      PChome電腦之家
      2025-12-26 12:07:37
      中國攻克世界級難題?1.2萬億引爆西藏經(jīng)濟,領(lǐng)先世界半個世紀

      中國攻克世界級難題?1.2萬億引爆西藏經(jīng)濟,領(lǐng)先世界半個世紀

      墨印齋
      2025-12-22 17:35:49
      比恒大還慘!中國第二大民企倒了,負債7500億,創(chuàng)始人被帶走

      比恒大還慘!中國第二大民企倒了,負債7500億,創(chuàng)始人被帶走

      社會日日鮮
      2025-12-25 08:56:26
      劉強東拿下理想汽車,震驚行業(yè)!

      劉強東拿下理想汽車,震驚行業(yè)!

      財經(jīng)三分鐘pro
      2025-12-25 11:43:53
      中方?jīng)]留情面,把變色龍馬克龍當(dāng)靶子,給了歐盟一個血淋淋的教訓(xùn)

      中方?jīng)]留情面,把變色龍馬克龍當(dāng)靶子,給了歐盟一個血淋淋的教訓(xùn)

      領(lǐng)悟看世界
      2025-12-27 01:44:49
      “這就是命啊!”美國一博主采訪流浪漢,詢問他之前是干什么的?

      “這就是命啊!”美國一博主采訪流浪漢,詢問他之前是干什么的?

      南權(quán)先生
      2025-12-26 16:59:33
      大陸最后一名軍統(tǒng)女特務(wù),平日里每日一包煙,84歲高齡時感慨道:共產(chǎn)黨養(yǎng)了我整整31年

      大陸最后一名軍統(tǒng)女特務(wù),平日里每日一包煙,84歲高齡時感慨道:共產(chǎn)黨養(yǎng)了我整整31年

      史海殘云
      2025-12-26 11:42:14
      扯掉綁在人民身上的斬殺線——感謝救星

      扯掉綁在人民身上的斬殺線——感謝救星

      超級學(xué)爸蛋總
      2025-12-26 21:32:37
      官宣!新地鐵線開通時間:周六10時15分,濟南地鐵4、8號線和6號線三線齊發(fā)!

      官宣!新地鐵線開通時間:周六10時15分,濟南地鐵4、8號線和6號線三線齊發(fā)!

      魯中晨報
      2025-12-26 07:05:06
      網(wǎng)友隱姓埋名揭秘行業(yè)內(nèi)幕,打破信息差避坑,實在太給力了

      網(wǎng)友隱姓埋名揭秘行業(yè)內(nèi)幕,打破信息差避坑,實在太給力了

      另子維愛讀史
      2025-12-26 16:49:26
      2025-12-27 07:03:00
      DeepTech深科技 incentive-icons
      DeepTech深科技
      麻省理工科技評論獨家合作
      16041文章數(shù) 514436關(guān)注度
      往期回顧 全部

      科技要聞

      收割3000億!拼多多"土辦法"熬死所有巨頭

      頭條要聞

      老人婚宴上被提醒孫女非親生 做鑒定后忍3年忍不了了

      頭條要聞

      老人婚宴上被提醒孫女非親生 做鑒定后忍3年忍不了了

      體育要聞

      開翻航母之后,他決定親手造一艘航母

      娛樂要聞

      王傳君生病后近照變化大,面部浮腫

      財經(jīng)要聞

      投資巨鱷羅杰斯最新持倉:只留四種資產(chǎn)

      汽車要聞

      兩大CEO試駕 華為乾崑*啟境開啟首款獵裝轎跑路測

      態(tài)度原創(chuàng)

      健康
      游戲
      親子
      教育
      軍事航空

      這些新療法,讓化療不再那么痛苦

      用騰訊會議開黑打游戲,怎么就成了潮流?

      親子要聞

      彤彤今天開心了!

      教育要聞

      2026云南專升本大綱解析!三分鐘鎖定重點

      軍事要聞

      烏最新20點俄烏和平草案遞交莫斯科 俄方拒絕

      無障礙瀏覽 進入關(guān)懷版 主站蜘蛛池模板: 国产无套白浆一区二区| 黑人异族巨大巨大巨粗| 日韩一区二区三区三四区视频在线观看| 无码久久久久久| 中国AV网| 国产精品办公室沙发| 日韩人妻熟女中文字幕a美景之屋 国产99久久久国产精品~~牛 | 国产精品入口麻豆| 国产熟妇婬乱A片免费看牛牛| 精品综合在线| 先锋影音av最新资源| 亚洲精品有码在线观看| 亚州精品国产精品乱码不99按摩| 定结县| 131美女爱做视频| 夜夜欢天天干| 99riav精品免费视频观看| 亚洲熟女1P| 欧美中文字幕人妻系列| 久激情内射婷内射蜜桃| xxx综合网| 亚州中文字幕无码| 色婷AV| 超碰人人摸| 国产AV一区二区三区精品| 无套内谢孕妇毛片免费看| 四虎成人精品无码永久在线| 九九中文视频| 浦东新区| 曲靖市| 国精产品一区一区三区有限公司杨 | 瓦房店市| 久久精品亚洲| 国产免费一区二区三区在线观看| 青青青青青手机视频在线观看视频 | 亚洲色欲在线播放一区二区三区| 中文字幕日本六区小电影| 美女黄区| 亚洲色A| 国产精品成| 少妇爽到呻吟的视频|