<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

      KTH皇家理工學(xué)院研究揭示:“運(yùn)氣因子”影響AI智能體評(píng)估可靠性

      0
      分享至


      當(dāng)你玩同一款游戲十次,每次得分都不一樣時(shí),你會(huì)怎么判斷自己的真實(shí)水平?這個(gè)看似簡(jiǎn)單的問(wèn)題,正在人工智能領(lǐng)域引發(fā)一場(chǎng)關(guān)于評(píng)估方法可靠性的深度反思。

      這項(xiàng)由瑞典KTH皇家理工學(xué)院的研究團(tuán)隊(duì)進(jìn)行的突破性研究,發(fā)表于2026年2月6日的arXiv預(yù)印本平臺(tái)(論文編號(hào):arXiv:2602.07150v1),專(zhuān)門(mén)調(diào)查了AI智能體評(píng)估過(guò)程中的隨機(jī)性問(wèn)題。研究團(tuán)隊(duì)通過(guò)收集6萬(wàn)個(gè)智能體運(yùn)行軌跡、消耗超過(guò)255億個(gè)令牌和188萬(wàn)次工具調(diào)用,系統(tǒng)性地揭示了一個(gè)被學(xué)術(shù)界長(zhǎng)期忽視的重要問(wèn)題:目前廣泛使用的單次運(yùn)行評(píng)估方法,可能讓我們對(duì)AI系統(tǒng)真實(shí)能力的判斷產(chǎn)生嚴(yán)重誤解。

      這項(xiàng)研究的意義遠(yuǎn)不止于學(xué)術(shù)探討。在當(dāng)前AI技術(shù)快速發(fā)展的時(shí)代,無(wú)論是科技公司決定采用哪個(gè)模型,還是研究人員判斷某項(xiàng)技術(shù)是否真的有所突破,都嚴(yán)重依賴(lài)于性能評(píng)估分?jǐn)?shù)。如果這些分?jǐn)?shù)本身就不夠可靠,那么整個(gè)行業(yè)的決策基礎(chǔ)都可能存在問(wèn)題。研究團(tuán)隊(duì)發(fā)現(xiàn),即使是在理論上完全確定性的設(shè)置下(溫度設(shè)為0),AI智能體的表現(xiàn)仍然會(huì)出現(xiàn)顯著波動(dòng),這種波動(dòng)足以讓一個(gè)看似2-3個(gè)百分點(diǎn)的"改進(jìn)"實(shí)際上只是評(píng)估噪音。

      想象一下,如果你通過(guò)擲硬幣來(lái)判斷一個(gè)新藥是否比舊藥更有效,你需要擲多少次才能得出可信的結(jié)論?這項(xiàng)研究本質(zhì)上就是在回答AI領(lǐng)域的類(lèi)似問(wèn)題:我們需要運(yùn)行多少次測(cè)試,才能真正確定一個(gè)AI系統(tǒng)是否比另一個(gè)更優(yōu)秀?

      一、智能體評(píng)估的"運(yùn)氣游戲":為什么單次測(cè)試不夠用?

      在探討這個(gè)問(wèn)題之前,我們需要先理解什么是智能體評(píng)估。可以把AI智能體想象成一個(gè)會(huì)使用各種工具來(lái)解決編程問(wèn)題的虛擬助手。比如在SWE-Bench-Verified這個(gè)廣受歡迎的測(cè)試基準(zhǔn)中,智能體需要像真正的程序員一樣,閱讀GitHub上的問(wèn)題描述,分析代碼,使用各種開(kāi)發(fā)工具,最終提交能夠通過(guò)自動(dòng)化測(cè)試的解決方案。

      傳統(tǒng)的評(píng)估方法非常直接:讓智能體嘗試解決500個(gè)編程問(wèn)題,統(tǒng)計(jì)成功解決了多少個(gè),然后計(jì)算成功率。這種方法被稱(chēng)為pass@1,意思是"第一次嘗試的成功概率"。聽(tīng)起來(lái)很合理,對(duì)吧?問(wèn)題是,大多數(shù)研究人員和公司都只運(yùn)行一次測(cè)試就得出結(jié)論,就像只擲一次硬幣就判斷這枚硬幣是否公平一樣。

      研究團(tuán)隊(duì)通過(guò)大規(guī)模實(shí)驗(yàn)發(fā)現(xiàn)了一個(gè)令人震驚的事實(shí):同樣的智能體在同樣的任務(wù)上,不同運(yùn)行的成功率可能相差2.2到6.0個(gè)百分點(diǎn)。這意味著什么呢?假設(shè)某個(gè)智能體在一次測(cè)試中取得了31%的成功率,在另一次測(cè)試中可能只有28.8%,或者高達(dá)32.4%。這種差異足夠大,以至于一個(gè)聲稱(chēng)"改進(jìn)了3個(gè)百分點(diǎn)"的新系統(tǒng),實(shí)際上可能根本沒(méi)有任何真正的改進(jìn),只是運(yùn)氣好而已。

      更令人意外的是,即使在理論上完全確定性的條件下(將隨機(jī)性參數(shù)設(shè)為0),這種波動(dòng)依然存在。這就像是一臺(tái)看似完全按照固定程序運(yùn)行的機(jī)器,卻仍然會(huì)產(chǎn)生不同的結(jié)果。原因在于現(xiàn)代AI推理引擎中存在各種不可避免的隨機(jī)因素:浮點(diǎn)運(yùn)算的精度差異、硬件優(yōu)化策略、并行處理的時(shí)序變化等等。

      研究團(tuán)隊(duì)選擇了三個(gè)不同的AI模型進(jìn)行測(cè)試:Qwen3-32B(一個(gè)中等規(guī)模的通用模型,在學(xué)術(shù)界廣受歡迎)、DeepSWE-preview(專(zhuān)門(mén)為編程任務(wù)微調(diào)的模型)、以及Devstral-2-123B(一個(gè)在編程領(lǐng)域表現(xiàn)卓越的大型開(kāi)源模型)。同時(shí),他們使用了兩種不同的測(cè)試框架:自己開(kāi)發(fā)的nano-agent(確保沒(méi)有被任何模型的訓(xùn)練數(shù)據(jù)污染)和業(yè)界常用的R2E-Gym。

      通過(guò)這種全面的實(shí)驗(yàn)設(shè)計(jì),研究團(tuán)隊(duì)總共收集了6萬(wàn)個(gè)完整的智能體運(yùn)行軌跡。每個(gè)軌跡都記錄了智能體從接收任務(wù)到最終提交解決方案的完整過(guò)程,包括它的"思考"過(guò)程、使用的工具、獲得的反饋、以及最終的成敗。這種詳細(xì)的記錄讓研究人員能夠深入分析隨機(jī)性到底是在哪個(gè)環(huán)節(jié)、以什么方式影響最終結(jié)果的。

      結(jié)果表明,這種評(píng)估中的隨機(jī)性不是小問(wèn)題,而是系統(tǒng)性的挑戰(zhàn)。當(dāng)我們看到一篇論文聲稱(chēng)某個(gè)新方法比現(xiàn)有方法"提升了2%"時(shí),這個(gè)提升可能完全被評(píng)估過(guò)程中的自然波動(dòng)掩蓋。這就像是在嘈雜的環(huán)境中試圖聽(tīng)清楚微弱的音樂(lè),背景噪音可能比真正的信號(hào)還要強(qiáng)烈。

      二、軌跡分歧的蝴蝶效應(yīng):小差異如何滾雪球般影響最終結(jié)果?

      為了理解為什么智能體的表現(xiàn)會(huì)如此不穩(wěn)定,研究團(tuán)隊(duì)進(jìn)行了一項(xiàng)fascinating的分析:他們逐個(gè)比較了同一任務(wù)的不同運(yùn)行軌跡,精確找出兩次運(yùn)行開(kāi)始出現(xiàn)差異的第一個(gè)令牌位置。

      這里的"令牌"可以理解為AI模型處理文本的基本單位,類(lèi)似于我們閱讀時(shí)的一個(gè)個(gè)詞匯。通過(guò)這種分析,研究人員發(fā)現(xiàn)了一個(gè)令人驚訝的現(xiàn)象:絕大多數(shù)情況下,不同運(yùn)行之間的分歧都發(fā)生得非常早,通常在整個(gè)對(duì)話(huà)軌跡的前1%就出現(xiàn)了差異。

      以一個(gè)具體案例來(lái)說(shuō)明這種現(xiàn)象的威力。考慮這樣一個(gè)場(chǎng)景:兩次運(yùn)行都在處理同一個(gè)Django框架的編程問(wèn)題,需要為分頁(yè)器類(lèi)添加迭代功能。在前93個(gè)令牌中,兩次運(yùn)行產(chǎn)生了完全相同的思考過(guò)程,都正確理解了任務(wù)要求。但在第94個(gè)令牌處,出現(xiàn)了一個(gè)微妙的差異:第一次運(yùn)行生成了"讓我搜索Paginator類(lèi)",而第二次運(yùn)行生成了"讓我檢查Django源代碼"。

      這個(gè)看似微不足道的措辭差異,就像蝴蝶扇動(dòng)翅膀一樣,引發(fā)了完全不同的連鎖反應(yīng)。第一次運(yùn)行基于這個(gè)措辭,決定在特定文件中搜索,但由于搜索范圍太窄,最終在錯(cuò)誤的位置應(yīng)用了補(bǔ)丁,導(dǎo)致Python語(yǔ)法錯(cuò)誤,任務(wù)失敗。第二次運(yùn)行則進(jìn)行了更廣泛的探索,找到了正確的插入點(diǎn),成功完成了任務(wù)。

      這種現(xiàn)象的根本原因在于AI模型的"自回歸條件機(jī)制"。簡(jiǎn)單來(lái)說(shuō),AI模型生成每一個(gè)新詞時(shí),都會(huì)考慮之前生成的所有內(nèi)容。一旦某個(gè)位置出現(xiàn)了不同的詞匯,后續(xù)的所有生成過(guò)程都會(huì)受到影響,就像多米諾骨牌效應(yīng)一樣。在智能體任務(wù)中,這種效應(yīng)會(huì)通過(guò)工具調(diào)用、環(huán)境反饋、后續(xù)推理等多個(gè)環(huán)節(jié)不斷放大,最終導(dǎo)致完全不同的解決策略。

      溫度參數(shù)的設(shè)置確實(shí)會(huì)影響分歧出現(xiàn)的時(shí)機(jī)。在使用推薦溫度設(shè)置時(shí),DeepSWE-preview模型的中位分歧位置是第5個(gè)令牌,而在溫度為0時(shí),這個(gè)位置延遲到第56個(gè)令牌。但關(guān)鍵是,即使在理論上的確定性設(shè)置下,分歧仍然不可避免地會(huì)發(fā)生。

      研究團(tuán)隊(duì)還發(fā)現(xiàn),隨著任務(wù)變得更加復(fù)雜和需要更長(zhǎng)的交互過(guò)程,這種早期分歧的影響會(huì)越來(lái)越顯著。因?yàn)榉制绨l(fā)生得越早,后續(xù)的推理鏈條就越長(zhǎng),累積的差異就越大。這預(yù)示著,隨著AI智能體承擔(dān)越來(lái)越復(fù)雜的長(zhǎng)期任務(wù),評(píng)估可靠性的挑戰(zhàn)只會(huì)變得更加嚴(yán)峻。

      這種軌跡分歧現(xiàn)象揭示了一個(gè)深層次的問(wèn)題:智能體的成功往往不僅僅依賴(lài)于其核心能力,還很大程度上依賴(lài)于隨機(jī)探索能夠找到正確路徑的運(yùn)氣。這并不是說(shuō)智能體的能力不重要,而是說(shuō)在當(dāng)前的技術(shù)水平下,隨機(jī)性仍然是影響性能的重要因素。

      三、性能邊界的真相:樂(lè)觀估計(jì)與悲觀估計(jì)之間的巨大差距

      當(dāng)我們認(rèn)識(shí)到智能體性能存在如此大的隨機(jī)波動(dòng)后,一個(gè)自然的問(wèn)題就出現(xiàn)了:如果允許多次嘗試,智能體的最佳表現(xiàn)和最差表現(xiàn)之間會(huì)有多大差距?研究團(tuán)隊(duì)通過(guò)引入pass@k和pass∧k兩個(gè)指標(biāo),為我們揭示了一個(gè)驚人的事實(shí)。

      pass@k指標(biāo)回答的是這樣一個(gè)問(wèn)題:如果我們?cè)试S智能體對(duì)每個(gè)任務(wù)嘗試k次,然后選擇其中最好的結(jié)果,成功率會(huì)是多少?這可以被視為對(duì)智能體能力的"樂(lè)觀估計(jì)"。相對(duì)應(yīng)地,pass∧k指標(biāo)則問(wèn):如果要求智能體在k次嘗試中都必須成功,成功率又會(huì)是多少?這代表了"悲觀估計(jì)",反映了系統(tǒng)的可靠性和一致性。

      通過(guò)這兩個(gè)指標(biāo),研究團(tuán)隊(duì)發(fā)現(xiàn)了智能體性能的一個(gè)重要特征:存在巨大的性能包絡(luò)。以DeepSWE-preview模型在r2e-gym框架上的表現(xiàn)為例,單次嘗試的成功率是34.4%。但如果允許5次重試,最優(yōu)情況下的成功率可以達(dá)到52.9%,提升了18.5個(gè)百分點(diǎn)。而在最差情況下,要求5次嘗試都成功的任務(wù)只有15.5%,比單次嘗試的成功率還要低近19個(gè)百分點(diǎn)。

      這意味著什么呢?如果你是一家公司的技術(shù)主管,正在考慮部署這樣的智能體系統(tǒng),你會(huì)發(fā)現(xiàn)自己面臨一個(gè)兩難選擇:在最理想的情況下(可以容忍一定的重試成本),系統(tǒng)能夠解決超過(guò)一半的問(wèn)題;但如果你需要系統(tǒng)具有高度的可靠性(不能承受失敗的風(fēng)險(xiǎn)),那么只有不到六分之一的問(wèn)題能夠得到穩(wěn)定解決。

      有趣的是,不同智能體之間的性能包絡(luò)大小差異很大。高性能的Devstral-2模型在nano-agent框架上的表現(xiàn)相對(duì)更加一致:?jiǎn)未纬晒β?3.5%,5次重試最多提升到76.2%(提升12.7個(gè)百分點(diǎn)),5次都成功的概率為49.1%(下降14.4個(gè)百分點(diǎn))。這表明更強(qiáng)的模型不僅整體性能更好,而且行為也更加可預(yù)測(cè)。

      但即使是這種相對(duì)一致的高性能模型,仍然顯示出對(duì)隨機(jī)探索的顯著依賴(lài)。在所有測(cè)試配置中,pass@5相對(duì)于pass@1的最大提升竟然達(dá)到了24.9個(gè)百分點(diǎn),出現(xiàn)在Devstral-2模型使用r2e-gym框架且溫度為0的設(shè)置下。這個(gè)數(shù)字幾乎是單次嘗試成功率的一半,充分說(shuō)明了隨機(jī)性對(duì)性能的巨大影響。

      這種性能包絡(luò)的存在揭示了當(dāng)前智能體技術(shù)的一個(gè)本質(zhì)特征:它們的成功往往不是基于確定性的問(wèn)題解決能力,而是依賴(lài)于隨機(jī)探索能夠偶然找到正確路徑。這就像是一個(gè)迷宮探險(xiǎn)者,不是因?yàn)橛涀×说貓D而找到出口,而是通過(guò)隨機(jī)游走碰巧發(fā)現(xiàn)了正確路線(xiàn)。

      從實(shí)用角度來(lái)看,這種性能包絡(luò)為智能體的部署提供了重要參考。如果你的應(yīng)用場(chǎng)景可以容忍一定的計(jì)算成本和時(shí)間延遲,通過(guò)多次嘗試確實(shí)可以顯著提升成功率。但如果你需要的是高度可靠的自動(dòng)化系統(tǒng),那么當(dāng)前的智能體技術(shù)可能還不能滿(mǎn)足要求,至少不能在單次嘗試的基礎(chǔ)上滿(mǎn)足要求。

      四、統(tǒng)計(jì)功效分析:科學(xué)評(píng)估需要多少次測(cè)試?

      認(rèn)識(shí)到單次測(cè)試不足以可靠評(píng)估智能體性能后,研究團(tuán)隊(duì)著手回答一個(gè)實(shí)用性很強(qiáng)的問(wèn)題:為了可靠地檢測(cè)出真正的性能改進(jìn),我們需要進(jìn)行多少次獨(dú)立測(cè)試?

      這個(gè)問(wèn)題的答案取決于三個(gè)關(guān)鍵因素:你希望檢測(cè)的改進(jìn)幅度有多大,你愿意承受多大的統(tǒng)計(jì)錯(cuò)誤風(fēng)險(xiǎn),以及智能體性能的固有波動(dòng)程度。研究團(tuán)隊(duì)通過(guò)統(tǒng)計(jì)功效分析,為不同情況提供了具體的指導(dǎo)建議。

      在中等波動(dòng)情況下(標(biāo)準(zhǔn)差約1.5%,這是實(shí)驗(yàn)中觀察到的典型值),如果想要以95%的置信度檢測(cè)出2個(gè)百分點(diǎn)的改進(jìn),需要進(jìn)行約9次獨(dú)立運(yùn)行。這意味著,當(dāng)你看到一篇論文聲稱(chēng)某個(gè)方法比基線(xiàn)"提升了2%"時(shí),如果這個(gè)結(jié)論只基于單次運(yùn)行,那么它的可信度是非常有限的。

      對(duì)于更小的改進(jìn)幅度,所需的測(cè)試次數(shù)會(huì)急劇增加。檢測(cè)1個(gè)百分點(diǎn)的改進(jìn)需要約36次運(yùn)行,而在高波動(dòng)情況下(標(biāo)準(zhǔn)差1.8%),這個(gè)數(shù)字會(huì)上升到51次。相比之下,檢測(cè)5個(gè)百分點(diǎn)或更大的改進(jìn)只需要2-3次運(yùn)行就足夠了。

      這些數(shù)字揭示了當(dāng)前AI研究中的一個(gè)系統(tǒng)性問(wèn)題:大多數(shù)研究聲稱(chēng)的小幅改進(jìn)(1-3個(gè)百分點(diǎn))實(shí)際上需要遠(yuǎn)比常見(jiàn)實(shí)踐更多的測(cè)試次數(shù)才能得到可靠驗(yàn)證。研究團(tuán)隊(duì)自己的研究使用了每個(gè)配置10次運(yùn)行,根據(jù)統(tǒng)計(jì)分析,這足以可靠檢測(cè)2個(gè)百分點(diǎn)或更大的改進(jìn),但對(duì)于更小的改進(jìn)則不夠充分。

      波動(dòng)程度的差異也會(huì)造成巨大影響。在最理想情況下(標(biāo)準(zhǔn)差0.7%,代表實(shí)驗(yàn)中觀察到的最小波動(dòng)),檢測(cè)1個(gè)百分點(diǎn)的改進(jìn)只需要8次運(yùn)行。但在最困難情況下(標(biāo)準(zhǔn)差1.8%),同樣的檢測(cè)需要51次運(yùn)行。這說(shuō)明不同的智能體、任務(wù)或評(píng)估環(huán)境可能具有非常不同的評(píng)估復(fù)雜性。

      這些統(tǒng)計(jì)功效分析的結(jié)果對(duì)研究實(shí)踐具有重要意義。首先,它們?yōu)檠芯咳藛T提供了合理規(guī)劃實(shí)驗(yàn)規(guī)模的科學(xué)依據(jù)。與其盲目進(jìn)行大量測(cè)試或草率地基于少量樣本得出結(jié)論,研究人員可以根據(jù)預(yù)期的效應(yīng)大小和所需的統(tǒng)計(jì)嚴(yán)格性來(lái)確定適當(dāng)?shù)臏y(cè)試次數(shù)。

      其次,這些結(jié)果也為評(píng)估研究結(jié)果的可信度提供了標(biāo)準(zhǔn)。當(dāng)你閱讀一篇AI研究論文時(shí),可以根據(jù)其聲稱(chēng)的改進(jìn)幅度和實(shí)際使用的測(cè)試次數(shù)來(lái)判斷結(jié)論的可靠性。如果一項(xiàng)研究基于單次運(yùn)行就聲稱(chēng)1%的改進(jìn),那么這個(gè)結(jié)論幾乎可以肯定是不可靠的。

      最后,統(tǒng)計(jì)功效分析也揭示了當(dāng)前評(píng)估實(shí)踐與科學(xué)嚴(yán)謹(jǐn)性之間的張力。進(jìn)行足夠多的測(cè)試以確保可靠性需要大量的計(jì)算資源,這對(duì)于資源有限的研究團(tuán)隊(duì)可能是一個(gè)挑戰(zhàn)。但正如研究團(tuán)隊(duì)指出的,這種投資是必要的,因?yàn)榛诓豢煽吭u(píng)估的決策可能導(dǎo)致更大的長(zhǎng)期成本。

      五、評(píng)估偏差的連鎖反應(yīng):從個(gè)體研究到整個(gè)學(xué)術(shù)生態(tài)系統(tǒng)

      單個(gè)研究中的評(píng)估不可靠性問(wèn)題,實(shí)際上只是冰山一角。當(dāng)我們將視角擴(kuò)展到整個(gè)AI研究生態(tài)系統(tǒng)時(shí),會(huì)發(fā)現(xiàn)這個(gè)問(wèn)題的影響遠(yuǎn)比想象中更加深遠(yuǎn)和系統(tǒng)性。

      在學(xué)術(shù)界,研究人員面臨著發(fā)表壓力和資源限制的雙重約束。當(dāng)評(píng)估成本昂貴且耗時(shí)時(shí),很多研究團(tuán)隊(duì)會(huì)選擇最經(jīng)濟(jì)的方案:?jiǎn)未芜\(yùn)行評(píng)估。這種做法在短期內(nèi)看起來(lái)是合理的,但在長(zhǎng)期內(nèi)卻可能導(dǎo)致科學(xué)進(jìn)步的錯(cuò)覺(jué)。當(dāng)多個(gè)研究團(tuán)隊(duì)都采用這種不夠嚴(yán)謹(jǐn)?shù)脑u(píng)估方法時(shí),整個(gè)領(lǐng)域可能會(huì)被一系列實(shí)際上并不存在的"改進(jìn)"所誤導(dǎo)。

      更嚴(yán)重的是,這種評(píng)估偏差會(huì)在學(xué)術(shù)傳播過(guò)程中被放大。影響因子較高的期刊和會(huì)議通常更青睞報(bào)告顯著改進(jìn)的論文,而那些顯示微小或無(wú)差異的結(jié)果往往難以發(fā)表。這種發(fā)表偏見(jiàn)與評(píng)估方法的不可靠性相結(jié)合,可能會(huì)讓整個(gè)學(xué)術(shù)社區(qū)對(duì)某個(gè)技術(shù)方向的真實(shí)進(jìn)展產(chǎn)生系統(tǒng)性的高估。

      在工業(yè)界,情況可能更加復(fù)雜。公司在決定采用某個(gè)新模型或技術(shù)時(shí),通常會(huì)參考公開(kāi)的基準(zhǔn)測(cè)試結(jié)果和學(xué)術(shù)論文。如果這些參考資料中充滿(mǎn)了基于不可靠評(píng)估的夸大聲明,那么商業(yè)決策的質(zhì)量也會(huì)受到影響。一家公司可能會(huì)投入大量資源部署一個(gè)實(shí)際性能并不如預(yù)期的系統(tǒng),或者錯(cuò)過(guò)一個(gè)真正有價(jià)值但被低估的技術(shù)。

      排行榜和基準(zhǔn)測(cè)試網(wǎng)站的興起進(jìn)一步加劇了這個(gè)問(wèn)題。這些平臺(tái)為了保持時(shí)效性和降低運(yùn)營(yíng)成本,通常也采用單次評(píng)估的方式。當(dāng)研究人員和從業(yè)者將這些排行榜作為技術(shù)選擇的重要參考時(shí),他們實(shí)際上是在基于可能充滿(mǎn)噪音的信息做決策。

      研究團(tuán)隊(duì)通過(guò)具體數(shù)據(jù)揭示了這種系統(tǒng)性偏差的規(guī)模。在他們的實(shí)驗(yàn)中,同一個(gè)智能體的單次運(yùn)行成功率可能在28.8%到32.4%之間波動(dòng)。如果一個(gè)基準(zhǔn)測(cè)試網(wǎng)站恰好采用了較低的那次運(yùn)行結(jié)果,而另一個(gè)網(wǎng)站采用了較高的結(jié)果,兩者之間就會(huì)出現(xiàn)3.6個(gè)百分點(diǎn)的差異。這個(gè)差異足以改變技術(shù)排名,影響用戶(hù)的選擇。

      更令人擔(dān)憂(yōu)的是,這種評(píng)估不確定性可能會(huì)影響研究方向的選擇。如果某個(gè)有前景的研究方向恰好在幾次關(guān)鍵的評(píng)估中運(yùn)氣不佳,可能會(huì)被錯(cuò)誤地認(rèn)為是死胡同而被放棄。相反,一個(gè)實(shí)際效果有限的方法如果運(yùn)氣較好,可能會(huì)吸引大量后續(xù)研究投入。這種誤導(dǎo)可能會(huì)讓整個(gè)研究社區(qū)在錯(cuò)誤的道路上浪費(fèi)寶貴的時(shí)間和資源。

      從資源分配的角度來(lái)看,這種評(píng)估偏差也會(huì)產(chǎn)生不良后果。研究資金和計(jì)算資源總是有限的,如果決策者基于不可靠的評(píng)估結(jié)果來(lái)分配這些資源,就可能導(dǎo)致資源配置的次優(yōu)化。真正有價(jià)值的研究可能得不到足夠支持,而被高估的項(xiàng)目卻獲得了過(guò)多資源。

      解決這個(gè)系統(tǒng)性問(wèn)題需要整個(gè)學(xué)術(shù)和工業(yè)社區(qū)的共同努力。期刊和會(huì)議需要制定更嚴(yán)格的評(píng)估標(biāo)準(zhǔn),要求研究者報(bào)告多次運(yùn)行的結(jié)果和置信區(qū)間。基準(zhǔn)測(cè)試平臺(tái)需要采用更可靠的評(píng)估方法,即使這意味著更高的運(yùn)營(yíng)成本。資助機(jī)構(gòu)可能需要為更嚴(yán)謹(jǐn)?shù)脑u(píng)估實(shí)踐提供專(zhuān)門(mén)的資金支持。

      這種變革不會(huì)一蹴而就,但它是確保AI研究健康發(fā)展的必要步驟。正如研究團(tuán)隊(duì)所指出的,雖然更嚴(yán)謹(jǐn)?shù)脑u(píng)估實(shí)踐會(huì)增加短期成本,但這些投資對(duì)于避免基于錯(cuò)誤信息的長(zhǎng)期決策來(lái)說(shuō)是完全值得的。

      六、建立可靠評(píng)估的實(shí)用指南:從理論到實(shí)踐

      面對(duì)評(píng)估可靠性的挑戰(zhàn),研究團(tuán)隊(duì)不僅指出了問(wèn)題,更重要的是提供了一套實(shí)用的解決方案。這些建議不是抽象的理論原則,而是可以立即應(yīng)用于實(shí)際研究和開(kāi)發(fā)工作中的具體指導(dǎo)。

      核心建議的第一個(gè)要素是根據(jù)預(yù)期改進(jìn)幅度來(lái)確定合適的測(cè)試次數(shù)。這就像是醫(yī)學(xué)試驗(yàn)需要根據(jù)預(yù)期的治療效果來(lái)確定樣本大小一樣。如果你的研究目標(biāo)是檢測(cè)2個(gè)百分點(diǎn)的改進(jìn),那么10次獨(dú)立運(yùn)行基本足夠;但如果你希望捕捉1個(gè)百分點(diǎn)的細(xì)微差別,就需要至少30-40次運(yùn)行。這種基于統(tǒng)計(jì)功效的實(shí)驗(yàn)設(shè)計(jì)能夠確保你的結(jié)論具有足夠的可信度。

      第二個(gè)關(guān)鍵要素是采用多維度的性能指標(biāo)體系。傳統(tǒng)的pass@1雖然重要,但它只能反映平均性能水平。研究團(tuán)隊(duì)建議同時(shí)報(bào)告pass@k(樂(lè)觀估計(jì))和pass∧k(悲觀估計(jì)),以全面刻畫(huà)智能體的性能包絡(luò)。這就像是描述一個(gè)人的身體狀況時(shí),不僅要報(bào)告平均血壓,還要了解血壓的波動(dòng)范圍一樣。

      具體來(lái)說(shuō),pass@5能夠告訴你,如果允許系統(tǒng)進(jìn)行5次嘗試并選擇最佳結(jié)果,能夠達(dá)到什么樣的性能上限。這對(duì)于那些可以承受一定計(jì)算成本來(lái)追求更高成功率的應(yīng)用場(chǎng)景非常有價(jià)值。而pass∧5則顯示了系統(tǒng)的一致性水平,對(duì)于需要高可靠性的關(guān)鍵應(yīng)用具有重要參考價(jià)值。

      第三個(gè)重要建議是在報(bào)告結(jié)果時(shí)提供完整的統(tǒng)計(jì)信息。這包括多次運(yùn)行的平均值、標(biāo)準(zhǔn)差、置信區(qū)間,以及每次獨(dú)立運(yùn)行的具體結(jié)果。這種透明的報(bào)告方式不僅能讓讀者更好地理解結(jié)果的可靠性,也為其他研究者的后續(xù)工作提供了更豐富的信息基礎(chǔ)。

      研究團(tuán)隊(duì)還特別強(qiáng)調(diào)了溫度參數(shù)設(shè)置的重要性。他們發(fā)現(xiàn),即使在理論上的確定性設(shè)置(溫度=0)下,評(píng)估結(jié)果仍然存在顯著波動(dòng)。因此,研究者不應(yīng)該指望通過(guò)降低溫度來(lái)完全消除隨機(jī)性,而應(yīng)該接受并合理量化這種不確定性。

      對(duì)于資源受限的研究團(tuán)隊(duì),研究團(tuán)隊(duì)提供了一些實(shí)用的折衷方案。如果無(wú)法承擔(dān)大規(guī)模多次運(yùn)行的成本,至少應(yīng)該在最重要的比較實(shí)驗(yàn)中采用更嚴(yán)格的評(píng)估方法。另外,可以考慮與其他研究團(tuán)隊(duì)合作,分擔(dān)計(jì)算資源的成本,或者申請(qǐng)專(zhuān)門(mén)用于嚴(yán)謹(jǐn)評(píng)估的資助支持。

      從技術(shù)實(shí)現(xiàn)角度,研究團(tuán)隊(duì)建議建立標(biāo)準(zhǔn)化的評(píng)估工具和流程。這些工具應(yīng)該能夠自動(dòng)進(jìn)行多次運(yùn)行、統(tǒng)計(jì)分析和結(jié)果可視化,降低嚴(yán)謹(jǐn)評(píng)估的技術(shù)門(mén)檻。同時(shí),應(yīng)該建立共享的計(jì)算資源池,讓更多研究團(tuán)隊(duì)能夠承擔(dān)起嚴(yán)格評(píng)估的成本。

      對(duì)于期刊編輯和審稿人,研究團(tuán)隊(duì)建議制定更明確的評(píng)估標(biāo)準(zhǔn)。聲稱(chēng)小幅改進(jìn)(如1-3個(gè)百分點(diǎn))的論文應(yīng)該被要求提供足夠的統(tǒng)計(jì)證據(jù)。單次運(yùn)行基礎(chǔ)上的微小改進(jìn)聲明應(yīng)該被視為初步結(jié)果,需要更多驗(yàn)證才能被接受為正式結(jié)論。

      這些建議的實(shí)施確實(shí)會(huì)增加研究成本,但研究團(tuán)隊(duì)通過(guò)成本效益分析表明,這種投資是合理的。一個(gè)基于不可靠評(píng)估的錯(cuò)誤決策,可能導(dǎo)致數(shù)月甚至數(shù)年的開(kāi)發(fā)工作走向錯(cuò)誤方向,其成本遠(yuǎn)遠(yuǎn)超過(guò)嚴(yán)格評(píng)估所需的計(jì)算資源。

      更重要的是,這些建議并不是要求所有研究都必須達(dá)到相同的嚴(yán)謹(jǐn)標(biāo)準(zhǔn)。對(duì)于探索性研究和概念驗(yàn)證,相對(duì)寬松的評(píng)估可能是合理的。但對(duì)于那些聲稱(chēng)實(shí)現(xiàn)重要突破、即將進(jìn)入實(shí)用化階段的技術(shù),更高的評(píng)估標(biāo)準(zhǔn)是必要的。

      七、技術(shù)實(shí)現(xiàn)的細(xì)節(jié)考量:從實(shí)驗(yàn)設(shè)計(jì)到結(jié)果分析的完整流程

      將嚴(yán)格評(píng)估的理念轉(zhuǎn)化為可操作的技術(shù)實(shí)踐,需要在實(shí)驗(yàn)設(shè)計(jì)、數(shù)據(jù)收集、分析方法等多個(gè)層面進(jìn)行精心安排。研究團(tuán)隊(duì)通過(guò)他們的大規(guī)模實(shí)驗(yàn),為后續(xù)研究者提供了詳細(xì)的技術(shù)實(shí)現(xiàn)參考。

      在實(shí)驗(yàn)設(shè)計(jì)方面,研究團(tuán)隊(duì)采用了一種被稱(chēng)為"正交變化"的策略來(lái)確保結(jié)果的普遍適用性。他們選擇了不同類(lèi)型的模型(通用模型、專(zhuān)門(mén)微調(diào)模型、大規(guī)模開(kāi)源模型),不同的測(cè)試框架(自主開(kāi)發(fā)和第三方框架),以及不同的部署方式(本地部署和API調(diào)用)。這種多維度的變化能夠確保觀察到的隨機(jī)性模式不是某個(gè)特定實(shí)現(xiàn)的人工產(chǎn)物,而是具有普遍性的現(xiàn)象。

      數(shù)據(jù)收集過(guò)程的設(shè)計(jì)也很有講究。每個(gè)模型-框架組合都進(jìn)行了完全獨(dú)立的10次運(yùn)行,使用不同的隨機(jī)種子和獨(dú)立的計(jì)算環(huán)境。這種設(shè)計(jì)確保了各次運(yùn)行之間的真正獨(dú)立性,避免了可能的相關(guān)性偏差。同時(shí),所有的運(yùn)行軌跡都被完整記錄,包括模型生成的每個(gè)令牌、每次工具調(diào)用的輸入輸出、以及最終的成功失敗判定。

      令牌級(jí)別的軌跡分析是這項(xiàng)研究的技術(shù)亮點(diǎn)之一。通過(guò)比較同一任務(wù)的不同運(yùn)行軌跡,研究團(tuán)隊(duì)能夠精確定位分歧開(kāi)始的位置,并追蹤這些早期差異如何在后續(xù)過(guò)程中被放大。這種分析方法需要處理大量的文本數(shù)據(jù)(總計(jì)超過(guò)255億個(gè)令牌),并進(jìn)行高效的字符串匹配和差異檢測(cè)算法。

      統(tǒng)計(jì)分析方法的選擇也體現(xiàn)了研究團(tuán)隊(duì)的專(zhuān)業(yè)性。他們使用了基于二項(xiàng)分布的精確推斷方法來(lái)計(jì)算pass@k和pass∧k指標(biāo),而不是簡(jiǎn)單的經(jīng)驗(yàn)頻率統(tǒng)計(jì)。這種方法能夠更準(zhǔn)確地估計(jì)真實(shí)的性能分布,特別是在樣本量相對(duì)較小的情況下。

      對(duì)于統(tǒng)計(jì)功效分析,研究團(tuán)隊(duì)采用了經(jīng)典的雙樣本t檢驗(yàn)框架,但針對(duì)智能體評(píng)估的特殊情況進(jìn)行了適當(dāng)?shù)男拚K麄兛紤]了智能體性能的離散性質(zhì)(成功/失敗)以及可能的非正態(tài)分布特征,使用了更加穩(wěn)健的統(tǒng)計(jì)方法。

      在處理不同溫度設(shè)置的比較時(shí),研究團(tuán)隊(duì)特別注意了統(tǒng)計(jì)顯著性檢驗(yàn)。他們發(fā)現(xiàn),某些看似明顯的溫度效應(yīng)(如DeepSWE-preview模型的顯著改進(jìn))確實(shí)具有統(tǒng)計(jì)顯著性,而另一些差異(如Devstral-2模型的微小變化)則可能只是隨機(jī)波動(dòng)。這種細(xì)致的統(tǒng)計(jì)分析避免了過(guò)度解讀數(shù)據(jù)的陷阱。

      結(jié)果可視化也是技術(shù)實(shí)現(xiàn)中的重要環(huán)節(jié)。研究團(tuán)隊(duì)設(shè)計(jì)了多種圖表來(lái)直觀展示評(píng)估結(jié)果的不確定性:?jiǎn)未芜\(yùn)行成功率的分布圖顯示了波動(dòng)范圍,pass@k曲線(xiàn)展示了性能包絡(luò),分歧位置的直方圖揭示了軌跡差異的時(shí)間模式。這些可視化工具不僅幫助研究者理解數(shù)據(jù),也為向非專(zhuān)業(yè)受眾解釋結(jié)果提供了有效手段。

      在計(jì)算資源管理方面,研究團(tuán)隊(duì)使用了約3500個(gè)GPU小時(shí)來(lái)完成所有實(shí)驗(yàn)。他們采用了高效的批處理策略和并行計(jì)算框架,最大化了計(jì)算資源的利用率。這種大規(guī)模計(jì)算的經(jīng)驗(yàn)對(duì)于其他希望進(jìn)行類(lèi)似研究的團(tuán)隊(duì)具有重要參考價(jià)值。

      數(shù)據(jù)存儲(chǔ)和管理也面臨著獨(dú)特挑戰(zhàn)。6萬(wàn)個(gè)完整軌跡的存儲(chǔ)和檢索需要精心設(shè)計(jì)的數(shù)據(jù)結(jié)構(gòu)和索引系統(tǒng)。研究團(tuán)隊(duì)開(kāi)發(fā)了專(zhuān)門(mén)的軌跡壓縮和查詢(xún)工具,能夠高效處理這種大規(guī)模、高維度的序列數(shù)據(jù)。

      質(zhì)量控制是整個(gè)技術(shù)實(shí)現(xiàn)過(guò)程中不可忽視的環(huán)節(jié)。研究團(tuán)隊(duì)實(shí)施了多層次的數(shù)據(jù)驗(yàn)證機(jī)制:自動(dòng)化的數(shù)據(jù)完整性檢查,隨機(jī)抽樣的人工驗(yàn)證,以及跨實(shí)驗(yàn)的一致性檢驗(yàn)。這些措施確保了研究結(jié)果的可靠性和可重復(fù)性。

      最后,研究團(tuán)隊(duì)還考慮了結(jié)果的可重現(xiàn)性問(wèn)題。他們?cè)敿?xì)記錄了所有的實(shí)驗(yàn)參數(shù)、環(huán)境配置和代碼版本,并計(jì)劃公開(kāi)相關(guān)的數(shù)據(jù)集和分析工具。這種開(kāi)放科學(xué)的做法不僅有利于結(jié)果驗(yàn)證,也為社區(qū)的后續(xù)工作提供了基礎(chǔ)。

      這些技術(shù)實(shí)現(xiàn)的細(xì)節(jié)雖然看起來(lái)繁瑣,但它們是確保研究質(zhì)量的重要保障。任何希望在AI評(píng)估領(lǐng)域做出可信貢獻(xiàn)的研究者,都需要在這些技術(shù)細(xì)節(jié)上投入足夠的關(guān)注和資源。

      八、未來(lái)展望:評(píng)估方法學(xué)的演進(jìn)方向

      這項(xiàng)研究不僅揭示了當(dāng)前AI智能體評(píng)估中存在的問(wèn)題,也為未來(lái)評(píng)估方法學(xué)的發(fā)展指明了幾個(gè)重要方向。隨著AI技術(shù)的不斷進(jìn)步,評(píng)估方法也需要相應(yīng)地演進(jìn)和完善。

      首先是評(píng)估復(fù)雜度的逐步提升。當(dāng)前的研究主要關(guān)注相對(duì)簡(jiǎn)單的編程任務(wù),但未來(lái)的AI智能體將需要處理更加復(fù)雜、更長(zhǎng)周期的任務(wù)。研究團(tuán)隊(duì)預(yù)測(cè),隨著任務(wù)復(fù)雜度的增加,早期軌跡分歧的影響會(huì)被進(jìn)一步放大,評(píng)估不確定性可能會(huì)變得更加嚴(yán)重。這意味著未來(lái)可能需要更多的重復(fù)測(cè)試和更精密的統(tǒng)計(jì)方法來(lái)確保評(píng)估可靠性。

      動(dòng)態(tài)上下文管理是另一個(gè)需要深入研究的方向。當(dāng)前研究使用的測(cè)試框架都采用了完整保留對(duì)話(huà)歷史的策略,但在實(shí)際應(yīng)用中,智能體系統(tǒng)通常會(huì)使用上下文壓縮、總結(jié)或截?cái)嗟炔呗詠?lái)管理有限的上下文窗口。這些動(dòng)態(tài)上下文管理策略本身就會(huì)引入額外的隨機(jī)性源,需要專(zhuān)門(mén)的研究來(lái)量化其對(duì)評(píng)估可靠性的影響。

      多模態(tài)智能體的評(píng)估將帶來(lái)新的挑戰(zhàn)。隨著AI系統(tǒng)開(kāi)始整合文本、圖像、音頻等多種模態(tài)的信息,評(píng)估過(guò)程中的隨機(jī)性源會(huì)變得更加多樣化。不同模態(tài)之間的交互、多模態(tài)融合算法的不確定性、以及跨模態(tài)推理的復(fù)雜性都會(huì)影響最終的評(píng)估結(jié)果。

      實(shí)時(shí)交互場(chǎng)景的評(píng)估方法也需要特殊考慮。在實(shí)際部署中,AI智能體往往需要與人類(lèi)用戶(hù)進(jìn)行實(shí)時(shí)交互,用戶(hù)的反饋和行為會(huì)實(shí)時(shí)影響智能體的后續(xù)表現(xiàn)。這種動(dòng)態(tài)交互環(huán)境中的評(píng)估隨機(jī)性可能比靜態(tài)基準(zhǔn)測(cè)試更加復(fù)雜,需要開(kāi)發(fā)新的評(píng)估框架和方法學(xué)。

      從技術(shù)發(fā)展的角度,未來(lái)可能會(huì)出現(xiàn)專(zhuān)門(mén)針對(duì)評(píng)估不確定性的建模和預(yù)測(cè)方法。通過(guò)分析智能體的內(nèi)部狀態(tài)、注意力模式、置信度分布等信息,可能可以提前預(yù)測(cè)某次運(yùn)行的可靠性,從而優(yōu)化測(cè)試資源的分配。這種"元評(píng)估"技術(shù)可能會(huì)成為智能體系統(tǒng)的重要組成部分。

      標(biāo)準(zhǔn)化和自動(dòng)化也是重要的發(fā)展方向。隨著對(duì)嚴(yán)格評(píng)估需求的認(rèn)識(shí)加深,學(xué)術(shù)界和工業(yè)界需要開(kāi)發(fā)更加標(biāo)準(zhǔn)化的評(píng)估工具和流程。這些工具應(yīng)該能夠自動(dòng)處理多次運(yùn)行、統(tǒng)計(jì)分析、結(jié)果可視化等繁瑣任務(wù),降低嚴(yán)謹(jǐn)評(píng)估的技術(shù)門(mén)檻。

      評(píng)估成本的優(yōu)化是另一個(gè)實(shí)用性很強(qiáng)的研究方向。雖然更嚴(yán)格的評(píng)估需要更多計(jì)算資源,但通過(guò)智能的實(shí)驗(yàn)設(shè)計(jì)、高效的采樣策略、以及預(yù)測(cè)模型的輔助,可能可以在保持評(píng)估質(zhì)量的同時(shí)顯著降低成本。例如,可以開(kāi)發(fā)自適應(yīng)的測(cè)試次數(shù)確定算法,根據(jù)已有運(yùn)行結(jié)果的分布特征來(lái)動(dòng)態(tài)調(diào)整后續(xù)測(cè)試的需求。

      跨任務(wù)和跨領(lǐng)域的評(píng)估一致性也值得深入研究。不同類(lèi)型任務(wù)的評(píng)估不確定性可能存在系統(tǒng)性差異,理解這些差異的規(guī)律有助于建立更加準(zhǔn)確的評(píng)估基準(zhǔn)和預(yù)期。同時(shí),某個(gè)領(lǐng)域中開(kāi)發(fā)的評(píng)估方法在其他領(lǐng)域的適用性也需要驗(yàn)證。

      從更宏觀的角度來(lái)看,這項(xiàng)研究可能會(huì)推動(dòng)整個(gè)AI研究范式的轉(zhuǎn)變。傳統(tǒng)的追求點(diǎn)估計(jì)性能的做法可能會(huì)逐漸轉(zhuǎn)向更加關(guān)注性能分布和不確定性的新范式。這種轉(zhuǎn)變不僅會(huì)影響技術(shù)評(píng)估,也會(huì)影響AI系統(tǒng)的設(shè)計(jì)理念和部署策略。

      社區(qū)協(xié)作和資源共享機(jī)制的建立也是未來(lái)發(fā)展的重要方向。嚴(yán)格的評(píng)估需要大量計(jì)算資源,單個(gè)研究團(tuán)隊(duì)往往難以承擔(dān)。通過(guò)建立共享的評(píng)估平臺(tái)、眾包的評(píng)估任務(wù)、以及合作的評(píng)估項(xiàng)目,可以讓更多研究者參與到嚴(yán)謹(jǐn)評(píng)估的實(shí)踐中來(lái)。

      最終,這些發(fā)展方向的共同目標(biāo)是建立一個(gè)更加可靠、透明、高效的AI評(píng)估生態(tài)系統(tǒng)。在這個(gè)生態(tài)系統(tǒng)中,技術(shù)進(jìn)步能夠得到準(zhǔn)確的度量,資源配置能夠基于可靠的信息,決策制定能夠建立在堅(jiān)實(shí)的證據(jù)基礎(chǔ)之上。雖然這個(gè)目標(biāo)的實(shí)現(xiàn)需要整個(gè)社區(qū)的長(zhǎng)期努力,但這項(xiàng)研究已經(jīng)為我們指明了前進(jìn)的方向。

      說(shuō)到底,AI技術(shù)的發(fā)展就像是人類(lèi)探索未知領(lǐng)域的旅程,而評(píng)估方法則是我們手中的指南針。只有確保指南針的準(zhǔn)確性,我們才能在這場(chǎng)技術(shù)探險(xiǎn)中不迷失方向,最終到達(dá)真正有價(jià)值的目的地。這項(xiàng)來(lái)自KTH皇家理工學(xué)院的研究,不僅為我們校準(zhǔn)了指南針,更重要的是提醒我們要時(shí)刻關(guān)注指南針的可靠性,這樣才能確保AI技術(shù)的發(fā)展始終朝著正確的方向前進(jìn)。

      研究團(tuán)隊(duì)通過(guò)這項(xiàng)開(kāi)創(chuàng)性的工作,為整個(gè)AI社區(qū)提供了一個(gè)重要的提醒:在追求技術(shù)突破的同時(shí),我們不能忽視評(píng)估方法本身的科學(xué)性和可靠性。只有建立在可靠評(píng)估基礎(chǔ)上的技術(shù)進(jìn)步,才能真正推動(dòng)人工智能的健康發(fā)展,為人類(lèi)社會(huì)帶來(lái)實(shí)實(shí)在在的益處。對(duì)于有興趣深入了解技術(shù)細(xì)節(jié)的讀者,可以通過(guò)論文編號(hào)arXiv:2602.07150v1查閱這項(xiàng)研究的完整內(nèi)容。

      Q&A

      Q1:AI智能體評(píng)估中的隨機(jī)性問(wèn)題到底有多嚴(yán)重?

      A:根據(jù)KTH皇家理工學(xué)院的研究,同一個(gè)AI智能體在相同任務(wù)上的不同運(yùn)行中,成功率可能相差2.2到6.0個(gè)百分點(diǎn)。即使在理論上完全確定性的設(shè)置下(溫度為0),這種波動(dòng)仍然存在,標(biāo)準(zhǔn)差超過(guò)1.5個(gè)百分點(diǎn)。這意味著許多聲稱(chēng)"改進(jìn)2-3個(gè)百分點(diǎn)"的研究結(jié)論可能只是評(píng)估噪音,而非真正的技術(shù)進(jìn)步。

      Q2:為什么即使設(shè)置了確定性參數(shù),AI智能體的表現(xiàn)還是會(huì)有變化?

      A:雖然將溫度參數(shù)設(shè)為0理論上應(yīng)該產(chǎn)生確定性結(jié)果,但現(xiàn)代AI推理引擎中存在多種不可避免的隨機(jī)因素,包括浮點(diǎn)運(yùn)算精度差異、硬件優(yōu)化策略、并行處理時(shí)序變化等。研究發(fā)現(xiàn),軌跡分歧通常在前1%的令牌內(nèi)就出現(xiàn),然后通過(guò)自回歸條件機(jī)制像滾雪球一樣影響后續(xù)的整個(gè)推理過(guò)程。

      Q3:要進(jìn)行可靠的AI智能體性能評(píng)估需要測(cè)試多少次?

      A:這取決于你希望檢測(cè)的改進(jìn)幅度。根據(jù)統(tǒng)計(jì)功效分析,在中等波動(dòng)情況下檢測(cè)2個(gè)百分點(diǎn)的改進(jìn)需要約9次獨(dú)立運(yùn)行,而檢測(cè)1個(gè)百分點(diǎn)的微小改進(jìn)則需要36次運(yùn)行。檢測(cè)5個(gè)百分點(diǎn)或更大的改進(jìn)只需要2-3次運(yùn)行。目前大多數(shù)研究使用的單次運(yùn)行評(píng)估完全不足以可靠檢測(cè)小幅改進(jìn)。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      日本官員同王毅外長(zhǎng)握手,日媒見(jiàn)狀大肆報(bào)道:對(duì)華關(guān)系取得進(jìn)展!

      日本官員同王毅外長(zhǎng)握手,日媒見(jiàn)狀大肆報(bào)道:對(duì)華關(guān)系取得進(jìn)展!

      阿龍聊軍事
      2026-02-12 17:17:49
      驟降13℃!10級(jí)大風(fēng)!除夕前,河南還有一波雨雪

      驟降13℃!10級(jí)大風(fēng)!除夕前,河南還有一波雨雪

      大象新聞
      2026-02-12 08:21:04
      廣州地塊這條新線(xiàn),明天正式開(kāi)通!

      廣州地塊這條新線(xiàn),明天正式開(kāi)通!

      房地產(chǎn)導(dǎo)刊
      2026-02-12 16:32:37
      愛(ài)潑斯坦別墅內(nèi)景曝光,老虎標(biāo)本栩栩如生,男子跪地笑容陰森

      愛(ài)潑斯坦別墅內(nèi)景曝光,老虎標(biāo)本栩栩如生,男子跪地笑容陰森

      大魚(yú)簡(jiǎn)科
      2026-02-11 17:08:09
      全都“叛變”了,臺(tái)積電、三星接連宣布,外媒:中國(guó)不買(mǎi)了?

      全都“叛變”了,臺(tái)積電、三星接連宣布,外媒:中國(guó)不買(mǎi)了?

      無(wú)處遁形
      2026-02-12 14:13:50
      怒江州1名干部接受審查調(diào)查

      怒江州1名干部接受審查調(diào)查

      黃河新聞網(wǎng)呂梁頻道
      2026-02-12 11:39:03
      王艷攜兒子球球登上雜志封面 19歲王泓欽身高1.8米 高顏值好帥氣

      王艷攜兒子球球登上雜志封面 19歲王泓欽身高1.8米 高顏值好帥氣

      生性灑脫
      2026-02-12 09:37:45
      怎么又是你?阿森納再遇新帥,而且還要多賽3場(chǎng),利物浦則有優(yōu)勢(shì)

      怎么又是你?阿森納再遇新帥,而且還要多賽3場(chǎng),利物浦則有優(yōu)勢(shì)

      嗨皮看球
      2026-02-12 18:48:33
      身家過(guò)億的財(cái)經(jīng)女俠葉檀,抗癌3年悔悟:丁克是這輩子最錯(cuò)的決定

      身家過(guò)億的財(cái)經(jīng)女俠葉檀,抗癌3年悔悟:丁克是這輩子最錯(cuò)的決定

      青眼財(cái)經(jīng)
      2026-02-11 19:36:31
      報(bào)告:近六成日企計(jì)劃今年擴(kuò)大或維持對(duì)華投資

      報(bào)告:近六成日企計(jì)劃今年擴(kuò)大或維持對(duì)華投資

      第一財(cái)經(jīng)資訊
      2026-02-12 11:01:30
      一個(gè)家庭被人借運(yùn)的跡象:如果發(fā)現(xiàn),一定要拒絕

      一個(gè)家庭被人借運(yùn)的跡象:如果發(fā)現(xiàn),一定要拒絕

      木言觀
      2026-01-23 06:31:42
      羊肉被關(guān)注!研究發(fā)現(xiàn):腦梗患者吃羊肉,用不了多久,或有3益處

      羊肉被關(guān)注!研究發(fā)現(xiàn):腦梗患者吃羊肉,用不了多久,或有3益處

      阿兵科普
      2026-02-07 21:11:54
      1974年伍修權(quán)探望葉劍英,葉帥得知他八年賦閑在家,當(dāng)即說(shuō)道:你給毛主席寫(xiě)封書(shū)信

      1974年伍修權(quán)探望葉劍英,葉帥得知他八年賦閑在家,當(dāng)即說(shuō)道:你給毛主席寫(xiě)封書(shū)信

      史海孤雁
      2026-02-12 14:34:06
      卡拉澤丨因扎吉連10個(gè)顛球都做不到,但……

      卡拉澤丨因扎吉連10個(gè)顛球都做不到,但……

      米蘭圈
      2026-02-12 08:28:33
      三分之一賽程已過(guò)金牌掛零?別急!中國(guó)大招在后面

      三分之一賽程已過(guò)金牌掛零?別急!中國(guó)大招在后面

      林子說(shuō)事
      2026-02-12 17:24:54
      全球公認(rèn)的真人版春麗:木村萌那,使用百裂腳KO全場(chǎng)

      全球公認(rèn)的真人版春麗:木村萌那,使用百裂腳KO全場(chǎng)

      街機(jī)時(shí)代
      2026-02-11 19:26:15
      平心而論,鄭欽文想要擊敗萊巴金娜,必須要達(dá)成以下幾個(gè)條件!

      平心而論,鄭欽文想要擊敗萊巴金娜,必須要達(dá)成以下幾個(gè)條件!

      田先生籃球
      2026-02-11 21:32:07
      姚晨沒(méi)想到,離春節(jié)不到7天,前夫凌瀟肅靠著佟大為,又火了一把

      姚晨沒(méi)想到,離春節(jié)不到7天,前夫凌瀟肅靠著佟大為,又火了一把

      天天熱點(diǎn)見(jiàn)聞
      2026-02-12 10:42:06
      青海一家35口人開(kāi)旅游大巴赴云南自駕游,采購(gòu)100斤米面等物資沿途自己做飯,當(dāng)事人:往返14天,彌補(bǔ)缺失的陪伴

      青海一家35口人開(kāi)旅游大巴赴云南自駕游,采購(gòu)100斤米面等物資沿途自己做飯,當(dāng)事人:往返14天,彌補(bǔ)缺失的陪伴

      極目新聞
      2026-02-11 16:46:33
      死亡率近100%,千萬(wàn)別喝!國(guó)內(nèi)暫無(wú)解藥,50毫升就可致死

      死亡率近100%,千萬(wàn)別喝!國(guó)內(nèi)暫無(wú)解藥,50毫升就可致死

      小鹿姐姐情感說(shuō)
      2026-02-11 21:02:45
      2026-02-12 20:32:49
      科技行者 incentive-icons
      科技行者
      科技正在如何變革商業(yè)世界
      7245文章數(shù) 550關(guān)注度
      往期回顧 全部

      科技要聞

      10倍速的一夜:三大模型春節(jié)前的暗戰(zhàn)

      頭條要聞

      女子返鄉(xiāng)"打順風(fēng)車(chē)卻打到大貨車(chē)"視頻爆火 當(dāng)事人發(fā)聲

      頭條要聞

      女子返鄉(xiāng)"打順風(fēng)車(chē)卻打到大貨車(chē)"視頻爆火 當(dāng)事人發(fā)聲

      體育要聞

      31歲首次參加冬奧,10年前她是個(gè)水管工

      娛樂(lè)要聞

      體操運(yùn)動(dòng)員墜樓涉事教練被立案調(diào)查

      財(cái)經(jīng)要聞

      “影子萬(wàn)科”如何掘金萬(wàn)科?

      汽車(chē)要聞

      開(kāi)212 T01柴油版去穿越 連牧馬人都跟不上

      態(tài)度原創(chuàng)

      時(shí)尚
      本地
      親子
      家居
      軍事航空

      穿好“奶油色”,狂甩別人幾條街

      本地新聞

      下一站是嘉禾望崗,請(qǐng)各位乘客做好哭泣準(zhǔn)備

      親子要聞

      2026年水解奶粉選購(gòu)指南:平衡防敏需求與寶寶成長(zhǎng)的科學(xué)之選

      家居要聞

      本真棲居 愛(ài)暖伴流年

      軍事要聞

      特朗普:若美伊談判失敗 或再派一支航母打擊群

      無(wú)障礙瀏覽 進(jìn)入關(guān)懷版