<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

      牛津大學(xué):AI竟然早就知道自己會(huì)失敗,還能省下70%計(jì)算成本

      0
      分享至


      這項(xiàng)由牛津大學(xué)互聯(lián)網(wǎng)研究所、牛津大學(xué)FLAIR實(shí)驗(yàn)室以及倫敦大學(xué)學(xué)院計(jì)算機(jī)科學(xué)系聯(lián)合完成的研究,發(fā)表于2026年2月10日的arXiv預(yù)印本平臺(tái)(論文編號(hào):arXiv:2602.09924v1 [cs.CL]),為我們揭示了一個(gè)令人驚訝的發(fā)現(xiàn):大型語言模型在開始生成答案之前,就已經(jīng)在內(nèi)心深處"預(yù)感"到自己是否會(huì)成功。

      當(dāng)我們使用ChatGPT、Claude等AI助手時(shí),往往會(huì)遇到這樣的情況:有些問題AI能快速給出準(zhǔn)確答案,有些卻需要"思考"很久還可能出錯(cuò)。過去我們以為這是隨機(jī)的,但這項(xiàng)研究證明,AI其實(shí)早就知道哪些問題它能搞定,哪些會(huì)讓它栽跟頭。

      研究團(tuán)隊(duì)通過分析AI模型的內(nèi)部神經(jīng)網(wǎng)絡(luò)活動(dòng),就像給AI做"腦部掃描"一樣,發(fā)現(xiàn)了一個(gè)驚人的事實(shí):在AI開始說話之前,它的"大腦"中就已經(jīng)編碼了對(duì)問題難度的判斷。這種判斷不僅準(zhǔn)確,而且可以被提取出來指導(dǎo)更高效的計(jì)算資源分配。

      更有趣的是,研究發(fā)現(xiàn)AI對(duì)"困難"的理解與人類存在顯著差異。當(dāng)AI進(jìn)行更深入的推理時(shí),這種差異會(huì)進(jìn)一步擴(kuò)大。AI會(huì)在人類認(rèn)為困難的問題上花費(fèi)更多計(jì)算資源,即使這些問題對(duì)AI來說并不難解決。這就像一個(gè)數(shù)學(xué)天才在簡單加法題上也要用草稿紙仔細(xì)計(jì)算,因?yàn)樗涀×巳祟愑X得這類題目需要謹(jǐn)慎對(duì)待。

      基于這一發(fā)現(xiàn),研究團(tuán)隊(duì)開發(fā)了一套智能路由系統(tǒng),能夠根據(jù)問題難度自動(dòng)選擇最合適的AI模型來處理。這套系統(tǒng)在保持相同準(zhǔn)確率的情況下,成功將計(jì)算成本降低了17%到70%。這意味著我們可以用更少的電力和計(jì)算資源獲得同樣好的AI服務(wù),這對(duì)環(huán)境保護(hù)和成本控制都具有重要意義。

      研究團(tuán)隊(duì)在數(shù)學(xué)推理和編程任務(wù)上進(jìn)行了大量實(shí)驗(yàn),使用了包括MATH、GSM8K、AIME競賽題目和編程挑戰(zhàn)等多個(gè)基準(zhǔn)測試。結(jié)果顯示,這種基于內(nèi)部表示的難度預(yù)測方法顯著優(yōu)于傳統(tǒng)的文本長度、詞頻等表面特征判斷方法。

      這項(xiàng)研究不僅揭示了AI內(nèi)部工作機(jī)制的新秘密,更為AI系統(tǒng)的高效部署提供了實(shí)用的解決方案。當(dāng)AI能夠準(zhǔn)確評(píng)估自己的能力邊界時(shí),我們就能構(gòu)建更智能、更經(jīng)濟(jì)的AI服務(wù)體系。

      一、AI的"第六感":預(yù)知成敗的神秘能力

      當(dāng)你面對(duì)一道數(shù)學(xué)題時(shí),往往在開始計(jì)算之前就能大致感覺到這題是簡單還是困難。令人意外的是,AI模型也擁有類似的"直覺",而且這種直覺遠(yuǎn)比我們想象的更加精確和可靠。

      研究團(tuán)隊(duì)選擇了多個(gè)不同規(guī)模和能力的AI模型進(jìn)行深入分析,包括Qwen2.5系列模型和GPT-OSS-20B等。他們采用了一種叫做"線性探針"的技術(shù),這個(gè)技術(shù)就像給AI的"大腦"做核磁共振掃描,能夠讀取AI在思考過程中各個(gè)神經(jīng)網(wǎng)絡(luò)層的活動(dòng)狀態(tài)。

      關(guān)鍵發(fā)現(xiàn)是,在AI開始生成任何文字輸出之前,它的內(nèi)部表示中就已經(jīng)包含了對(duì)問題成功率的準(zhǔn)確估計(jì)。研究人員通過分析AI在處理問題前最后一個(gè)處理環(huán)節(jié)的神經(jīng)網(wǎng)絡(luò)狀態(tài),訓(xùn)練了簡單的分類器來預(yù)測AI是否會(huì)正確回答問題。

      這種預(yù)測能力表現(xiàn)得相當(dāng)出色。在數(shù)學(xué)問題上,這些分類器能夠達(dá)到0.7以上的AUROC值(這是衡量分類準(zhǔn)確性的標(biāo)準(zhǔn)指標(biāo),1.0表示完美預(yù)測),在某些情況下甚至超過0.9。相比之下,傳統(tǒng)的基于問題長度或詞匯復(fù)雜度的預(yù)測方法只能達(dá)到0.6到0.7的水平。

      更fascinating的是,這種預(yù)測能力在不同類型的推理策略下都保持穩(wěn)定。無論AI使用貪婪解碼(每次選擇最可能的詞)還是采樣多個(gè)答案后投票決定,內(nèi)部的成功預(yù)測信號(hào)都能可靠地反映最終結(jié)果。

      研究還發(fā)現(xiàn),AI模型的這種"預(yù)感"能力與模型的基礎(chǔ)能力密切相關(guān)。能力較強(qiáng)的模型在簡單任務(wù)上表現(xiàn)出更強(qiáng)的預(yù)測準(zhǔn)確性,而在面對(duì)復(fù)雜推理任務(wù)時(shí),所有模型的預(yù)測準(zhǔn)確性都會(huì)有所下降,但依然顯著優(yōu)于隨機(jī)猜測。

      這一發(fā)現(xiàn)挑戰(zhàn)了我們對(duì)AI工作方式的傳統(tǒng)認(rèn)知。過去我們認(rèn)為AI是通過逐步生成和調(diào)整來尋找答案,現(xiàn)在看來,AI在開始"說話"之前就已經(jīng)在某種程度上"知道"了結(jié)果。這種內(nèi)在的成功評(píng)估機(jī)制為開發(fā)更高效的AI系統(tǒng)提供了全新的思路。

      二、人機(jī)對(duì)"難題"的不同理解:當(dāng)AI遇見人類智慧

      在這項(xiàng)研究中,最令人著迷的發(fā)現(xiàn)之一是AI和人類對(duì)問題難度的理解存在系統(tǒng)性差異,而且隨著AI推理能力的增強(qiáng),這種差異會(huì)變得更加明顯。

      研究團(tuán)隊(duì)使用了一個(gè)特殊的數(shù)據(jù)集E2H-AMC,這個(gè)數(shù)據(jù)集包含了4000道美國數(shù)學(xué)競賽的題目,每道題都標(biāo)注了基于大規(guī)模學(xué)生測試數(shù)據(jù)得出的人類難度評(píng)級(jí)。這種評(píng)級(jí)采用了心理測量學(xué)中的項(xiàng)目反應(yīng)理論(IRT),能夠精確反映普通人類解題的困難程度。

      通過同時(shí)分析AI的內(nèi)部表示對(duì)人類難度和AI自身成功率的預(yù)測能力,研究人員發(fā)現(xiàn)了一個(gè)有趣的現(xiàn)象:AI的"大腦"中同時(shí)編碼著兩種不同的難度信息。一種是對(duì)人類而言的難度(Spearman相關(guān)系數(shù)達(dá)到0.83-0.87),另一種是對(duì)AI自身而言的難度(相關(guān)系數(shù)為0.40-0.64)。

      更重要的是,這兩種難度信息是相互獨(dú)立的。AI對(duì)人類難度的編碼始終保持穩(wěn)定,即使在AI能夠輕松解決那些人類覺得困難的問題時(shí)也是如此。而AI對(duì)自身難度的感知?jiǎng)t會(huì)隨著其推理能力的變化而調(diào)整。

      當(dāng)研究人員讓AI使用更深入的推理模式時(shí),這種差異變得更加明顯。在GPT-OSS-20B模型的實(shí)驗(yàn)中,隨著推理復(fù)雜度從低到高變化,AI內(nèi)部表示與人類難度的對(duì)齊程度逐漸降低,從約0.65的相關(guān)性下降到0.45左右。這表明,隨著AI變得更加"聰明",它越來越按照自己的標(biāo)準(zhǔn)而不是人類的標(biāo)準(zhǔn)來判斷問題的困難程度。

      研究還揭示了一個(gè)引人深思的現(xiàn)象:當(dāng)AI進(jìn)行深度推理時(shí),它生成的推理鏈長度與人類難度高度相關(guān),但與AI自身的成功概率卻呈負(fù)相關(guān)。換句話說,AI會(huì)在人類覺得困難的問題上投入更多的"思考"時(shí)間和文字,即使這些問題對(duì)AI來說并不困難。

      這種現(xiàn)象類似于一個(gè)圍棋高手在與初學(xué)者對(duì)弈時(shí),仍然會(huì)在復(fù)雜局面上深思熟慮,盡管他知道自己有把握獲勝。AI似乎從訓(xùn)練數(shù)據(jù)中學(xué)會(huì)了人類的思維模式,在遇到傳統(tǒng)上被認(rèn)為困難的問題時(shí),會(huì)自動(dòng)激活更加謹(jǐn)慎和詳細(xì)的推理過程。

      這一發(fā)現(xiàn)對(duì)AI系統(tǒng)的實(shí)際應(yīng)用具有重要啟示。當(dāng)我們?cè)O(shè)計(jì)AI助手時(shí),需要考慮到AI的難度評(píng)估可能與人類用戶的預(yù)期不同。有時(shí)候,用戶認(rèn)為困難的問題AI可能覺得簡單,而AI感到困難的問題人類可能覺得容易。理解這種差異有助于設(shè)計(jì)更好的人機(jī)交互界面和工作流程。

      三、智能路由系統(tǒng):讓AI更經(jīng)濟(jì)高效地工作

      基于對(duì)AI內(nèi)部難度評(píng)估機(jī)制的深入理解,研究團(tuán)隊(duì)開發(fā)了一套創(chuàng)新的智能路由系統(tǒng),這個(gè)系統(tǒng)就像一個(gè)聰明的調(diào)度員,能夠根據(jù)問題的復(fù)雜程度自動(dòng)選擇最合適的AI模型來處理。

      這個(gè)路由系統(tǒng)的工作原理頗為巧妙。當(dāng)一個(gè)問題到來時(shí),系統(tǒng)首先使用預(yù)訓(xùn)練的探針來快速評(píng)估這個(gè)問題對(duì)于不同AI模型的難度。然后,根據(jù)預(yù)設(shè)的策略,將問題分配給最合適的模型處理。這個(gè)過程就像醫(yī)院的分診系統(tǒng),輕微病癥交給普通醫(yī)生處理,復(fù)雜疾病才轉(zhuǎn)診給專家。

      研究團(tuán)隊(duì)設(shè)計(jì)了兩種主要的路由策略。第一種是級(jí)聯(lián)路由,從能力較弱但成本較低的模型開始嘗試,只有當(dāng)預(yù)測成功率低于設(shè)定閾值時(shí),才將問題升級(jí)到更強(qiáng)大但更昂貴的模型。這種方式類似于客服系統(tǒng)中的分級(jí)處理:簡單問題由初級(jí)客服解決,復(fù)雜問題才轉(zhuǎn)給高級(jí)專家。

      第二種是效用最大化路由,這種方法同時(shí)考慮成功概率和計(jì)算成本,為每個(gè)模型計(jì)算一個(gè)綜合效用分?jǐn)?shù),然后選擇效用最高的模型。這就像選擇出行方式時(shí)同時(shí)考慮時(shí)間、費(fèi)用和舒適度一樣,尋找最優(yōu)的平衡點(diǎn)。

      實(shí)驗(yàn)結(jié)果令人印象深刻。在MATH數(shù)學(xué)基準(zhǔn)測試中,級(jí)聯(lián)路由系統(tǒng)能夠在保持與高性能單一模型相同準(zhǔn)確率的情況下,將計(jì)算成本降低17%。而效用最大化路由的表現(xiàn)更加出色,在某些配置下能夠達(dá)到與最強(qiáng)單一模型相同甚至更高的準(zhǔn)確率,同時(shí)將成本降低多達(dá)70%。

      在不同類型的問題上,路由系統(tǒng)表現(xiàn)出了良好的適應(yīng)性。在AIME競賽題目上,由于問題難度變化較大,路由系統(tǒng)傾向于為困難問題選擇更強(qiáng)大的模型,實(shí)現(xiàn)了37%的成本節(jié)約。而在GSM8K這樣相對(duì)簡單的基準(zhǔn)上,路由系統(tǒng)聰明地識(shí)別出大部分問題都可以由較便宜的模型處理,避免了不必要的計(jì)算資源浪費(fèi)。

      研究還發(fā)現(xiàn),路由系統(tǒng)的效果很大程度上取決于底層探針的可靠性。當(dāng)探針能夠準(zhǔn)確預(yù)測模型成功率時(shí),路由系統(tǒng)的性能接近理論最優(yōu)值。但當(dāng)探針準(zhǔn)確性下降時(shí),路由效果也會(huì)相應(yīng)降低。這強(qiáng)調(diào)了持續(xù)改進(jìn)難度預(yù)測算法的重要性。

      值得注意的是,這種路由方法的計(jì)算開銷極小。與需要運(yùn)行多個(gè)模型來估計(jì)置信度的傳統(tǒng)方法不同,基于內(nèi)部表示的預(yù)測只需要在問題處理前進(jìn)行一次快速的神經(jīng)網(wǎng)絡(luò)前向傳播,幾乎不增加額外的計(jì)算成本。

      四、深度推理的雙刃劍:能力提升與預(yù)測困難的權(quán)衡

      研究中一個(gè)特別引人注目的發(fā)現(xiàn)是,當(dāng)AI模型使用更深入的推理策略時(shí),雖然解題準(zhǔn)確率顯著提升,但其內(nèi)部的成功預(yù)測信號(hào)卻變得更加難以捕捉。這一現(xiàn)象揭示了AI能力提升過程中的一個(gè)有趣悖論。

      以GPT-OSS-20B模型為例,當(dāng)研究人員將其推理深度從低級(jí)別調(diào)整到高級(jí)別時(shí),模型在MATH基準(zhǔn)上的準(zhǔn)確率從86.6%提升到了92.0%,這是一個(gè)相當(dāng)顯著的改進(jìn)。然而,同期內(nèi)部探針預(yù)測模型成功率的能力卻從0.78的AUROC下降到了0.64,預(yù)測準(zhǔn)確性明顯降低。

      這種現(xiàn)象可以用一個(gè)有趣的比喻來理解:就像一個(gè)經(jīng)驗(yàn)豐富的醫(yī)生,當(dāng)他進(jìn)行更復(fù)雜的診斷思考時(shí),雖然最終診斷準(zhǔn)確性更高,但在診斷開始階段,外人卻更難從他的初始表現(xiàn)判斷他是否會(huì)得出正確結(jié)論。深度推理過程中的復(fù)雜性掩蓋了早期階段的預(yù)測信號(hào)。

      研究人員深入分析了這一現(xiàn)象的機(jī)制。他們發(fā)現(xiàn),當(dāng)AI進(jìn)行深度推理時(shí),其輸出的推理鏈長度與人類難度判斷高度相關(guān),但與AI自身的成功概率卻呈現(xiàn)負(fù)相關(guān)關(guān)系。這意味著AI會(huì)在人類認(rèn)為困難的問題上生成更長的推理過程,即使這些問題對(duì)AI來說實(shí)際上并不困難。

      這種行為模式反映了AI訓(xùn)練過程中學(xué)到的一種"過度謹(jǐn)慎"策略。在訓(xùn)練數(shù)據(jù)中,復(fù)雜問題通常需要更詳細(xì)的推理步驟,因此AI學(xué)會(huì)了在遇到這類問題時(shí)自動(dòng)激活更深入的推理模式。這就像一個(gè)學(xué)生在考試中遇到看起來復(fù)雜的題目時(shí),即使他知道答案,也會(huì)寫出詳細(xì)的解題步驟以防萬一。

      這一發(fā)現(xiàn)對(duì)AI系統(tǒng)的實(shí)際應(yīng)用具有重要啟示。一方面,深度推理確實(shí)能夠提升AI的問題解決能力,特別是在復(fù)雜的數(shù)學(xué)和邏輯推理任務(wù)上。另一方面,這種能力提升是以犧牲早期預(yù)測準(zhǔn)確性為代價(jià)的,這使得基于內(nèi)部表示的路由和資源分配變得更加困難。

      研究結(jié)果還顯示,這種趨勢在不同類型的任務(wù)中都存在。無論是數(shù)學(xué)推理還是編程任務(wù),當(dāng)模型采用更復(fù)雜的推理策略時(shí),都會(huì)出現(xiàn)類似的預(yù)測準(zhǔn)確性下降現(xiàn)象。這表明這不是特定任務(wù)的特殊現(xiàn)象,而是深度推理模式的一個(gè)固有特征。

      對(duì)于實(shí)際應(yīng)用而言,這意味著我們需要在推理深度和預(yù)測可靠性之間尋找平衡。在某些對(duì)成本敏感的應(yīng)用場景中,可能需要權(quán)衡使用中等深度的推理以保持良好的路由效果。而在對(duì)準(zhǔn)確性要求極高的場景中,則可能需要接受較高的計(jì)算成本來獲得最佳性能。

      五、編程領(lǐng)域的驗(yàn)證:跨域能力的展現(xiàn)

      為了驗(yàn)證這些發(fā)現(xiàn)的普適性,研究團(tuán)隊(duì)將目光轉(zhuǎn)向了編程任務(wù),使用LiveCodeBench數(shù)據(jù)集進(jìn)行了廣泛的實(shí)驗(yàn)驗(yàn)證。編程任務(wù)與數(shù)學(xué)推理在本質(zhì)上有所不同,它要求AI不僅要理解問題邏輯,還要生成能夠通過測試用例的可執(zhí)行代碼。

      在編程任務(wù)中,研究人員采用了Pass@5的評(píng)估標(biāo)準(zhǔn),即AI生成5個(gè)候選解決方案,只要其中至少有一個(gè)能夠通過所有測試用例就算成功。這種評(píng)估方式更接近實(shí)際編程場景中的多次嘗試和調(diào)試過程。

      實(shí)驗(yàn)結(jié)果令人鼓舞。在Qwen2.5-Coder和DeepSeek-R1等專門針對(duì)編程任務(wù)優(yōu)化的模型上,基于內(nèi)部表示的成功預(yù)測達(dá)到了0.81到0.91的AUROC值,這甚至超過了數(shù)學(xué)任務(wù)中的表現(xiàn)。這表明AI對(duì)編程任務(wù)難度的內(nèi)部表示可能比數(shù)學(xué)推理更加清晰和可靠。

      有趣的是,編程任務(wù)中也觀察到了與數(shù)學(xué)任務(wù)類似的模式。GPT-OSS-20B在編程任務(wù)上的探針質(zhì)量相對(duì)較低(約0.67),這與其在數(shù)學(xué)任務(wù)中的表現(xiàn)保持一致。這進(jìn)一步證實(shí)了探針可訪問性更多地與模型架構(gòu)和訓(xùn)練方式相關(guān),而不是特定任務(wù)類型的問題。

      研究還發(fā)現(xiàn),編程任務(wù)中的難度預(yù)測信息在不同的代碼生成策略下都保持相對(duì)穩(wěn)定。無論是使用較低的采樣溫度(更傾向于生成確定性代碼)還是較高的采樣溫度(更傾向于生成多樣化解決方案),內(nèi)部的成功預(yù)測信號(hào)都能提供有價(jià)值的指導(dǎo)。

      為了確保實(shí)驗(yàn)的公平性,研究團(tuán)隊(duì)特別注意了數(shù)據(jù)污染問題。他們根據(jù)每個(gè)模型的發(fā)布時(shí)間設(shè)置了時(shí)間分割點(diǎn),只使用發(fā)布日期之后的編程題目進(jìn)行測試,避免了模型在訓(xùn)練期間見過測試數(shù)據(jù)的情況。

      編程實(shí)驗(yàn)的成功驗(yàn)證了這種基于內(nèi)部表示的難度預(yù)測方法具有良好的跨領(lǐng)域通用性。無論是需要數(shù)學(xué)推理的問題還是需要代碼實(shí)現(xiàn)的任務(wù),AI模型的內(nèi)部表示中都蘊(yùn)含著豐富的成功預(yù)測信息,這些信息可以被有效提取和利用。

      這一發(fā)現(xiàn)對(duì)實(shí)際AI系統(tǒng)部署具有重要意義。在現(xiàn)實(shí)的AI服務(wù)中,用戶的請(qǐng)求往往涉及多個(gè)不同領(lǐng)域,從文本分析到數(shù)學(xué)計(jì)算,從代碼生成到邏輯推理。一個(gè)能夠跨領(lǐng)域準(zhǔn)確評(píng)估任務(wù)難度的系統(tǒng),將能夠更有效地分配計(jì)算資源,提供更經(jīng)濟(jì)高效的服務(wù)。

      說到底,這項(xiàng)來自牛津大學(xué)的研究為我們打開了一扇全新的窗戶,讓我們得以窺見AI內(nèi)部工作機(jī)制的奧秘。原來AI在開始"思考"之前,就已經(jīng)在某種程度上"知道"了答案的可能性,這種能力不僅存在,而且可以被我們捕捉和利用。

      更有意思的是,研究揭示了AI與人類對(duì)困難的理解存在根本差異,而且隨著AI能力的提升,這種差異還會(huì)進(jìn)一步擴(kuò)大。這提醒我們,在設(shè)計(jì)AI系統(tǒng)時(shí)不能簡單地以人類的思維模式為標(biāo)準(zhǔn),而要深入理解AI獨(dú)特的"思考"方式。

      基于這些發(fā)現(xiàn)開發(fā)的智能路由系統(tǒng),成功實(shí)現(xiàn)了在保持性能的同時(shí)大幅降低計(jì)算成本的目標(biāo)。在某些情況下,成本降幅高達(dá)70%,這對(duì)于大規(guī)模AI服務(wù)部署具有重要的實(shí)用價(jià)值。隨著AI技術(shù)的普及和計(jì)算資源的日益緊張,這種高效的資源利用方式將變得越來越重要。

      當(dāng)然,研究也指出了一些挑戰(zhàn)和限制。深度推理雖然能提升AI的問題解決能力,但會(huì)降低早期預(yù)測的準(zhǔn)確性,這要求我們?cè)谛阅芎托手g尋找更好的平衡點(diǎn)。此外,探針的可靠性直接影響路由系統(tǒng)的效果,這意味著我們還需要繼續(xù)改進(jìn)難度預(yù)測算法。

      展望未來,這項(xiàng)研究為AI系統(tǒng)的智能化管理開辟了新的可能性。或許不久的將來,我們的AI助手不僅能夠回答問題,還能智慧地評(píng)估自己的能力邊界,在合適的時(shí)候?qū)で蟾鼜?qiáng)大模型的幫助,或者將簡單任務(wù)交給更經(jīng)濟(jì)的處理方式。這樣的AI系統(tǒng)將更加實(shí)用、經(jīng)濟(jì),也更加可靠。

      對(duì)于普通用戶而言,這意味著未來的AI服務(wù)可能會(huì)變得更快、更便宜,同時(shí)保持或提升質(zhì)量。對(duì)于AI開發(fā)者來說,這項(xiàng)研究提供了新的工具和思路,幫助他們構(gòu)建更高效的AI系統(tǒng)。而對(duì)于整個(gè)社會(huì)而言,更經(jīng)濟(jì)的AI技術(shù)將降低人工智能應(yīng)用的門檻,讓更多人能夠享受到AI帶來的便利。

      有興趣深入了解這項(xiàng)研究細(xì)節(jié)的讀者,可以通過論文編號(hào)arXiv:2602.09924v1在arXiv平臺(tái)查找完整的研究報(bào)告,其中包含了更詳細(xì)的技術(shù)細(xì)節(jié)和實(shí)驗(yàn)數(shù)據(jù)。

      Q&A

      Q1:AI是如何預(yù)知自己會(huì)失敗的?

      A:AI通過內(nèi)部神經(jīng)網(wǎng)絡(luò)的激活模式來"預(yù)感"成敗。研究人員發(fā)現(xiàn),在AI開始生成答案之前,它的神經(jīng)網(wǎng)絡(luò)中就已經(jīng)編碼了對(duì)問題難度的判斷。就像人類看到數(shù)學(xué)題時(shí)會(huì)有直覺感受一樣,AI的"大腦"在處理問題的最初階段就已經(jīng)評(píng)估了成功的可能性,這種評(píng)估信息可以通過特殊技術(shù)提取出來。

      Q2:為什么AI對(duì)困難的理解和人類不同?

      A:AI的難度判斷主要基于其訓(xùn)練數(shù)據(jù)和內(nèi)部算法邏輯,而人類的難度感知更多來自認(rèn)知心理和學(xué)習(xí)經(jīng)驗(yàn)。研究發(fā)現(xiàn),AI會(huì)在人類認(rèn)為困難的問題上投入更多推理資源,即使這些問題對(duì)AI來說并不難解決。這是因?yàn)锳I從訓(xùn)練數(shù)據(jù)中學(xué)會(huì)了人類的思維模式,在遇到傳統(tǒng)上被認(rèn)為困難的問題時(shí)會(huì)自動(dòng)激活更謹(jǐn)慎的處理模式。

      Q3:智能路由系統(tǒng)如何幫我們省錢?

      A:智能路由系統(tǒng)就像一個(gè)聰明的任務(wù)分配員,根據(jù)問題難度自動(dòng)選擇最合適的AI模型來處理。簡單問題交給便宜的小模型,復(fù)雜問題才用昂貴的大模型。研究顯示這種方法可以在保持相同準(zhǔn)確率的情況下將計(jì)算成本降低17%到70%,這意味著AI服務(wù)提供商可以用更少的電力和計(jì)算資源提供同樣質(zhì)量的服務(wù)。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      日本官員同王毅外長握手,日媒見狀大肆報(bào)道:對(duì)華關(guān)系取得進(jìn)展!

      日本官員同王毅外長握手,日媒見狀大肆報(bào)道:對(duì)華關(guān)系取得進(jìn)展!

      阿龍聊軍事
      2026-02-12 17:17:49
      驟降13℃!10級(jí)大風(fēng)!除夕前,河南還有一波雨雪

      驟降13℃!10級(jí)大風(fēng)!除夕前,河南還有一波雨雪

      大象新聞
      2026-02-12 08:21:04
      廣州地塊這條新線,明天正式開通!

      廣州地塊這條新線,明天正式開通!

      房地產(chǎn)導(dǎo)刊
      2026-02-12 16:32:37
      愛潑斯坦別墅內(nèi)景曝光,老虎標(biāo)本栩栩如生,男子跪地笑容陰森

      愛潑斯坦別墅內(nèi)景曝光,老虎標(biāo)本栩栩如生,男子跪地笑容陰森

      大魚簡科
      2026-02-11 17:08:09
      全都“叛變”了,臺(tái)積電、三星接連宣布,外媒:中國不買了?

      全都“叛變”了,臺(tái)積電、三星接連宣布,外媒:中國不買了?

      無處遁形
      2026-02-12 14:13:50
      怒江州1名干部接受審查調(diào)查

      怒江州1名干部接受審查調(diào)查

      黃河新聞網(wǎng)呂梁頻道
      2026-02-12 11:39:03
      王艷攜兒子球球登上雜志封面 19歲王泓欽身高1.8米 高顏值好帥氣

      王艷攜兒子球球登上雜志封面 19歲王泓欽身高1.8米 高顏值好帥氣

      生性灑脫
      2026-02-12 09:37:45
      怎么又是你?阿森納再遇新帥,而且還要多賽3場,利物浦則有優(yōu)勢

      怎么又是你?阿森納再遇新帥,而且還要多賽3場,利物浦則有優(yōu)勢

      嗨皮看球
      2026-02-12 18:48:33
      身家過億的財(cái)經(jīng)女俠葉檀,抗癌3年悔悟:丁克是這輩子最錯(cuò)的決定

      身家過億的財(cái)經(jīng)女俠葉檀,抗癌3年悔悟:丁克是這輩子最錯(cuò)的決定

      青眼財(cái)經(jīng)
      2026-02-11 19:36:31
      報(bào)告:近六成日企計(jì)劃今年擴(kuò)大或維持對(duì)華投資

      報(bào)告:近六成日企計(jì)劃今年擴(kuò)大或維持對(duì)華投資

      第一財(cái)經(jīng)資訊
      2026-02-12 11:01:30
      一個(gè)家庭被人借運(yùn)的跡象:如果發(fā)現(xiàn),一定要拒絕

      一個(gè)家庭被人借運(yùn)的跡象:如果發(fā)現(xiàn),一定要拒絕

      木言觀
      2026-01-23 06:31:42
      羊肉被關(guān)注!研究發(fā)現(xiàn):腦梗患者吃羊肉,用不了多久,或有3益處

      羊肉被關(guān)注!研究發(fā)現(xiàn):腦梗患者吃羊肉,用不了多久,或有3益處

      阿兵科普
      2026-02-07 21:11:54
      1974年伍修權(quán)探望葉劍英,葉帥得知他八年賦閑在家,當(dāng)即說道:你給毛主席寫封書信

      1974年伍修權(quán)探望葉劍英,葉帥得知他八年賦閑在家,當(dāng)即說道:你給毛主席寫封書信

      史海孤雁
      2026-02-12 14:34:06
      卡拉澤丨因扎吉連10個(gè)顛球都做不到,但……

      卡拉澤丨因扎吉連10個(gè)顛球都做不到,但……

      米蘭圈
      2026-02-12 08:28:33
      三分之一賽程已過金牌掛零?別急!中國大招在后面

      三分之一賽程已過金牌掛零?別急!中國大招在后面

      林子說事
      2026-02-12 17:24:54
      全球公認(rèn)的真人版春麗:木村萌那,使用百裂腳KO全場

      全球公認(rèn)的真人版春麗:木村萌那,使用百裂腳KO全場

      街機(jī)時(shí)代
      2026-02-11 19:26:15
      平心而論,鄭欽文想要擊敗萊巴金娜,必須要達(dá)成以下幾個(gè)條件!

      平心而論,鄭欽文想要擊敗萊巴金娜,必須要達(dá)成以下幾個(gè)條件!

      田先生籃球
      2026-02-11 21:32:07
      姚晨沒想到,離春節(jié)不到7天,前夫凌瀟肅靠著佟大為,又火了一把

      姚晨沒想到,離春節(jié)不到7天,前夫凌瀟肅靠著佟大為,又火了一把

      天天熱點(diǎn)見聞
      2026-02-12 10:42:06
      青海一家35口人開旅游大巴赴云南自駕游,采購100斤米面等物資沿途自己做飯,當(dāng)事人:往返14天,彌補(bǔ)缺失的陪伴

      青海一家35口人開旅游大巴赴云南自駕游,采購100斤米面等物資沿途自己做飯,當(dāng)事人:往返14天,彌補(bǔ)缺失的陪伴

      極目新聞
      2026-02-11 16:46:33
      死亡率近100%,千萬別喝!國內(nèi)暫無解藥,50毫升就可致死

      死亡率近100%,千萬別喝!國內(nèi)暫無解藥,50毫升就可致死

      小鹿姐姐情感說
      2026-02-11 21:02:45
      2026-02-12 20:32:49
      科技行者 incentive-icons
      科技行者
      科技正在如何變革商業(yè)世界
      7245文章數(shù) 550關(guān)注度
      往期回顧 全部

      科技要聞

      10倍速的一夜:三大模型春節(jié)前的暗戰(zhàn)

      頭條要聞

      女子返鄉(xiāng)"打順風(fēng)車卻打到大貨車"視頻爆火 當(dāng)事人發(fā)聲

      頭條要聞

      女子返鄉(xiāng)"打順風(fēng)車卻打到大貨車"視頻爆火 當(dāng)事人發(fā)聲

      體育要聞

      31歲首次參加冬奧,10年前她是個(gè)水管工

      娛樂要聞

      體操運(yùn)動(dòng)員墜樓涉事教練被立案調(diào)查

      財(cái)經(jīng)要聞

      “影子萬科”如何掘金萬科?

      汽車要聞

      開212 T01柴油版去穿越 連牧馬人都跟不上

      態(tài)度原創(chuàng)

      家居
      旅游
      數(shù)碼
      時(shí)尚
      軍事航空

      家居要聞

      本真棲居 愛暖伴流年

      旅游要聞

      燈已亮起,雙廊等你

      數(shù)碼要聞

      AMD發(fā)布26.2.1可選顯卡驅(qū)動(dòng):新增支持《仁王3》等、修復(fù)游戲崩潰問題

      穿好“奶油色”,狂甩別人幾條街

      軍事要聞

      特朗普:若美伊談判失敗 或再派一支航母打擊群

      無障礙瀏覽 進(jìn)入關(guān)懷版