網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

牛津大學(xué)：AI竟然早就知道自己會(huì)失敗，還能省下70%計(jì)算成本

2026-02-12 17:24:18　來源: 科技行者

北京舉報(bào)

分享至

這項(xiàng)由牛津大學(xué)互聯(lián)網(wǎng)研究所、牛津大學(xué)FLAIR實(shí)驗(yàn)室以及倫敦大學(xué)學(xué)院計(jì)算機(jī)科學(xué)系聯(lián)合完成的研究，發(fā)表于2026年2月10日的arXiv預(yù)印本平臺(tái)（論文編號(hào)：arXiv:2602.09924v1 [cs.CL]），為我們揭示了一個(gè)令人驚訝的發(fā)現(xiàn)：大型語言模型在開始生成答案之前，就已經(jīng)在內(nèi)心深處"預(yù)感"到自己是否會(huì)成功。

當(dāng)我們使用ChatGPT、Claude等AI助手時(shí)，往往會(huì)遇到這樣的情況：有些問題AI能快速給出準(zhǔn)確答案，有些卻需要"思考"很久還可能出錯(cuò)。過去我們以為這是隨機(jī)的，但這項(xiàng)研究證明，AI其實(shí)早就知道哪些問題它能搞定，哪些會(huì)讓它栽跟頭。

研究團(tuán)隊(duì)通過分析AI模型的內(nèi)部神經(jīng)網(wǎng)絡(luò)活動(dòng)，就像給AI做"腦部掃描"一樣，發(fā)現(xiàn)了一個(gè)驚人的事實(shí)：在AI開始說話之前，它的"大腦"中就已經(jīng)編碼了對(duì)問題難度的判斷。這種判斷不僅準(zhǔn)確，而且可以被提取出來指導(dǎo)更高效的計(jì)算資源分配。

更有趣的是，研究發(fā)現(xiàn)AI對(duì)"困難"的理解與人類存在顯著差異。當(dāng)AI進(jìn)行更深入的推理時(shí)，這種差異會(huì)進(jìn)一步擴(kuò)大。AI會(huì)在人類認(rèn)為困難的問題上花費(fèi)更多計(jì)算資源，即使這些問題對(duì)AI來說并不難解決。這就像一個(gè)數(shù)學(xué)天才在簡單加法題上也要用草稿紙仔細(xì)計(jì)算，因?yàn)樗涀×巳祟愑X得這類題目需要謹(jǐn)慎對(duì)待。

基于這一發(fā)現(xiàn)，研究團(tuán)隊(duì)開發(fā)了一套智能路由系統(tǒng)，能夠根據(jù)問題難度自動(dòng)選擇最合適的AI模型來處理。這套系統(tǒng)在保持相同準(zhǔn)確率的情況下，成功將計(jì)算成本降低了17%到70%。這意味著我們可以用更少的電力和計(jì)算資源獲得同樣好的AI服務(wù)，這對(duì)環(huán)境保護(hù)和成本控制都具有重要意義。

研究團(tuán)隊(duì)在數(shù)學(xué)推理和編程任務(wù)上進(jìn)行了大量實(shí)驗(yàn)，使用了包括MATH、GSM8K、AIME競賽題目和編程挑戰(zhàn)等多個(gè)基準(zhǔn)測試。結(jié)果顯示，這種基于內(nèi)部表示的難度預(yù)測方法顯著優(yōu)于傳統(tǒng)的文本長度、詞頻等表面特征判斷方法。

這項(xiàng)研究不僅揭示了AI內(nèi)部工作機(jī)制的新秘密，更為AI系統(tǒng)的高效部署提供了實(shí)用的解決方案。當(dāng)AI能夠準(zhǔn)確評(píng)估自己的能力邊界時(shí)，我們就能構(gòu)建更智能、更經(jīng)濟(jì)的AI服務(wù)體系。

一、AI的"第六感"：預(yù)知成敗的神秘能力

當(dāng)你面對(duì)一道數(shù)學(xué)題時(shí)，往往在開始計(jì)算之前就能大致感覺到這題是簡單還是困難。令人意外的是，AI模型也擁有類似的"直覺"，而且這種直覺遠(yuǎn)比我們想象的更加精確和可靠。

研究團(tuán)隊(duì)選擇了多個(gè)不同規(guī)模和能力的AI模型進(jìn)行深入分析，包括Qwen2.5系列模型和GPT-OSS-20B等。他們采用了一種叫做"線性探針"的技術(shù)，這個(gè)技術(shù)就像給AI的"大腦"做核磁共振掃描，能夠讀取AI在思考過程中各個(gè)神經(jīng)網(wǎng)絡(luò)層的活動(dòng)狀態(tài)。

關(guān)鍵發(fā)現(xiàn)是，在AI開始生成任何文字輸出之前，它的內(nèi)部表示中就已經(jīng)包含了對(duì)問題成功率的準(zhǔn)確估計(jì)。研究人員通過分析AI在處理問題前最后一個(gè)處理環(huán)節(jié)的神經(jīng)網(wǎng)絡(luò)狀態(tài)，訓(xùn)練了簡單的分類器來預(yù)測AI是否會(huì)正確回答問題。

這種預(yù)測能力表現(xiàn)得相當(dāng)出色。在數(shù)學(xué)問題上，這些分類器能夠達(dá)到0.7以上的AUROC值（這是衡量分類準(zhǔn)確性的標(biāo)準(zhǔn)指標(biāo)，1.0表示完美預(yù)測），在某些情況下甚至超過0.9。相比之下，傳統(tǒng)的基于問題長度或詞匯復(fù)雜度的預(yù)測方法只能達(dá)到0.6到0.7的水平。

更fascinating的是，這種預(yù)測能力在不同類型的推理策略下都保持穩(wěn)定。無論AI使用貪婪解碼（每次選擇最可能的詞）還是采樣多個(gè)答案后投票決定，內(nèi)部的成功預(yù)測信號(hào)都能可靠地反映最終結(jié)果。

研究還發(fā)現(xiàn)，AI模型的這種"預(yù)感"能力與模型的基礎(chǔ)能力密切相關(guān)。能力較強(qiáng)的模型在簡單任務(wù)上表現(xiàn)出更強(qiáng)的預(yù)測準(zhǔn)確性，而在面對(duì)復(fù)雜推理任務(wù)時(shí)，所有模型的預(yù)測準(zhǔn)確性都會(huì)有所下降，但依然顯著優(yōu)于隨機(jī)猜測。

這一發(fā)現(xiàn)挑戰(zhàn)了我們對(duì)AI工作方式的傳統(tǒng)認(rèn)知。過去我們認(rèn)為AI是通過逐步生成和調(diào)整來尋找答案，現(xiàn)在看來，AI在開始"說話"之前就已經(jīng)在某種程度上"知道"了結(jié)果。這種內(nèi)在的成功評(píng)估機(jī)制為開發(fā)更高效的AI系統(tǒng)提供了全新的思路。

二、人機(jī)對(duì)"難題"的不同理解：當(dāng)AI遇見人類智慧

在這項(xiàng)研究中，最令人著迷的發(fā)現(xiàn)之一是AI和人類對(duì)問題難度的理解存在系統(tǒng)性差異，而且隨著AI推理能力的增強(qiáng)，這種差異會(huì)變得更加明顯。

研究團(tuán)隊(duì)使用了一個(gè)特殊的數(shù)據(jù)集E2H-AMC，這個(gè)數(shù)據(jù)集包含了4000道美國數(shù)學(xué)競賽的題目，每道題都標(biāo)注了基于大規(guī)模學(xué)生測試數(shù)據(jù)得出的人類難度評(píng)級(jí)。這種評(píng)級(jí)采用了心理測量學(xué)中的項(xiàng)目反應(yīng)理論（IRT），能夠精確反映普通人類解題的困難程度。

通過同時(shí)分析AI的內(nèi)部表示對(duì)人類難度和AI自身成功率的預(yù)測能力，研究人員發(fā)現(xiàn)了一個(gè)有趣的現(xiàn)象：AI的"大腦"中同時(shí)編碼著兩種不同的難度信息。一種是對(duì)人類而言的難度（Spearman相關(guān)系數(shù)達(dá)到0.83-0.87），另一種是對(duì)AI自身而言的難度（相關(guān)系數(shù)為0.40-0.64）。

更重要的是，這兩種難度信息是相互獨(dú)立的。AI對(duì)人類難度的編碼始終保持穩(wěn)定，即使在AI能夠輕松解決那些人類覺得困難的問題時(shí)也是如此。而AI對(duì)自身難度的感知?jiǎng)t會(huì)隨著其推理能力的變化而調(diào)整。

當(dāng)研究人員讓AI使用更深入的推理模式時(shí)，這種差異變得更加明顯。在GPT-OSS-20B模型的實(shí)驗(yàn)中，隨著推理復(fù)雜度從低到高變化，AI內(nèi)部表示與人類難度的對(duì)齊程度逐漸降低，從約0.65的相關(guān)性下降到0.45左右。這表明，隨著AI變得更加"聰明"，它越來越按照自己的標(biāo)準(zhǔn)而不是人類的標(biāo)準(zhǔn)來判斷問題的困難程度。

研究還揭示了一個(gè)引人深思的現(xiàn)象：當(dāng)AI進(jìn)行深度推理時(shí)，它生成的推理鏈長度與人類難度高度相關(guān)，但與AI自身的成功概率卻呈負(fù)相關(guān)。換句話說，AI會(huì)在人類覺得困難的問題上投入更多的"思考"時(shí)間和文字，即使這些問題對(duì)AI來說并不困難。

這種現(xiàn)象類似于一個(gè)圍棋高手在與初學(xué)者對(duì)弈時(shí)，仍然會(huì)在復(fù)雜局面上深思熟慮，盡管他知道自己有把握獲勝。AI似乎從訓(xùn)練數(shù)據(jù)中學(xué)會(huì)了人類的思維模式，在遇到傳統(tǒng)上被認(rèn)為困難的問題時(shí)，會(huì)自動(dòng)激活更加謹(jǐn)慎和詳細(xì)的推理過程。

這一發(fā)現(xiàn)對(duì)AI系統(tǒng)的實(shí)際應(yīng)用具有重要啟示。當(dāng)我們?cè)O(shè)計(jì)AI助手時(shí)，需要考慮到AI的難度評(píng)估可能與人類用戶的預(yù)期不同。有時(shí)候，用戶認(rèn)為困難的問題AI可能覺得簡單，而AI感到困難的問題人類可能覺得容易。理解這種差異有助于設(shè)計(jì)更好的人機(jī)交互界面和工作流程。

三、智能路由系統(tǒng)：讓AI更經(jīng)濟(jì)高效地工作

基于對(duì)AI內(nèi)部難度評(píng)估機(jī)制的深入理解，研究團(tuán)隊(duì)開發(fā)了一套創(chuàng)新的智能路由系統(tǒng)，這個(gè)系統(tǒng)就像一個(gè)聰明的調(diào)度員，能夠根據(jù)問題的復(fù)雜程度自動(dòng)選擇最合適的AI模型來處理。

這個(gè)路由系統(tǒng)的工作原理頗為巧妙。當(dāng)一個(gè)問題到來時(shí)，系統(tǒng)首先使用預(yù)訓(xùn)練的探針來快速評(píng)估這個(gè)問題對(duì)于不同AI模型的難度。然后，根據(jù)預(yù)設(shè)的策略，將問題分配給最合適的模型處理。這個(gè)過程就像醫(yī)院的分診系統(tǒng)，輕微病癥交給普通醫(yī)生處理，復(fù)雜疾病才轉(zhuǎn)診給專家。

研究團(tuán)隊(duì)設(shè)計(jì)了兩種主要的路由策略。第一種是級(jí)聯(lián)路由，從能力較弱但成本較低的模型開始嘗試，只有當(dāng)預(yù)測成功率低于設(shè)定閾值時(shí)，才將問題升級(jí)到更強(qiáng)大但更昂貴的模型。這種方式類似于客服系統(tǒng)中的分級(jí)處理：簡單問題由初級(jí)客服解決，復(fù)雜問題才轉(zhuǎn)給高級(jí)專家。

第二種是效用最大化路由，這種方法同時(shí)考慮成功概率和計(jì)算成本，為每個(gè)模型計(jì)算一個(gè)綜合效用分?jǐn)?shù)，然后選擇效用最高的模型。這就像選擇出行方式時(shí)同時(shí)考慮時(shí)間、費(fèi)用和舒適度一樣，尋找最優(yōu)的平衡點(diǎn)。

實(shí)驗(yàn)結(jié)果令人印象深刻。在MATH數(shù)學(xué)基準(zhǔn)測試中，級(jí)聯(lián)路由系統(tǒng)能夠在保持與高性能單一模型相同準(zhǔn)確率的情況下，將計(jì)算成本降低17%。而效用最大化路由的表現(xiàn)更加出色，在某些配置下能夠達(dá)到與最強(qiáng)單一模型相同甚至更高的準(zhǔn)確率，同時(shí)將成本降低多達(dá)70%。

在不同類型的問題上，路由系統(tǒng)表現(xiàn)出了良好的適應(yīng)性。在AIME競賽題目上，由于問題難度變化較大，路由系統(tǒng)傾向于為困難問題選擇更強(qiáng)大的模型，實(shí)現(xiàn)了37%的成本節(jié)約。而在GSM8K這樣相對(duì)簡單的基準(zhǔn)上，路由系統(tǒng)聰明地識(shí)別出大部分問題都可以由較便宜的模型處理，避免了不必要的計(jì)算資源浪費(fèi)。

研究還發(fā)現(xiàn)，路由系統(tǒng)的效果很大程度上取決于底層探針的可靠性。當(dāng)探針能夠準(zhǔn)確預(yù)測模型成功率時(shí)，路由系統(tǒng)的性能接近理論最優(yōu)值。但當(dāng)探針準(zhǔn)確性下降時(shí)，路由效果也會(huì)相應(yīng)降低。這強(qiáng)調(diào)了持續(xù)改進(jìn)難度預(yù)測算法的重要性。

值得注意的是，這種路由方法的計(jì)算開銷極小。與需要運(yùn)行多個(gè)模型來估計(jì)置信度的傳統(tǒng)方法不同，基于內(nèi)部表示的預(yù)測只需要在問題處理前進(jìn)行一次快速的神經(jīng)網(wǎng)絡(luò)前向傳播，幾乎不增加額外的計(jì)算成本。

四、深度推理的雙刃劍：能力提升與預(yù)測困難的權(quán)衡

研究中一個(gè)特別引人注目的發(fā)現(xiàn)是，當(dāng)AI模型使用更深入的推理策略時(shí)，雖然解題準(zhǔn)確率顯著提升，但其內(nèi)部的成功預(yù)測信號(hào)卻變得更加難以捕捉。這一現(xiàn)象揭示了AI能力提升過程中的一個(gè)有趣悖論。

以GPT-OSS-20B模型為例，當(dāng)研究人員將其推理深度從低級(jí)別調(diào)整到高級(jí)別時(shí)，模型在MATH基準(zhǔn)上的準(zhǔn)確率從86.6%提升到了92.0%，這是一個(gè)相當(dāng)顯著的改進(jìn)。然而，同期內(nèi)部探針預(yù)測模型成功率的能力卻從0.78的AUROC下降到了0.64，預(yù)測準(zhǔn)確性明顯降低。

這種現(xiàn)象可以用一個(gè)有趣的比喻來理解：就像一個(gè)經(jīng)驗(yàn)豐富的醫(yī)生，當(dāng)他進(jìn)行更復(fù)雜的診斷思考時(shí)，雖然最終診斷準(zhǔn)確性更高，但在診斷開始階段，外人卻更難從他的初始表現(xiàn)判斷他是否會(huì)得出正確結(jié)論。深度推理過程中的復(fù)雜性掩蓋了早期階段的預(yù)測信號(hào)。

研究人員深入分析了這一現(xiàn)象的機(jī)制。他們發(fā)現(xiàn)，當(dāng)AI進(jìn)行深度推理時(shí)，其輸出的推理鏈長度與人類難度判斷高度相關(guān)，但與AI自身的成功概率卻呈現(xiàn)負(fù)相關(guān)關(guān)系。這意味著AI會(huì)在人類認(rèn)為困難的問題上生成更長的推理過程，即使這些問題對(duì)AI來說實(shí)際上并不困難。

這種行為模式反映了AI訓(xùn)練過程中學(xué)到的一種"過度謹(jǐn)慎"策略。在訓(xùn)練數(shù)據(jù)中，復(fù)雜問題通常需要更詳細(xì)的推理步驟，因此AI學(xué)會(huì)了在遇到這類問題時(shí)自動(dòng)激活更深入的推理模式。這就像一個(gè)學(xué)生在考試中遇到看起來復(fù)雜的題目時(shí)，即使他知道答案，也會(huì)寫出詳細(xì)的解題步驟以防萬一。

這一發(fā)現(xiàn)對(duì)AI系統(tǒng)的實(shí)際應(yīng)用具有重要啟示。一方面，深度推理確實(shí)能夠提升AI的問題解決能力，特別是在復(fù)雜的數(shù)學(xué)和邏輯推理任務(wù)上。另一方面，這種能力提升是以犧牲早期預(yù)測準(zhǔn)確性為代價(jià)的，這使得基于內(nèi)部表示的路由和資源分配變得更加困難。

研究結(jié)果還顯示，這種趨勢在不同類型的任務(wù)中都存在。無論是數(shù)學(xué)推理還是編程任務(wù)，當(dāng)模型采用更復(fù)雜的推理策略時(shí)，都會(huì)出現(xiàn)類似的預(yù)測準(zhǔn)確性下降現(xiàn)象。這表明這不是特定任務(wù)的特殊現(xiàn)象，而是深度推理模式的一個(gè)固有特征。

對(duì)于實(shí)際應(yīng)用而言，這意味著我們需要在推理深度和預(yù)測可靠性之間尋找平衡。在某些對(duì)成本敏感的應(yīng)用場景中，可能需要權(quán)衡使用中等深度的推理以保持良好的路由效果。而在對(duì)準(zhǔn)確性要求極高的場景中，則可能需要接受較高的計(jì)算成本來獲得最佳性能。

五、編程領(lǐng)域的驗(yàn)證：跨域能力的展現(xiàn)

為了驗(yàn)證這些發(fā)現(xiàn)的普適性，研究團(tuán)隊(duì)將目光轉(zhuǎn)向了編程任務(wù)，使用LiveCodeBench數(shù)據(jù)集進(jìn)行了廣泛的實(shí)驗(yàn)驗(yàn)證。編程任務(wù)與數(shù)學(xué)推理在本質(zhì)上有所不同，它要求AI不僅要理解問題邏輯，還要生成能夠通過測試用例的可執(zhí)行代碼。

在編程任務(wù)中，研究人員采用了Pass@5的評(píng)估標(biāo)準(zhǔn)，即AI生成5個(gè)候選解決方案，只要其中至少有一個(gè)能夠通過所有測試用例就算成功。這種評(píng)估方式更接近實(shí)際編程場景中的多次嘗試和調(diào)試過程。

實(shí)驗(yàn)結(jié)果令人鼓舞。在Qwen2.5-Coder和DeepSeek-R1等專門針對(duì)編程任務(wù)優(yōu)化的模型上，基于內(nèi)部表示的成功預(yù)測達(dá)到了0.81到0.91的AUROC值，這甚至超過了數(shù)學(xué)任務(wù)中的表現(xiàn)。這表明AI對(duì)編程任務(wù)難度的內(nèi)部表示可能比數(shù)學(xué)推理更加清晰和可靠。

有趣的是，編程任務(wù)中也觀察到了與數(shù)學(xué)任務(wù)類似的模式。GPT-OSS-20B在編程任務(wù)上的探針質(zhì)量相對(duì)較低（約0.67），這與其在數(shù)學(xué)任務(wù)中的表現(xiàn)保持一致。這進(jìn)一步證實(shí)了探針可訪問性更多地與模型架構(gòu)和訓(xùn)練方式相關(guān)，而不是特定任務(wù)類型的問題。

研究還發(fā)現(xiàn)，編程任務(wù)中的難度預(yù)測信息在不同的代碼生成策略下都保持相對(duì)穩(wěn)定。無論是使用較低的采樣溫度（更傾向于生成確定性代碼）還是較高的采樣溫度（更傾向于生成多樣化解決方案），內(nèi)部的成功預(yù)測信號(hào)都能提供有價(jià)值的指導(dǎo)。

為了確保實(shí)驗(yàn)的公平性，研究團(tuán)隊(duì)特別注意了數(shù)據(jù)污染問題。他們根據(jù)每個(gè)模型的發(fā)布時(shí)間設(shè)置了時(shí)間分割點(diǎn)，只使用發(fā)布日期之后的編程題目進(jìn)行測試，避免了模型在訓(xùn)練期間見過測試數(shù)據(jù)的情況。

編程實(shí)驗(yàn)的成功驗(yàn)證了這種基于內(nèi)部表示的難度預(yù)測方法具有良好的跨領(lǐng)域通用性。無論是需要數(shù)學(xué)推理的問題還是需要代碼實(shí)現(xiàn)的任務(wù)，AI模型的內(nèi)部表示中都蘊(yùn)含著豐富的成功預(yù)測信息，這些信息可以被有效提取和利用。

這一發(fā)現(xiàn)對(duì)實(shí)際AI系統(tǒng)部署具有重要意義。在現(xiàn)實(shí)的AI服務(wù)中，用戶的請(qǐng)求往往涉及多個(gè)不同領(lǐng)域，從文本分析到數(shù)學(xué)計(jì)算，從代碼生成到邏輯推理。一個(gè)能夠跨領(lǐng)域準(zhǔn)確評(píng)估任務(wù)難度的系統(tǒng)，將能夠更有效地分配計(jì)算資源，提供更經(jīng)濟(jì)高效的服務(wù)。

說到底，這項(xiàng)來自牛津大學(xué)的研究為我們打開了一扇全新的窗戶，讓我們得以窺見AI內(nèi)部工作機(jī)制的奧秘。原來AI在開始"思考"之前，就已經(jīng)在某種程度上"知道"了答案的可能性，這種能力不僅存在，而且可以被我們捕捉和利用。

更有意思的是，研究揭示了AI與人類對(duì)困難的理解存在根本差異，而且隨著AI能力的提升，這種差異還會(huì)進(jìn)一步擴(kuò)大。這提醒我們，在設(shè)計(jì)AI系統(tǒng)時(shí)不能簡單地以人類的思維模式為標(biāo)準(zhǔn)，而要深入理解AI獨(dú)特的"思考"方式。

基于這些發(fā)現(xiàn)開發(fā)的智能路由系統(tǒng)，成功實(shí)現(xiàn)了在保持性能的同時(shí)大幅降低計(jì)算成本的目標(biāo)。在某些情況下，成本降幅高達(dá)70%，這對(duì)于大規(guī)模AI服務(wù)部署具有重要的實(shí)用價(jià)值。隨著AI技術(shù)的普及和計(jì)算資源的日益緊張，這種高效的資源利用方式將變得越來越重要。

當(dāng)然，研究也指出了一些挑戰(zhàn)和限制。深度推理雖然能提升AI的問題解決能力，但會(huì)降低早期預(yù)測的準(zhǔn)確性，這要求我們?cè)谛阅芎托手g尋找更好的平衡點(diǎn)。此外，探針的可靠性直接影響路由系統(tǒng)的效果，這意味著我們還需要繼續(xù)改進(jìn)難度預(yù)測算法。

展望未來，這項(xiàng)研究為AI系統(tǒng)的智能化管理開辟了新的可能性。或許不久的將來，我們的AI助手不僅能夠回答問題，還能智慧地評(píng)估自己的能力邊界，在合適的時(shí)候?qū)で蟾鼜?qiáng)大模型的幫助，或者將簡單任務(wù)交給更經(jīng)濟(jì)的處理方式。這樣的AI系統(tǒng)將更加實(shí)用、經(jīng)濟(jì)，也更加可靠。

對(duì)于普通用戶而言，這意味著未來的AI服務(wù)可能會(huì)變得更快、更便宜，同時(shí)保持或提升質(zhì)量。對(duì)于AI開發(fā)者來說，這項(xiàng)研究提供了新的工具和思路，幫助他們構(gòu)建更高效的AI系統(tǒng)。而對(duì)于整個(gè)社會(huì)而言，更經(jīng)濟(jì)的AI技術(shù)將降低人工智能應(yīng)用的門檻，讓更多人能夠享受到AI帶來的便利。

有興趣深入了解這項(xiàng)研究細(xì)節(jié)的讀者，可以通過論文編號(hào)arXiv:2602.09924v1在arXiv平臺(tái)查找完整的研究報(bào)告，其中包含了更詳細(xì)的技術(shù)細(xì)節(jié)和實(shí)驗(yàn)數(shù)據(jù)。

Q&A

Q1：AI是如何預(yù)知自己會(huì)失敗的？

A：AI通過內(nèi)部神經(jīng)網(wǎng)絡(luò)的激活模式來"預(yù)感"成敗。研究人員發(fā)現(xiàn)，在AI開始生成答案之前，它的神經(jīng)網(wǎng)絡(luò)中就已經(jīng)編碼了對(duì)問題難度的判斷。就像人類看到數(shù)學(xué)題時(shí)會(huì)有直覺感受一樣，AI的"大腦"在處理問題的最初階段就已經(jīng)評(píng)估了成功的可能性，這種評(píng)估信息可以通過特殊技術(shù)提取出來。

Q2：為什么AI對(duì)困難的理解和人類不同？

A：AI的難度判斷主要基于其訓(xùn)練數(shù)據(jù)和內(nèi)部算法邏輯，而人類的難度感知更多來自認(rèn)知心理和學(xué)習(xí)經(jīng)驗(yàn)。研究發(fā)現(xiàn)，AI會(huì)在人類認(rèn)為困難的問題上投入更多推理資源，即使這些問題對(duì)AI來說并不難解決。這是因?yàn)锳I從訓(xùn)練數(shù)據(jù)中學(xué)會(huì)了人類的思維模式，在遇到傳統(tǒng)上被認(rèn)為困難的問題時(shí)會(huì)自動(dòng)激活更謹(jǐn)慎的處理模式。

Q3：智能路由系統(tǒng)如何幫我們省錢？

A：智能路由系統(tǒng)就像一個(gè)聰明的任務(wù)分配員，根據(jù)問題難度自動(dòng)選擇最合適的AI模型來處理。簡單問題交給便宜的小模型，復(fù)雜問題才用昂貴的大模型。研究顯示這種方法可以在保持相同準(zhǔn)確率的情況下將計(jì)算成本降低17%到70%，這意味著AI服務(wù)提供商可以用更少的電力和計(jì)算資源提供同樣質(zhì)量的服務(wù)。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.