![]()
這項(xiàng)由牛津大學(xué)互聯(lián)網(wǎng)研究所、牛津大學(xué)FLAIR實(shí)驗(yàn)室以及倫敦大學(xué)學(xué)院計(jì)算機(jī)科學(xué)系聯(lián)合完成的研究,發(fā)表于2026年2月10日的arXiv預(yù)印本平臺(tái)(論文編號(hào):arXiv:2602.09924v1 [cs.CL]),為我們揭示了一個(gè)令人驚訝的發(fā)現(xiàn):大型語言模型在開始生成答案之前,就已經(jīng)在內(nèi)心深處"預(yù)感"到自己是否會(huì)成功。
當(dāng)我們使用ChatGPT、Claude等AI助手時(shí),往往會(huì)遇到這樣的情況:有些問題AI能快速給出準(zhǔn)確答案,有些卻需要"思考"很久還可能出錯(cuò)。過去我們以為這是隨機(jī)的,但這項(xiàng)研究證明,AI其實(shí)早就知道哪些問題它能搞定,哪些會(huì)讓它栽跟頭。
研究團(tuán)隊(duì)通過分析AI模型的內(nèi)部神經(jīng)網(wǎng)絡(luò)活動(dòng),就像給AI做"腦部掃描"一樣,發(fā)現(xiàn)了一個(gè)驚人的事實(shí):在AI開始說話之前,它的"大腦"中就已經(jīng)編碼了對(duì)問題難度的判斷。這種判斷不僅準(zhǔn)確,而且可以被提取出來指導(dǎo)更高效的計(jì)算資源分配。
更有趣的是,研究發(fā)現(xiàn)AI對(duì)"困難"的理解與人類存在顯著差異。當(dāng)AI進(jìn)行更深入的推理時(shí),這種差異會(huì)進(jìn)一步擴(kuò)大。AI會(huì)在人類認(rèn)為困難的問題上花費(fèi)更多計(jì)算資源,即使這些問題對(duì)AI來說并不難解決。這就像一個(gè)數(shù)學(xué)天才在簡單加法題上也要用草稿紙仔細(xì)計(jì)算,因?yàn)樗涀×巳祟愑X得這類題目需要謹(jǐn)慎對(duì)待。
基于這一發(fā)現(xiàn),研究團(tuán)隊(duì)開發(fā)了一套智能路由系統(tǒng),能夠根據(jù)問題難度自動(dòng)選擇最合適的AI模型來處理。這套系統(tǒng)在保持相同準(zhǔn)確率的情況下,成功將計(jì)算成本降低了17%到70%。這意味著我們可以用更少的電力和計(jì)算資源獲得同樣好的AI服務(wù),這對(duì)環(huán)境保護(hù)和成本控制都具有重要意義。
研究團(tuán)隊(duì)在數(shù)學(xué)推理和編程任務(wù)上進(jìn)行了大量實(shí)驗(yàn),使用了包括MATH、GSM8K、AIME競賽題目和編程挑戰(zhàn)等多個(gè)基準(zhǔn)測試。結(jié)果顯示,這種基于內(nèi)部表示的難度預(yù)測方法顯著優(yōu)于傳統(tǒng)的文本長度、詞頻等表面特征判斷方法。
這項(xiàng)研究不僅揭示了AI內(nèi)部工作機(jī)制的新秘密,更為AI系統(tǒng)的高效部署提供了實(shí)用的解決方案。當(dāng)AI能夠準(zhǔn)確評(píng)估自己的能力邊界時(shí),我們就能構(gòu)建更智能、更經(jīng)濟(jì)的AI服務(wù)體系。
一、AI的"第六感":預(yù)知成敗的神秘能力
當(dāng)你面對(duì)一道數(shù)學(xué)題時(shí),往往在開始計(jì)算之前就能大致感覺到這題是簡單還是困難。令人意外的是,AI模型也擁有類似的"直覺",而且這種直覺遠(yuǎn)比我們想象的更加精確和可靠。
研究團(tuán)隊(duì)選擇了多個(gè)不同規(guī)模和能力的AI模型進(jìn)行深入分析,包括Qwen2.5系列模型和GPT-OSS-20B等。他們采用了一種叫做"線性探針"的技術(shù),這個(gè)技術(shù)就像給AI的"大腦"做核磁共振掃描,能夠讀取AI在思考過程中各個(gè)神經(jīng)網(wǎng)絡(luò)層的活動(dòng)狀態(tài)。
關(guān)鍵發(fā)現(xiàn)是,在AI開始生成任何文字輸出之前,它的內(nèi)部表示中就已經(jīng)包含了對(duì)問題成功率的準(zhǔn)確估計(jì)。研究人員通過分析AI在處理問題前最后一個(gè)處理環(huán)節(jié)的神經(jīng)網(wǎng)絡(luò)狀態(tài),訓(xùn)練了簡單的分類器來預(yù)測AI是否會(huì)正確回答問題。
這種預(yù)測能力表現(xiàn)得相當(dāng)出色。在數(shù)學(xué)問題上,這些分類器能夠達(dá)到0.7以上的AUROC值(這是衡量分類準(zhǔn)確性的標(biāo)準(zhǔn)指標(biāo),1.0表示完美預(yù)測),在某些情況下甚至超過0.9。相比之下,傳統(tǒng)的基于問題長度或詞匯復(fù)雜度的預(yù)測方法只能達(dá)到0.6到0.7的水平。
更fascinating的是,這種預(yù)測能力在不同類型的推理策略下都保持穩(wěn)定。無論AI使用貪婪解碼(每次選擇最可能的詞)還是采樣多個(gè)答案后投票決定,內(nèi)部的成功預(yù)測信號(hào)都能可靠地反映最終結(jié)果。
研究還發(fā)現(xiàn),AI模型的這種"預(yù)感"能力與模型的基礎(chǔ)能力密切相關(guān)。能力較強(qiáng)的模型在簡單任務(wù)上表現(xiàn)出更強(qiáng)的預(yù)測準(zhǔn)確性,而在面對(duì)復(fù)雜推理任務(wù)時(shí),所有模型的預(yù)測準(zhǔn)確性都會(huì)有所下降,但依然顯著優(yōu)于隨機(jī)猜測。
這一發(fā)現(xiàn)挑戰(zhàn)了我們對(duì)AI工作方式的傳統(tǒng)認(rèn)知。過去我們認(rèn)為AI是通過逐步生成和調(diào)整來尋找答案,現(xiàn)在看來,AI在開始"說話"之前就已經(jīng)在某種程度上"知道"了結(jié)果。這種內(nèi)在的成功評(píng)估機(jī)制為開發(fā)更高效的AI系統(tǒng)提供了全新的思路。
二、人機(jī)對(duì)"難題"的不同理解:當(dāng)AI遇見人類智慧
在這項(xiàng)研究中,最令人著迷的發(fā)現(xiàn)之一是AI和人類對(duì)問題難度的理解存在系統(tǒng)性差異,而且隨著AI推理能力的增強(qiáng),這種差異會(huì)變得更加明顯。
研究團(tuán)隊(duì)使用了一個(gè)特殊的數(shù)據(jù)集E2H-AMC,這個(gè)數(shù)據(jù)集包含了4000道美國數(shù)學(xué)競賽的題目,每道題都標(biāo)注了基于大規(guī)模學(xué)生測試數(shù)據(jù)得出的人類難度評(píng)級(jí)。這種評(píng)級(jí)采用了心理測量學(xué)中的項(xiàng)目反應(yīng)理論(IRT),能夠精確反映普通人類解題的困難程度。
通過同時(shí)分析AI的內(nèi)部表示對(duì)人類難度和AI自身成功率的預(yù)測能力,研究人員發(fā)現(xiàn)了一個(gè)有趣的現(xiàn)象:AI的"大腦"中同時(shí)編碼著兩種不同的難度信息。一種是對(duì)人類而言的難度(Spearman相關(guān)系數(shù)達(dá)到0.83-0.87),另一種是對(duì)AI自身而言的難度(相關(guān)系數(shù)為0.40-0.64)。
更重要的是,這兩種難度信息是相互獨(dú)立的。AI對(duì)人類難度的編碼始終保持穩(wěn)定,即使在AI能夠輕松解決那些人類覺得困難的問題時(shí)也是如此。而AI對(duì)自身難度的感知?jiǎng)t會(huì)隨著其推理能力的變化而調(diào)整。
當(dāng)研究人員讓AI使用更深入的推理模式時(shí),這種差異變得更加明顯。在GPT-OSS-20B模型的實(shí)驗(yàn)中,隨著推理復(fù)雜度從低到高變化,AI內(nèi)部表示與人類難度的對(duì)齊程度逐漸降低,從約0.65的相關(guān)性下降到0.45左右。這表明,隨著AI變得更加"聰明",它越來越按照自己的標(biāo)準(zhǔn)而不是人類的標(biāo)準(zhǔn)來判斷問題的困難程度。
研究還揭示了一個(gè)引人深思的現(xiàn)象:當(dāng)AI進(jìn)行深度推理時(shí),它生成的推理鏈長度與人類難度高度相關(guān),但與AI自身的成功概率卻呈負(fù)相關(guān)。換句話說,AI會(huì)在人類覺得困難的問題上投入更多的"思考"時(shí)間和文字,即使這些問題對(duì)AI來說并不困難。
這種現(xiàn)象類似于一個(gè)圍棋高手在與初學(xué)者對(duì)弈時(shí),仍然會(huì)在復(fù)雜局面上深思熟慮,盡管他知道自己有把握獲勝。AI似乎從訓(xùn)練數(shù)據(jù)中學(xué)會(huì)了人類的思維模式,在遇到傳統(tǒng)上被認(rèn)為困難的問題時(shí),會(huì)自動(dòng)激活更加謹(jǐn)慎和詳細(xì)的推理過程。
這一發(fā)現(xiàn)對(duì)AI系統(tǒng)的實(shí)際應(yīng)用具有重要啟示。當(dāng)我們?cè)O(shè)計(jì)AI助手時(shí),需要考慮到AI的難度評(píng)估可能與人類用戶的預(yù)期不同。有時(shí)候,用戶認(rèn)為困難的問題AI可能覺得簡單,而AI感到困難的問題人類可能覺得容易。理解這種差異有助于設(shè)計(jì)更好的人機(jī)交互界面和工作流程。
三、智能路由系統(tǒng):讓AI更經(jīng)濟(jì)高效地工作
基于對(duì)AI內(nèi)部難度評(píng)估機(jī)制的深入理解,研究團(tuán)隊(duì)開發(fā)了一套創(chuàng)新的智能路由系統(tǒng),這個(gè)系統(tǒng)就像一個(gè)聰明的調(diào)度員,能夠根據(jù)問題的復(fù)雜程度自動(dòng)選擇最合適的AI模型來處理。
這個(gè)路由系統(tǒng)的工作原理頗為巧妙。當(dāng)一個(gè)問題到來時(shí),系統(tǒng)首先使用預(yù)訓(xùn)練的探針來快速評(píng)估這個(gè)問題對(duì)于不同AI模型的難度。然后,根據(jù)預(yù)設(shè)的策略,將問題分配給最合適的模型處理。這個(gè)過程就像醫(yī)院的分診系統(tǒng),輕微病癥交給普通醫(yī)生處理,復(fù)雜疾病才轉(zhuǎn)診給專家。
研究團(tuán)隊(duì)設(shè)計(jì)了兩種主要的路由策略。第一種是級(jí)聯(lián)路由,從能力較弱但成本較低的模型開始嘗試,只有當(dāng)預(yù)測成功率低于設(shè)定閾值時(shí),才將問題升級(jí)到更強(qiáng)大但更昂貴的模型。這種方式類似于客服系統(tǒng)中的分級(jí)處理:簡單問題由初級(jí)客服解決,復(fù)雜問題才轉(zhuǎn)給高級(jí)專家。
第二種是效用最大化路由,這種方法同時(shí)考慮成功概率和計(jì)算成本,為每個(gè)模型計(jì)算一個(gè)綜合效用分?jǐn)?shù),然后選擇效用最高的模型。這就像選擇出行方式時(shí)同時(shí)考慮時(shí)間、費(fèi)用和舒適度一樣,尋找最優(yōu)的平衡點(diǎn)。
實(shí)驗(yàn)結(jié)果令人印象深刻。在MATH數(shù)學(xué)基準(zhǔn)測試中,級(jí)聯(lián)路由系統(tǒng)能夠在保持與高性能單一模型相同準(zhǔn)確率的情況下,將計(jì)算成本降低17%。而效用最大化路由的表現(xiàn)更加出色,在某些配置下能夠達(dá)到與最強(qiáng)單一模型相同甚至更高的準(zhǔn)確率,同時(shí)將成本降低多達(dá)70%。
在不同類型的問題上,路由系統(tǒng)表現(xiàn)出了良好的適應(yīng)性。在AIME競賽題目上,由于問題難度變化較大,路由系統(tǒng)傾向于為困難問題選擇更強(qiáng)大的模型,實(shí)現(xiàn)了37%的成本節(jié)約。而在GSM8K這樣相對(duì)簡單的基準(zhǔn)上,路由系統(tǒng)聰明地識(shí)別出大部分問題都可以由較便宜的模型處理,避免了不必要的計(jì)算資源浪費(fèi)。
研究還發(fā)現(xiàn),路由系統(tǒng)的效果很大程度上取決于底層探針的可靠性。當(dāng)探針能夠準(zhǔn)確預(yù)測模型成功率時(shí),路由系統(tǒng)的性能接近理論最優(yōu)值。但當(dāng)探針準(zhǔn)確性下降時(shí),路由效果也會(huì)相應(yīng)降低。這強(qiáng)調(diào)了持續(xù)改進(jìn)難度預(yù)測算法的重要性。
值得注意的是,這種路由方法的計(jì)算開銷極小。與需要運(yùn)行多個(gè)模型來估計(jì)置信度的傳統(tǒng)方法不同,基于內(nèi)部表示的預(yù)測只需要在問題處理前進(jìn)行一次快速的神經(jīng)網(wǎng)絡(luò)前向傳播,幾乎不增加額外的計(jì)算成本。
四、深度推理的雙刃劍:能力提升與預(yù)測困難的權(quán)衡
研究中一個(gè)特別引人注目的發(fā)現(xiàn)是,當(dāng)AI模型使用更深入的推理策略時(shí),雖然解題準(zhǔn)確率顯著提升,但其內(nèi)部的成功預(yù)測信號(hào)卻變得更加難以捕捉。這一現(xiàn)象揭示了AI能力提升過程中的一個(gè)有趣悖論。
以GPT-OSS-20B模型為例,當(dāng)研究人員將其推理深度從低級(jí)別調(diào)整到高級(jí)別時(shí),模型在MATH基準(zhǔn)上的準(zhǔn)確率從86.6%提升到了92.0%,這是一個(gè)相當(dāng)顯著的改進(jìn)。然而,同期內(nèi)部探針預(yù)測模型成功率的能力卻從0.78的AUROC下降到了0.64,預(yù)測準(zhǔn)確性明顯降低。
這種現(xiàn)象可以用一個(gè)有趣的比喻來理解:就像一個(gè)經(jīng)驗(yàn)豐富的醫(yī)生,當(dāng)他進(jìn)行更復(fù)雜的診斷思考時(shí),雖然最終診斷準(zhǔn)確性更高,但在診斷開始階段,外人卻更難從他的初始表現(xiàn)判斷他是否會(huì)得出正確結(jié)論。深度推理過程中的復(fù)雜性掩蓋了早期階段的預(yù)測信號(hào)。
研究人員深入分析了這一現(xiàn)象的機(jī)制。他們發(fā)現(xiàn),當(dāng)AI進(jìn)行深度推理時(shí),其輸出的推理鏈長度與人類難度判斷高度相關(guān),但與AI自身的成功概率卻呈現(xiàn)負(fù)相關(guān)關(guān)系。這意味著AI會(huì)在人類認(rèn)為困難的問題上生成更長的推理過程,即使這些問題對(duì)AI來說實(shí)際上并不困難。
這種行為模式反映了AI訓(xùn)練過程中學(xué)到的一種"過度謹(jǐn)慎"策略。在訓(xùn)練數(shù)據(jù)中,復(fù)雜問題通常需要更詳細(xì)的推理步驟,因此AI學(xué)會(huì)了在遇到這類問題時(shí)自動(dòng)激活更深入的推理模式。這就像一個(gè)學(xué)生在考試中遇到看起來復(fù)雜的題目時(shí),即使他知道答案,也會(huì)寫出詳細(xì)的解題步驟以防萬一。
這一發(fā)現(xiàn)對(duì)AI系統(tǒng)的實(shí)際應(yīng)用具有重要啟示。一方面,深度推理確實(shí)能夠提升AI的問題解決能力,特別是在復(fù)雜的數(shù)學(xué)和邏輯推理任務(wù)上。另一方面,這種能力提升是以犧牲早期預(yù)測準(zhǔn)確性為代價(jià)的,這使得基于內(nèi)部表示的路由和資源分配變得更加困難。
研究結(jié)果還顯示,這種趨勢在不同類型的任務(wù)中都存在。無論是數(shù)學(xué)推理還是編程任務(wù),當(dāng)模型采用更復(fù)雜的推理策略時(shí),都會(huì)出現(xiàn)類似的預(yù)測準(zhǔn)確性下降現(xiàn)象。這表明這不是特定任務(wù)的特殊現(xiàn)象,而是深度推理模式的一個(gè)固有特征。
對(duì)于實(shí)際應(yīng)用而言,這意味著我們需要在推理深度和預(yù)測可靠性之間尋找平衡。在某些對(duì)成本敏感的應(yīng)用場景中,可能需要權(quán)衡使用中等深度的推理以保持良好的路由效果。而在對(duì)準(zhǔn)確性要求極高的場景中,則可能需要接受較高的計(jì)算成本來獲得最佳性能。
五、編程領(lǐng)域的驗(yàn)證:跨域能力的展現(xiàn)
為了驗(yàn)證這些發(fā)現(xiàn)的普適性,研究團(tuán)隊(duì)將目光轉(zhuǎn)向了編程任務(wù),使用LiveCodeBench數(shù)據(jù)集進(jìn)行了廣泛的實(shí)驗(yàn)驗(yàn)證。編程任務(wù)與數(shù)學(xué)推理在本質(zhì)上有所不同,它要求AI不僅要理解問題邏輯,還要生成能夠通過測試用例的可執(zhí)行代碼。
在編程任務(wù)中,研究人員采用了Pass@5的評(píng)估標(biāo)準(zhǔn),即AI生成5個(gè)候選解決方案,只要其中至少有一個(gè)能夠通過所有測試用例就算成功。這種評(píng)估方式更接近實(shí)際編程場景中的多次嘗試和調(diào)試過程。
實(shí)驗(yàn)結(jié)果令人鼓舞。在Qwen2.5-Coder和DeepSeek-R1等專門針對(duì)編程任務(wù)優(yōu)化的模型上,基于內(nèi)部表示的成功預(yù)測達(dá)到了0.81到0.91的AUROC值,這甚至超過了數(shù)學(xué)任務(wù)中的表現(xiàn)。這表明AI對(duì)編程任務(wù)難度的內(nèi)部表示可能比數(shù)學(xué)推理更加清晰和可靠。
有趣的是,編程任務(wù)中也觀察到了與數(shù)學(xué)任務(wù)類似的模式。GPT-OSS-20B在編程任務(wù)上的探針質(zhì)量相對(duì)較低(約0.67),這與其在數(shù)學(xué)任務(wù)中的表現(xiàn)保持一致。這進(jìn)一步證實(shí)了探針可訪問性更多地與模型架構(gòu)和訓(xùn)練方式相關(guān),而不是特定任務(wù)類型的問題。
研究還發(fā)現(xiàn),編程任務(wù)中的難度預(yù)測信息在不同的代碼生成策略下都保持相對(duì)穩(wěn)定。無論是使用較低的采樣溫度(更傾向于生成確定性代碼)還是較高的采樣溫度(更傾向于生成多樣化解決方案),內(nèi)部的成功預(yù)測信號(hào)都能提供有價(jià)值的指導(dǎo)。
為了確保實(shí)驗(yàn)的公平性,研究團(tuán)隊(duì)特別注意了數(shù)據(jù)污染問題。他們根據(jù)每個(gè)模型的發(fā)布時(shí)間設(shè)置了時(shí)間分割點(diǎn),只使用發(fā)布日期之后的編程題目進(jìn)行測試,避免了模型在訓(xùn)練期間見過測試數(shù)據(jù)的情況。
編程實(shí)驗(yàn)的成功驗(yàn)證了這種基于內(nèi)部表示的難度預(yù)測方法具有良好的跨領(lǐng)域通用性。無論是需要數(shù)學(xué)推理的問題還是需要代碼實(shí)現(xiàn)的任務(wù),AI模型的內(nèi)部表示中都蘊(yùn)含著豐富的成功預(yù)測信息,這些信息可以被有效提取和利用。
這一發(fā)現(xiàn)對(duì)實(shí)際AI系統(tǒng)部署具有重要意義。在現(xiàn)實(shí)的AI服務(wù)中,用戶的請(qǐng)求往往涉及多個(gè)不同領(lǐng)域,從文本分析到數(shù)學(xué)計(jì)算,從代碼生成到邏輯推理。一個(gè)能夠跨領(lǐng)域準(zhǔn)確評(píng)估任務(wù)難度的系統(tǒng),將能夠更有效地分配計(jì)算資源,提供更經(jīng)濟(jì)高效的服務(wù)。
說到底,這項(xiàng)來自牛津大學(xué)的研究為我們打開了一扇全新的窗戶,讓我們得以窺見AI內(nèi)部工作機(jī)制的奧秘。原來AI在開始"思考"之前,就已經(jīng)在某種程度上"知道"了答案的可能性,這種能力不僅存在,而且可以被我們捕捉和利用。
更有意思的是,研究揭示了AI與人類對(duì)困難的理解存在根本差異,而且隨著AI能力的提升,這種差異還會(huì)進(jìn)一步擴(kuò)大。這提醒我們,在設(shè)計(jì)AI系統(tǒng)時(shí)不能簡單地以人類的思維模式為標(biāo)準(zhǔn),而要深入理解AI獨(dú)特的"思考"方式。
基于這些發(fā)現(xiàn)開發(fā)的智能路由系統(tǒng),成功實(shí)現(xiàn)了在保持性能的同時(shí)大幅降低計(jì)算成本的目標(biāo)。在某些情況下,成本降幅高達(dá)70%,這對(duì)于大規(guī)模AI服務(wù)部署具有重要的實(shí)用價(jià)值。隨著AI技術(shù)的普及和計(jì)算資源的日益緊張,這種高效的資源利用方式將變得越來越重要。
當(dāng)然,研究也指出了一些挑戰(zhàn)和限制。深度推理雖然能提升AI的問題解決能力,但會(huì)降低早期預(yù)測的準(zhǔn)確性,這要求我們?cè)谛阅芎托手g尋找更好的平衡點(diǎn)。此外,探針的可靠性直接影響路由系統(tǒng)的效果,這意味著我們還需要繼續(xù)改進(jìn)難度預(yù)測算法。
展望未來,這項(xiàng)研究為AI系統(tǒng)的智能化管理開辟了新的可能性。或許不久的將來,我們的AI助手不僅能夠回答問題,還能智慧地評(píng)估自己的能力邊界,在合適的時(shí)候?qū)で蟾鼜?qiáng)大模型的幫助,或者將簡單任務(wù)交給更經(jīng)濟(jì)的處理方式。這樣的AI系統(tǒng)將更加實(shí)用、經(jīng)濟(jì),也更加可靠。
對(duì)于普通用戶而言,這意味著未來的AI服務(wù)可能會(huì)變得更快、更便宜,同時(shí)保持或提升質(zhì)量。對(duì)于AI開發(fā)者來說,這項(xiàng)研究提供了新的工具和思路,幫助他們構(gòu)建更高效的AI系統(tǒng)。而對(duì)于整個(gè)社會(huì)而言,更經(jīng)濟(jì)的AI技術(shù)將降低人工智能應(yīng)用的門檻,讓更多人能夠享受到AI帶來的便利。
有興趣深入了解這項(xiàng)研究細(xì)節(jié)的讀者,可以通過論文編號(hào)arXiv:2602.09924v1在arXiv平臺(tái)查找完整的研究報(bào)告,其中包含了更詳細(xì)的技術(shù)細(xì)節(jié)和實(shí)驗(yàn)數(shù)據(jù)。
Q&A
Q1:AI是如何預(yù)知自己會(huì)失敗的?
A:AI通過內(nèi)部神經(jīng)網(wǎng)絡(luò)的激活模式來"預(yù)感"成敗。研究人員發(fā)現(xiàn),在AI開始生成答案之前,它的神經(jīng)網(wǎng)絡(luò)中就已經(jīng)編碼了對(duì)問題難度的判斷。就像人類看到數(shù)學(xué)題時(shí)會(huì)有直覺感受一樣,AI的"大腦"在處理問題的最初階段就已經(jīng)評(píng)估了成功的可能性,這種評(píng)估信息可以通過特殊技術(shù)提取出來。
Q2:為什么AI對(duì)困難的理解和人類不同?
A:AI的難度判斷主要基于其訓(xùn)練數(shù)據(jù)和內(nèi)部算法邏輯,而人類的難度感知更多來自認(rèn)知心理和學(xué)習(xí)經(jīng)驗(yàn)。研究發(fā)現(xiàn),AI會(huì)在人類認(rèn)為困難的問題上投入更多推理資源,即使這些問題對(duì)AI來說并不難解決。這是因?yàn)锳I從訓(xùn)練數(shù)據(jù)中學(xué)會(huì)了人類的思維模式,在遇到傳統(tǒng)上被認(rèn)為困難的問題時(shí)會(huì)自動(dòng)激活更謹(jǐn)慎的處理模式。
Q3:智能路由系統(tǒng)如何幫我們省錢?
A:智能路由系統(tǒng)就像一個(gè)聰明的任務(wù)分配員,根據(jù)問題難度自動(dòng)選擇最合適的AI模型來處理。簡單問題交給便宜的小模型,復(fù)雜問題才用昂貴的大模型。研究顯示這種方法可以在保持相同準(zhǔn)確率的情況下將計(jì)算成本降低17%到70%,這意味著AI服務(wù)提供商可以用更少的電力和計(jì)算資源提供同樣質(zhì)量的服務(wù)。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.