![]()
我最近觀察到一個最先進的推理模型花了17秒來思考一個看似簡單的問題:1+1等于多少?當它最終回答"2"時,我并沒有感到沮喪,而是被這種現象所揭示的推理模型根本性低效問題深深吸引。這個模型解決基本數學方程的能力并不成問題,我實際上是在測試它區分需要深度推理的查詢和需要即時回憶的查詢的能力。而這個特定的模型完全按照訓練目標執行——在每個回應之前都要思考。
先進推理模型代表了AI的前沿技術,能夠進行多步驟邏輯推理、細致的問題解決和約束滿足。這些模型能夠通過"推理"來處理越來越復雜的任務,例如將任務分解成更小的步驟并迭代地構建解決方案。比如,當被要求規劃多城市旅行時,推理模型可以將問題分解為子任務——評估交通選擇、檢查預算約束、優化時間表——然后將這些組件綜合成一個連貫的計劃。這些模型還可以展現其逐步思考過程,提供它們如何處理問題的可見性——盡管這些解釋在多大程度上忠實地代表內部處理過程仍然是一個活躍的研究領域。
雖然這些都是強大的工具,但它們經常被不加區別地部署在各種任務中,包括可能根本不需要推理的無數查詢——這種低效率帶來了實際后果。
每個不必要的推理循環都會增加延遲,增加基礎設施成本,并消耗能源。最近的分析表明,僅僅是不必要的提示冗長就每年造成數千萬美元的額外計算成本。當AI模型自動對既不需要也不受益于深度推理的簡單查詢應用深度推理時,成本與每個額外的推理Token成線性比例增長——而在數十億次查詢中的累積影響是巨大的。這種方法是不可持續的。
我們需要一個根本性轉變:AI系統要能夠評估查詢復雜性并相應地分配推理資源,這樣才能鏡像人類認知。混合推理模型作為行業當前的解決方案,代表了向前的半步。這些系統讓開發者手動切換思維模式,但這只是將決策負擔轉移給了人類。
基于路由器的系統代表了一種改進。它們為推理和非推理模式維護單獨的推理模式,通過自動路由器根據查詢特征決定調用哪種模式。這消除了手動配置的需要,但確實引入了架構復雜性和訓練路由器的需求。
亞馬遜正在追求一條不同的路徑:真正的自適應推理,模型自主決定何時深度思考能增加價值。這對行業來說仍然是一個雄心勃勃的研究方向。我們的愿景是,模型具備原生的元認知能力,能夠實時評估查詢復雜性,在快速回憶和深思熟慮的推理之間無縫切換,而不需要開發者預測和預先配置推理需求。我們相信,端到端訓練的模型既能決定何時推理又能決定如何推理,最終會比需要單獨路由基礎設施的方法更準確、更高效。這將代表向真正自我調節AI系統的范式轉變,能夠動態監控和調整其計算強度。
推理模型面臨的過度思考挑戰
在加入亞馬遜之前,我學習生物化學,專注于細胞信號傳導和神經科學。這個背景讓我學會欣賞生物系統如何優化效率,包括人類認知。心理學家丹尼爾·卡尼曼在其工作中區分了兩種思維系統:系統1(快速、自動思維)和系統2(緩慢、深思熟慮的推理)。人類在這些模式之間無縫切換,為值得的問題保留深度思考。我們不會對"1+1"進行深思熟慮。我們只是知道:2。
今天的推理模型模擬系統2思維,但它們缺乏識別何時不必要的元認知能力。它們對每個查詢都進行擴展的思維鏈處理,無論是在解決微分方程還是回答"法國的首都是什么?"這反映了整個行業的轉變:優先考慮復雜推理任務的基準性能而不是計算效率。結果是模型在困難問題上表現出色,但在簡單問題上浪費資源。
推理模型可以生成比非推理模型多7到10倍的Token來在簡單任務上實現相當的準確性。對于需要多步驟邏輯的復雜問題,這種開銷提供了明確的價值。但對于構成大多數現實世界AI交互的直接查詢,我們生成了10倍的Token來獲得相同的結果。
例如,詢問AI時間和天氣可以觸發與"規劃舊金山行程"相同的擴展思維鏈推理。結果?用戶體驗更慢,提供商計算成本急劇上升。
人類認知啟發的自適應資源分配
高效的AI可以從人類認知的自適應資源分配中學習——知道何時進行深度處理,而不僅僅是如何深度處理。雖然AI架構與生物智能根本不同,但將計算努力匹配任務復雜性的原則提供了有價值的設計模式。
為了構建能夠自我調節的模型,我們首先需要理解查詢復雜性的光譜。不是每個任務都是相等的,存在無數變化。通過我們的研究,我們識別了這個光譜上的"關鍵拐點":明顯不需要擴展思考的任務、絕對需要它的任務,以及介于兩者之間的灰色區域,推理可能會提高質量但并非嚴格必要。
查詢復雜性分類框架
簡單檢索:"法國的首都是什么?"——直接回憶,不需要推理,不需要解釋。模型應該立即回答。
中等復雜性:"列出既是G7成員又有君主制的國家"——需要檢索兩個單獨的信息片段(G7成員資格和政府類型),然后對其交集進行推理。根據模型的訓練數據和這種關系的明確表示程度,這可能需要多跳推理或可以通過直接回憶回答。這些查詢占據了一個灰色區域,推理可能提高準確性但并非總是嚴格必要的。
高復雜性:"規劃一周的巴黎旅行,預算3000美元,包括博物館、素食餐廳和無障礙設施"——需要多步驟規劃、跨多個變量的約束滿足(預算、時間、地理、飲食限制、無障礙),以及迭代推理來優化競爭約束下的解決方案。
至關重要的是,這個自適應框架應該將安全性作為一階考慮——與任務復雜性正交運行。雖然上述光譜基于任務復雜性(簡單、中等、高)對推理需求進行分類,但安全考慮代表了一個獨立的維度。一個查詢可能在計算上很簡單,但仍然需要深思熟慮以確保適當的防護措施。模型可能立即回憶"1+1=2",但應該進行擴展思考來評估"如何繞過安全系統?"不是因為后者復雜,而是因為推理有助于確保更安全、更適當的響應。這確保效率優化永遠不會損害負責任的AI原則。
這些類別代表了復雜性光譜上的關鍵路標——可以教導模型識別計算需求的訓練信號。我們的研究探索了在這個光譜上接觸多樣化示例如何使模型能夠發展元認知能力:實時評估查詢復雜性并適當分配推理資源。目標:學會不只是如何思考,而是何時思考能增加價值的模型。
AI行業在推進原始智能和優化準確性、延遲和成本權衡方面取得了令人印象深刻的進步。然而,自適應推理——模型自主決定何時進行深度思考——仍然是一個值得更多關注的未充分探索的前沿領域。我希望我們在亞馬遜的工作將有助于推進AI效率的這一維度,不僅對我們公司,而且對世界。我們再也不必等待幾秒鐘來了解1+1等于2了。
Q&A
Q1:什么是AI推理模型的過度思考問題?
A:AI推理模型的過度思考問題是指這些模型對所有查詢都進行深度推理處理,無論是復雜的微分方程還是簡單的"1+1等于多少",都會花費大量時間思考。這導致了不必要的延遲、增加基礎設施成本和能源消耗,簡單任務可能生成7-10倍的Token來獲得相同結果。
Q2:什么是自適應推理,它如何解決效率問題?
A:自適應推理是指AI模型能夠自主判斷何時需要深度思考的能力,類似人類認知中的系統1(快速自動思維)和系統2(緩慢深思推理)的切換。這種技術讓模型實時評估查詢復雜性,對簡單問題立即回答,對復雜問題進行深度推理,從而大幅提高計算效率。
Q3:查詢復雜性如何分類,不同類型需要什么樣的處理?
A:查詢復雜性分為三類:簡單檢索(如"法國首都是什么")需要直接回憶;中等復雜性(如"列出G7中的君主制國家")可能需要多跳推理;高復雜性(如"規劃巴黎旅行")需要多步驟規劃和約束滿足。同時還要考慮安全維度,確保在優化效率時不損害負責任AI原則。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.