<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      從OpenClaw說起:Agentic AI時代CPU價值的回歸

      0
      分享至

      公眾號記得加星標??,第一時間看推送不會錯過。

      作者簡介

      CXL和UCIe董事會成員、阿里云智能集團首席云服務器架構師

      引言

      Molt: To shed old shell/feather/hair for new growth.

      --- Oxford Dictionary

      2025年,是一個曾被寄予厚望的“Agentic AI元年”,它確實也沒讓人失望,但也沒有想象中的激蕩:


      • 年初,Manus橫空出世,展示了Agent無縫協作的驚艷效果,但隨后并未在大眾市場上掀起多大的波瀾,直到年末,團隊被Meta收購。

      • 年中,豆包手機將個人Agent深度嵌入操作系統,功能強大,但隨之帶來的權限和安全問題,讓它胎死腹中。

      • 年末,千問Agent讓你用一句話便絲滑到手一杯奶茶;但奶茶雖好,能幫我再解決些其他硬核的痛點不?


      而當我們推開2026年的窗口,最先看到的是一只龍蝦與Mac Mini的“破圈組合"引爆了AI圈:開發者將輕量級Agent部署于售價不足萬元的Mac Mini,作為其24小時私人助理,通過短消息交互(e.g.,WhatsApp),讓它寫Bash腳本整理照片,調用本地知識庫解答問題,甚至控制智能家居。這個Agent的名字由最初的ClawdBot(蹭Claude Bot諧音)改為MoltBot(有點饒舌),最后又從“MoltBot”成OpenClaw。開源,部署方便,再加上短消息交互的特性,使得這只龍蝦與之前的Agent如此不同,但又如此的貼近用戶。包括AWS,阿里云,火山引擎在內的各大CSP紛紛下場,支持OpenClaw的部署。 或許,Agentic AI時代的大門就這樣被龍蝦 "Claw Open"。

      那么,為什么是現在? 為什么是OpenClaw?它能在Mac Mini上部署意味著什么? Agentic AI時代真的開啟了嗎?CPU的春天來了么?Hold on,我們從源頭開始捋一捋。

      何為AI Agent?

      Agent的牛津詞典定義有兩個意涵:


      1. A person who acts on behalf of another person or group.

      2. A person or thing that takes an active role or produces a specified effect.


      前者譯為代理,強調的是動作的自主性;后者有推動者之意,強調的是目標導向。 而在AI 語境下Agent(中文稱為智能體)是兩種意思兼而有之,它是能夠自主感知環境、進行決策并采取行動以實現特定目標的智能系統。它與AI助理和ChatBot之間的區別如下表所示:


      Source:https://cloud.google.com/discover/what-are-ai-agents?hl=zh-CN

      可以看到與AI助理和ChatBot相比, AI智能體的最大特點在其自主性,以及為實現給定目標的獨立決策和多步復雜性操作。而要實現這些,就要求AI智能體具有如下細分能力:


      • 感知(Perception):接收文本、語音、圖像或來自外部 API 的數據的能力。當前的多模態大模型基本都具備這方面的能力。

      • 規劃(Planning):將復雜目標拆解為具體的執行步驟,并根據環境變化調整計劃的能力。這要求大模型具備Chain-of-Thought(CoT)[4] 分步reasoning的功能, 實現對特定目標的分步拆解; 同時還需具備ReAct [1]模式, 減少Reasoning過程中出現的幻覺,并能夠根據環境反饋進行調整。

      • 記憶(Memory):保存短期對話和長期經驗,以便在后續任務中利用歷史信息。這不一定要通過大模型本身來實現,但需要它支持長上下文。

      • 行動(Action):通過調用外部工具(如搜索、計算器、代碼解釋器)來執行具體的物理或數字任務。



      圖1. Agentic AI的實現模式。圖片來源于 [3],并在其基礎上做了改動。

      基于上述定義,我們認為AI智能體的實現方式上,需要具備三方面特征:LLM Orchestrated(工具調用由模型發起,而非其他工具);動態路徑(每次工具調用,工具選擇不唯一),多步驟(支持工作鏈路上,LLM多次調用工具),如上圖右側虛線框所示。 舉個例子: LLM-orchestrated (由模型調度) vs Host-orchestrated (由 Python 代碼調度)。前者高度依賴 CoT,模型自己思考該干什么;而后者,若基礎模型沒有 CoT,開發者必須在外部編寫極其復雜的 Python 邏輯(比如,if-else分支)來告訴模型:第一步干什么,第二步干什么。因此,在這種情況下,AI 不再是個“智能體”,而僅僅是一個被程序反復調用的“文本補全工具”,它失去了 Agent 應有的自主性和靈活性。所以,CoT是AI智能體的基礎。

      CoT:Agentic AI的基石

      Chain-Of-Thought (CoT) 思維鏈引導大模型將復雜的任務分解為一系列邏輯步驟,最終得出解決方案而非一步給出答案。 它最初的目的是通過邏輯推理,提升回答的準確性,減少幻覺。而在智能體中,CoT的具體作用體現在以下四個方面:

      任務規劃與拆解

      (Planning & Decomposition)

      智能體面臨的目標通常是寬泛的(例如:“幫我買一個500元左右的床頭柜”)。CoT 允許智能體將長期目標拆解為可執行的子目標。思維鏈能幫助智能體誘導(Induce)、跟蹤(Track)和更新動作計劃。它通過“內心獨白”決定下一步該去搜尋信息還是該執行購買動作。

      動態環境中的異常處理

      (Exception Handling)

      智能體在與外部環境(網頁、數據庫、API)交互時會遇到不可預見的情況。當行動失敗或觀察到非預期結果時,CoT 提供了一個邏輯緩沖區。Reasoning traces 能幫助智能體處理異常,根據當前環境反饋調整計劃(例如:“既然抽屜里沒鑰匙,那我就該去桌子上看看”),而不是陷入死循環。

      可解釋性與可診斷性

      (Interpretability & Diagnosability)

      智能體的決策過程往往很復雜,用戶需要知道它為什么這么做。CoT 為人類提供了一個“觀察窗口”:如果智能體出錯了,我們可以查看它是哪一步推理錯了(例如:是算錯了錢,還是誤解了用戶的顏色要求),甚至可以通過“編輯思維鏈(Thought Editing)”來糾正智能體的行為,實現人機協作。

      “推理”與“行動”的協同

      (Synergy of Reason & Act)

      這是智能體CoT高階框架ReAct的核心 [1],即:


      • Reason to Act (推理指導行動):通過CoT決定調用哪個工具(如搜索、計算器、Python解釋器)。

      • Act to Reason (行動補充推理):通過行動獲取外部事實,再將事實帶回思維鏈中進一步推理。這種閉環使智能體更可靠。


      那么CoT如何實現的呢?CoT 并不是某種特定的算法代碼,它在模型中的實現通常有三種實現方式:

      a. 提示詞工程:利用“自注意力機制”的補全

      這是最普遍,成本最低,也是較淺層的實現,通常有兩種實現模式:


      • Few-shot CoT:在提示詞中,給模型看幾個“問題 -> 理由 -> 答案”的例子,然后,讓模型有樣學樣。

      • Zero-shot CoT:只要在問題后面加一句“讓我們一步步推理”。


      之所以這種提示詞工程可以形成CoT,原因如下: 大模型本質是“下一個 Token 預測器”,當提示詞中出現了邏輯推導的格式時,模型的自注意力(Self-Attention)機制會被引導到(如“因為”、“所以”、“首先”)邏輯詞上。推理步驟產生的 Token 會進入模型的上下文,作為后續預測的條件。這實際上是讓模型在給出最終答案前,先為自己生成更多的“有效背景信息”。這一方面實現了復雜問題的分步解答,另一方面,更多的背景信息也減少了模型幻覺發生的概率。 但是,需要指出的是,提示詞工程實現的CoT 是大模型的一種涌現能力(Emergent Ability),在模型參數達到一定量級之前,若用同樣的 Prompt,模型也只會生成“流暢但無邏輯”的廢話。

      b. Supervised Fine Tuning (SFT) :邏輯模式的內化

      如上所述,僅靠 Prompt 并不總是有效的,這對于中小規模的模型來說尤為突出。這就需要后訓練微調的方式讓邏輯推理顯示的內化成為模型固有的能力。 通常通過如下兩種方法實現:


      • Rationale Augmentation: 通過在后訓練數據中加入帶有推理過程(Rationale)的文本進行監督微調(SFT)。

      • STaR(Self-Taught Reasoner)[6]: 這是一種迭代式有監督微調。模型生成多個理由,并以最終答案為判據,若正確,則將相對應的理由作為微調數據喂回給模型。模型在學會了這些邏輯后, 能解開更難的題,從而產生更多高質量的 CoT 數據,模型就在“自我產生數據 -> 結果驗證 -> 自我學習”中不斷進化。通過這種方式,模型“學會”了如何推理,而不僅僅是“模仿”Prompt 的格式。


      c. Reinforcement Learning (RL): SFT之上

      SFT的一個問題是需要有大量的標注過的文本樣本。盡管通過STaR緩解了對標注樣本的需求,但是,它的迭代周期長,計算需求高,微調效率低下,因此難以勝任大規模參數模型的CoT微調。所幸的是,以DeepSeek-R1-Zero/DeepSeek-R1為代表的RL技術路徑證明了CoT可以在純強化學習的不斷試錯中產生。具體來說,它通過Group Relative Policy Optimization (GRPO),使用獎勵函數對每個推理路徑進行打分,計算推理回答的相對優勢,并根據這個相對優勢來更新模型參數。這避免了傳統RL中使用的Critic 模型所帶來的額外顯存開銷和評分不穩定問題。 這里訓練的是CoT的“神”,但要使CoT能夠以一定的格式和一致的語感呈現出來(即CoT的“形”),還需要用 RL 訓練好的模型生成大量數據,篩選出其中邏輯最完美、答案最正確的數據(幾十萬條),對模型進行一次大規模 SFT。

      需要指出的是,即便在實現了CoT邏輯內化后,模型還是需要有提示詞來激活這部分能力。因此,在CoT模式下,大模型推理CPU和GPU上的工作分工如下圖所示。CPU主要負責預處理和后處理,其中前者包含了Prompt Templating, Tokenization 和相關KV Cache的查找等主要步驟,而后者包含了Detokenization 和格式化。這里Tokenization負責將包括Prompt Template和實際Query在內的整個文字序列轉換成Token ID序列;而接下去的KV Cache 查找則是將Token 序列分塊(比如16個詞分塊)進行哈希,并據此在Radix Tree查找匹配的哈希值,若找到了就繼續在樹的下一層看是否能匹配接下去一個分塊的哈希, 否則查找結束。此時,CPU 獲取了從開頭到第 N 個Token塊對應的KV Cache所在的地址,可讓GPU直接讀取,而剩下的部分,則需要現場計算(Prefill)。


      圖 2. CoT 模式下的CPU-GPU交互模式

      雖然 CoT 開啟了推理的大門,但離構建真正的 AI智能體,它還存在幾個關鍵缺陷,需要其他技術來補齊:


      • 錯誤傳播與幻覺(Error Propagation):如果思維鏈的第一步算錯了(例如 1+1=3),模型會基于這個錯誤的中間結果極其自信地推導出后面的荒謬結論,即CoT 內部沒有“事實核查”機制。大模型雖然有強大的推理邏輯,但其內部記憶是“凍結”的,且依然會產生幻覺。

      • 缺乏外部反饋(Closed-loop Gap):CoT 是“閉門造車”,而在智能體場景下,環境是動態的。例子: 一個修代碼的智能體(SWE-Agent)光靠自言自語形成的CoT并無很大用處,它必須嘗試運行代碼,看到報錯信息,再根據報錯修正思維鏈;光有 CoT 無法實現這種“思考-行動-感知”的閉環。


      RAG:邁向 ReAct模式

      如果說 CoT 是智能體的“推理引擎”,那么 RAG(Retrieval Augmented Generation)就是它獲取“外部知識庫”的途徑。兩者結合解決了 CoT 無法獨自解決的三個問題:


      • 邏輯與事實的解耦(Logic vs. Fact):RAG 負責提供實際證據。它讓模型從“憑空腦補”轉向“根據材料作答”,解決了知識過時和不可靠推理的問題。

      • 克服“思維孤島” (Self-Correction via Feedback) :模型先思考,發現缺信息,立刻去RAG檢索,拿到結果后再修正思維。這種“思考 -> 觀察反饋 -> 調整思考”的閉環,是單純靠增加 Prompt 步數實現不了的,它也是 ReAct 框架的核心。

      • 性能與成本的權衡:CoT 屬于Test Time Scaling,會消耗大量的推理 Token,增加延遲。如果某些知識可以通過 RAG 直接精準命中,就不需要模型進行復雜的長鏈條推理。RAG 可以通過低成本的傳統檢索減輕大模型昂貴的邏輯負擔。



      圖3. RAG工作流程

      RAG 工作流程如上圖所示,其核心流程是依據Query,從數據庫查詢和獲取與該Query相關的信息,并將這部分信息作為上下文和Prompt和Query一起輸入給大模型。 由于數據庫中的相關信息更為及時準確,大模型給出的回答也就避免了知識過時的問題變得更加準確可靠。 這里,最關鍵的就是如何獲取與Query相關的信息,而RAG通過以下三個步驟來實現:

      1. 文本向量化(Embedding):模型使用一個特定的神經網絡(Encoder)將一段文本 T 映射為一個高維實數向量(比如,768 或1536維)。在這個高維空間,語義相似的文本在幾何距離上也更接近。

      2. 相似度度量(Similarity Metrics):RAG對應的數據庫為向量數據庫,它通過計算查詢向量 Q(Query)與庫中向量 D(Document)之間的幾何關系來判定相關性。最常用的兩種數學度量是:


      • 余弦相似度(Cosine Similarity):它衡量的是兩個向量在方向上的夾角。在語義搜索中,向量的方向比長度(文本長短)更能代表含義。

      • 歐幾里得距離(L2 Distance):, 衡量兩點之間的絕對空間距離。


      3. 最近鄰搜索:在 RAG 系統中,我們需要從數百萬個向量中找出與Query向量最接近的T個。如何找到這些向量呢?最簡單的就是采用精確最近鄰搜索算法,暴力計算Query向量與每個向量的距離,但顯然會帶來嚴重的 CPU 瓶頸。 為了提升搜索效率,通常采用ANN (Approximate Nearest Neighbor) 算法,比如,使用 K-means 聚類將空間劃分為不同的區域,查詢時計算Query向量與K個中心點之間的距離,選取離得最近的若干個簇,然后再精細化計算Query向量與這些簇內每個向量的距離,選取距離最小的T個返回。

      在傳統RAG模式下,大模型推理CPU和GPU上的工作分工如下圖所示,即在CPU的預處理中,還加入了RAG部分。該部分還包含了Query的Embedding計算,向量數據庫查詢,信息讀取和格式化等操作。 傳統RAG模式遵循的是 “檢索 -> 閱讀” 的線性流程,在這個過程中,模型本身并沒有通過推理來決策是否進行檢索的這個動作;它是系統預設好的,模型只是一個被動的“資料總結者”,沒有“決定去檢索”的過程。


      圖4. 在傳統RAG模式下的 CPU-GPU交互模式

      與傳統RAG相對應的是智能體RAG。在這里,檢索動作是由模型的CoT驅動的,模型自主決定何時檢索、檢索什么、以及如何根據檢索結果修正自己的思維。它所遵循的是一個典型的ReAct 流程,比如:


      1. Thought (CoT): “我知道 A,但我不知道 B 是誰,我需要去搜一下。”

      2. Action: 調用RAG搜索B。

      3. Observation: 看到檢索回來的 RAG 片段。

      4. Thought (CoT): “根據剛才搜到的資料,B 原來是 C 的學生,現在我可以回答了。”


      在這樣一套“思考-行動-感知”流程中,CPU與GPU的交互如下圖所示。CPU更加積極的參與到模型的決策鏈條中,承擔起不適合GPU操作的向量數據庫查詢操作。智能體RAG只是智能體應用的一個例子;可以想象,在一個更為通用的智能體應用設定中,RAG可能被替代為代碼編譯,Web搜索,Python解析和執行等等。CPU成了智能體與環境交互的一個關鍵渠道。


      圖5. 在智能體RAG模式下的 CPU-GPU交互模式

      Engram:推理的內置增強器

      26年年初,DeepSeek 提出了一種條件記憶模塊 Engram[2],它通過現代化經典 N-gram 嵌入,利用確定性哈希實現靜態模式的 O(1) 常數時間查找,并結合上下文感知門控將檢索到的靜態記憶與動態隱藏狀態融合,解決了傳統 Transformer中 缺乏原生知識查找,被迫通過昂貴計算低效模擬知識檢索的問題。

      那么,它與Agentic AI有關系嗎? 有!通過將靜態知識存儲與動態推理計算分離,Engram有效減輕了大模型早期層的重建負擔。也就是說,本來用來從FFN中提煉/重構靜態知識的推理步驟直接被哈希表查詢替代,減少“知識重構”帶來的幻覺。


      這樣大模型的“有效推理深度”增加了,可以更加高效的進行邏輯推理,這也意味著 Agent 可以把有限的計算層數全部用在復雜的邏輯規劃上,而不是浪費在回憶基礎事實上。另一方面,在引入 Engram 后,模型在“大海撈針(NIAH)”測試中的得分從 84.2 提升到了 97.0 [2]。這讓 Agent 在處理復雜任務流時,不容易“忘記”之前的關鍵細節。這種長上下文處理能力對于那些需要處理超長對話歷史或龐大代碼庫的Agent來說至關重要。

      某種程度上來說,Engram有點像RAG,它一定程度上是RAG的內化,但它們也有顯著的不同,如下表所列。 兩者相輔相成,不能取代彼此。

      除了對模型本身推理能力的提升以外,Engram對推理硬件的架構也帶來了深遠的影響。Engram 的特性允許它將龐大的靜態知識表存放在主機內存中,而在 GPU 執行推理時異步預取(比如,GPU推理第5層時,CPU開始查找第12層所需的信息,CPU查找延時幾乎被GPU 5-12層推理延時完全隱藏)。這意味著我們可以給 Agent 掛載一個上百GB 甚至更大 的知識庫,卻幾乎不占用昂貴的 GPU 顯存,也不顯著增加延遲。這為AI智能體的普及提供了一條極具成本效益的路徑。在有了Engram之后, CPU-GPU之間的交互模式如下圖所示。 和之前的交互模式的一個顯著區別是,CPU在GPU做推理的過程不再閑置而是參與其中:CPU不再局限于預處理和后處理, 其整體的利用率顯著提升。


      圖6. 在CoT+RAG+Engram 推理下的 CPU-GPU交互模式

      CPU價值的回歸

      綜上,我們可以看到Agentic AI的誕生不是一蹴而就的,而是隨著大模型分步邏輯推理能力的提升而逐步演進的(這也解釋了為什么Agentic AI在LLM爆發幾年后,才逐步進入人們的視野)。從CoT Prompting到基于ReAct的RAG再到Engram,其本質上在解決一個核心問題:如何降低大模型幻覺,進一步高效地提升大模型的邏輯推理能力。這里,獲取Ground-Truth的知識,及時的信息以及來自模型外部真實的反饋是解決該問題的關鍵。比如,CoT在HotpotQA中因內部知識錯誤導致56%幻覺率[1],而ReAct通過外部檢索將幻覺率壓至6%。而所有這些方案都有賴于CPU計算,并且CPU的參與程度在不斷提升。 這還只是模型演進層面, 如果我們把智能體的工具調用,代碼執行等任務執行時間也算上,CPU側的延時甚至會成為影響系統性能的關鍵,比如,在SWE-Agent中,CPU執行的Bash/Python調用占延遲可達 78.7%[3]。換句話說,智能體實質是一個對GPU和CPU同步施壓的混合型負載。過去我們對大模型的優化都聚焦在GPU上, 而在智能體時代,我們更需要關注CPU以及CPU-GPU協同優化上,具體來說大概有如下幾個方面:

      高并發需求

      當智能體RAG成為標配,LLM從文本生成向重型檢索與數據管理轉型,CPU 必須具備處理大規模的知識提取能力:一方面,為了降低單個 RAG任務的響應時間,CPU 需要在大量文檔中進行高速向量比對、排序(Reranking)和上下文壓縮(Context Compression);另一方面,對于智能體Serving的場景, 會存在多個RAG任務同時執行的情況。 這些都要求 CPU 不僅僅具有很高的單核性能,還需要具備極高的多線程并發能力。

      進程間上下文切換以及SLA

      Agentic AI 需要調用各類工具,比如,Python 解釋器、運行 Shell 腳本、執行 SQL 查詢或調用 Web API。這些工具所對應的進程一旦啟動,通常都需要保持一段時間,以避免每次工具調用所帶來的進程冷啟動開銷。這也意味著系統需要維護大量活躍的進程上下文。與此同時, 每個工具進程對CPU的資源需求是不同的。如何在眾多活躍進程間調配資源,尤其是在CPU還需要承擔RAG甚至Engram查詢的情況下,確保各自運行的SLA/Fairness亦或是整個系統的吞吐量最大化,是Host側所面臨的另一個迫切的問題。

      CXL互連和CPU價值回歸的共振

      Engram 架構徹底改變了模型參數的存放方式,它允許將龐大的靜態知識表存放在 Host DRAM(系統內存) 中。CPU 必須在 GPU 運算的同時,利用確定性的哈希算法進行預取。這就需要Host具有龐大的DDR內存容量和帶寬。同時,CPU還需要通過PCIe總線與GPU進行數據交換,確保在GPU執行相關邏輯層之前,所需的知識向量已經從內存搬運到了顯存。這些并不是新問題,但卻盤活了一些一度被認為與LLM不怎么相關的CPU側互連技術,比如CXL。

      因此,CPU價值的回歸并非孤立存在,它重度依賴于以CXL為核心的通用互連技術,因為 Agentic AI 對存儲和內存的要求已經跨越了單機界限。沒有CXL帶來的內存池化與一致性互連,CPU將空有大腦而無血脈,無法支撐起 Agentic AI 所需的“通算超節點”架構。

      首先,利用CXL Memory Expansion來擴展數百GB的內存可以在不增加DDR通道(進而減少CPU Pin腳數壓力)的前提下提升系統內存帶寬和內存容量,其次,CXL還可以連接SCM/HBF/SSD等Persistent存儲介質,與CXL Memory一起為Engram打造一個分層的高效的存儲空間。同時,我們還可以探索將CPU與GPU之間的PCIe互連替換成CXL(或者輕量化的CXL),實現CPU與GPU內存間的Unified Memory,就像采用NVLink-C2C那樣,從而提升CPU-GPU間數據搬移的效率。總之,這些技術在傳統的大模型應用場景下可能顯得雞肋,但在Agentic時代卻是競爭力的來源。

      上述是從數據中心提供集中式推理服務的視角來看的。未來AI智能體很可能是云端協同的:端側部署一個中小規模的模型,負責理解用戶需求,并對日常任務進行本地化處理, 而對于那些復雜任務,則由本地模型通過調用數據中心大模型,來指導任務拆解。那么,從端側視角來看,CPU已經事實上回歸到了中心位置,就像OpenClaw運行在Mac Mini上那樣。

      總結

      從OpenClaw的火爆出圈到千問訂單流量擠爆線下奶茶店,一個遲來的Agentic AI時代正在迎面撲來。表面上看,這是商業模式的探索,或是流量入口的爭奪,但這背后是大模型分步邏輯推演的成熟以及計算范式的再次遷移:從絕對的GPU主導,回歸到CPU-GPU協同。在此進程中,CPU不再是只負責預處理和后處理的沉默的搬運工,而是決策環路中的重要節點。這需要我們重新審視在新場景下的CPU在涵蓋算法-系統-硬件多個層次上的優化:


      • 算法層:比如,優化RAG及Engram查詢、靜態知識處理、工具調用,提升其在CPU上的運行效率;

      • 系統層:比如,優化CPU-GPU交互,盡可能實現計算-通信-檢索的Overlapping;

      • 硬件層:比如,利用CPU大內存帶寬優勢,設計分層存儲策略(DRAM→SCM→HBF/SSD);利用硬件加速單元卸載部分CPU負荷。


      這里可能有部分是新瓶裝舊酒,但反映的卻是在Agentic AI這類應用特性引導下的CPU算力價值的回歸,以及CPU與GPU協同并進的系統思維。這何嘗不是一種Molt呢?

      參考文獻

      [1] Yao et al. ReAct: Synergizing Reasoning and Acting in Language Models. ICLR 2023.

      [2] Cheng, Xin, et al. "Conditional memory via scalable lookup: A new axis of sparsity for large language models." arXiv preprint arXiv:2601.07372 (2026).

      [3] Raj et al. A CPU-Centric Perspective on Agentic AI. arXiv 2025.

      [4] Wei et al. Chain-of-Thought Prompting Elicits Reasoning in LLMs. NeurIPS 2022.

      [5] Gao et al. Retrieval-Augmented Generation for LLMs: A Survey. arXiv 2024.

      [6] Zelikman E, Wu Y, Mu J, Goodman N. Star: Bootstrapping reasoning with reasoning. NeurIPS. 2022.

      *免責聲明:本文由作者原創。文章內容系作者個人觀點,半導體行業觀察轉載僅為了傳達一種不同的觀點,不代表半導體行業觀察對該觀點贊同或支持,如果有任何異議,歡迎聯系半導體行業觀察。

      今天是《半導體行業觀察》為您分享的第4342內容,歡迎關注。

      加星標??第一時間看推送



      求推薦


      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      俄羅斯讓中國心涼?真正可怕的不是西方圍堵,而是我們低估了自己

      俄羅斯讓中國心涼?真正可怕的不是西方圍堵,而是我們低估了自己

      愛史紀
      2026-03-23 02:56:48
      加滿多花86.5元!部分加油站排長龍

      加滿多花86.5元!部分加油站排長龍

      中國能源網
      2026-03-23 10:47:10
      你在無意中發現別人什么秘密?網友爆料,電視劇都不敢這樣演

      你在無意中發現別人什么秘密?網友爆料,電視劇都不敢這樣演

      夜深愛雜談
      2026-03-16 22:21:03
      今晚油價大漲!92號汽油進"9元時代"

      今晚油價大漲!92號汽油進"9元時代"

      新浪財經
      2026-03-23 11:17:23
      杭州糧油發展有限公司原黨委書記、董事長陳國強接受紀律審查和監察調查

      杭州糧油發展有限公司原黨委書記、董事長陳國強接受紀律審查和監察調查

      界面新聞
      2026-03-22 22:26:02
      1991年蘇聯解體,叛逃少將馬爾果夫申請回國,我國做出了什么決定

      1991年蘇聯解體,叛逃少將馬爾果夫申請回國,我國做出了什么決定

      嘮叨說歷史
      2026-03-18 15:22:11
      1年內換了3隊,被嘲諷為軟蛋,如今拿著1100萬,卻成聯盟第一射手

      1年內換了3隊,被嘲諷為軟蛋,如今拿著1100萬,卻成聯盟第一射手

      大衛的籃球故事
      2026-03-23 18:34:56
      西部最新排名:太陽創NBA奇跡,快船收大禮,4-6名差距縮小

      西部最新排名:太陽創NBA奇跡,快船收大禮,4-6名差距縮小

      籃球大視野
      2026-03-23 12:41:27
      別再傻等了!繼承父母房產拖著不過戶,3年和20年結局天差地別

      別再傻等了!繼承父母房產拖著不過戶,3年和20年結局天差地別

      復轉這些年
      2026-03-22 17:27:58
      養肥了再宰?蒙古對西方巨頭下手了,這一刀也給中國提了個醒

      養肥了再宰?蒙古對西方巨頭下手了,這一刀也給中國提了個醒

      財經保探長
      2026-03-19 19:39:45
      關乎股市、債市、人民幣 央行行長最新發聲

      關乎股市、債市、人民幣 央行行長最新發聲

      新京報
      2026-03-22 19:53:42
      牛市結束了,中信暴跌3%,27個證券龍頭暴跌,沒有人護盤了

      牛市結束了,中信暴跌3%,27個證券龍頭暴跌,沒有人護盤了

      風風順
      2026-03-23 15:12:14
      伊朗伊斯蘭革命衛隊、伊朗武裝部隊同時發聲!

      伊朗伊斯蘭革命衛隊、伊朗武裝部隊同時發聲!

      看看新聞Knews
      2026-03-23 17:17:11
      森林狼6換2太賺!本賽季最超值的交易,近4戰場均19+8鐵衛換8號秀

      森林狼6換2太賺!本賽季最超值的交易,近4戰場均19+8鐵衛換8號秀

      你的籃球頻道
      2026-03-23 11:17:24
      小區樓上天天晚上都有女的大聲叫。。。

      小區樓上天天晚上都有女的大聲叫。。。

      微微熱評
      2025-12-24 00:26:04
      國家發改委約見馬士基集團首席執行官柯文勝

      國家發改委約見馬士基集團首席執行官柯文勝

      新浪財經
      2026-03-23 07:39:36
      三峽大壩蓄水近22年,成了魚類的天堂,如今里面最大的魚有多大?

      三峽大壩蓄水近22年,成了魚類的天堂,如今里面最大的魚有多大?

      冰語歷史
      2026-03-23 09:10:45
      A股:不用等待周二開盤,行情已經有變化,明天很可能將這樣走

      A股:不用等待周二開盤,行情已經有變化,明天很可能將這樣走

      財經大拿
      2026-03-23 14:51:55
      劉少奇在長征中經歷什么?看懂這件事,才明白他為何能成二號人物

      劉少奇在長征中經歷什么?看懂這件事,才明白他為何能成二號人物

      鶴羽說個事
      2026-03-21 21:21:46
      中國不記隔夜仇!才23天巴拿馬港口就癱了,總統直呼請中方放過

      中國不記隔夜仇!才23天巴拿馬港口就癱了,總統直呼請中方放過

      樂天閑聊
      2026-03-22 17:10:46
      2026-03-23 18:51:00
      半導體行業觀察 incentive-icons
      半導體行業觀察
      專注觀察全球半導體行業資訊
      13216文章數 34854關注度
      往期回顧 全部

      科技要聞

      裁掉2萬多名員工后,扎克伯格對自己下手了

      頭條要聞

      伊朗豁出去了:若美以敢炸發電廠 整個中東就同歸于盡

      頭條要聞

      伊朗豁出去了:若美以敢炸發電廠 整個中東就同歸于盡

      體育要聞

      不敢放手一搏,你拿什么去爭冠?

      娛樂要聞

      劉燁47歲生日,安娜曬全家福為其慶生

      財經要聞

      滬指險守3800點!真正的恐慌盤出現了?

      汽車要聞

      "拒絕"豪車稅 新款Panamera盡享版99.8萬元起精準入局

      態度原創

      房產
      藝術
      游戲
      家居
      教育

      房產要聞

      440億!海南又一城城更計劃曝光!TOP10房企巨頭突然殺入!

      藝術要聞

      如此美妙的光影,安靜而溫暖,真令人折服!

      《超英派遣中心》Steam售價新史低!八折熱賣中!

      家居要聞

      智慧生活 奢享家居

      教育要聞

      武漢學院:英語四級628、六級622,她是怎么做到的?

      無障礙瀏覽 進入關懷版