<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      超越上下文窗口:CodeAct與RLM,兩種代碼驅(qū)動的LLM擴(kuò)展方案

      0
      分享至

      用語言模型寫代碼、查數(shù)據(jù)庫、跑自動化流程這些事情大家早就習(xí)以為常了。Vibe Coding 到今年二月剛好滿一年,絕大多數(shù)人或多或少都在用它搞定代碼庫、寫文檔、處理各種雜活。但有一個問題始終是避免不了的:任務(wù)一多Agent 就開始丟三落四甚至開始一本正經(jīng)地胡說八道。

      MCP 讓外部工具的接入變得很方便,Playwright、Supabase、Slack 這些都能掛上去,但代價是Context Rot [1]。簡單說就是輸入 Token 一多模型性能就會塌方式下降。

      我們先看看上下文窗口里到底裝了些什么。

      Claude的內(nèi)存結(jié)構(gòu)拆解



      拿 Claude 舉例,它的上下文窗口大致是這么分配的:系統(tǒng)提示詞占 1.4%系統(tǒng)工具(包括 MCP 工具)占 8.3%,Agent 上下文(技能、工具描述、對話歷史)吃掉約 70%,用戶實際能用的提示詞空間反而很小。

      Anthropic 的研究數(shù)據(jù)表示:真正用來放系統(tǒng)級指令的部分只有大約 10%,剩下全被對話歷史、工具輸出和各種中間結(jié)果給填滿了。一旦膨脹到 200K Token 的量級模型根本分不清什么才是重點。

      模型健忘、幻覺頻發(fā)的根本原因就是 Context Rot。一個緩解思路是 Ralph Wiggum Loop,可以更合理地利用上下文窗口。

      CodeAct

      CodeAct[2] 是 2024 年的一篇論文,核心思想非常簡單:既然語言模型天然擅長寫代碼為什么不直接讓它用可執(zhí)行代碼來和外部世界交互?說白了就是用代碼當(dāng)動作空間。這個想法對任何寫過程序的人來說都不陌生。

      舉個最簡單的例子,假設(shè)要做一個學(xué)生數(shù)據(jù)庫管理系統(tǒng),現(xiàn)在需要查 2025 年入學(xué)的所有學(xué)生。如果讓語言模型自己在上下文里逐條掃描記錄來"推理",那既慢又不靠譜。但換個思路直接寫一條 SQL:

      SELECT *
      FROM students
      WHERE enrollment_year = 2025;

      跑一下就完事了。把檢索的工作交給數(shù)據(jù)庫引擎,這才是正常開發(fā)者的做法。

      CodeAct 的邏輯完全一樣,與其把海量數(shù)據(jù)塞進(jìn)上下文讓模型去"理解"(順便制造 Context Rot),不如讓模型寫一段代碼、執(zhí)行它、拿到結(jié)果。





      Image from [2] — CodeAct in multi-turn interaction framework

      回到剛才的學(xué)生數(shù)據(jù)庫場景,CodeAct 的工作流是這樣的:先接收用戶的自然語言查詢——

      Find me the record of students who have been enrolled in the year 2025

      然后通過一次 LM 調(diào)用理解意圖,生成 Python 代碼,在編譯器里跑一遍,檢查輸出。結(jié)果滿意就直接返回,不滿意就繼續(xù)迭代修正,直到拿到正確答案。

      1、原子工具使用:CodeAct 匹配或超越 JSON/Text

      第一組實驗測的是最基礎(chǔ)的場景:單個 API 調(diào)用。在 API-Bank 基準(zhǔn)上作者對比了文本格式調(diào)用、JSON 格式調(diào)用和 CodeAct(Python 函數(shù)調(diào)用)三種方案。

      即便在這種完全用不上控制流優(yōu)勢的簡單場景下,CodeAct 在多數(shù)模型上的正確率都持平甚至更高。GPT-4、Claude 這些閉源模型在三種格式上都表現(xiàn)穩(wěn)定,但開源模型從 CodeAct 中獲益明顯更大。合理的解釋是:預(yù)訓(xùn)練階段見過大量代碼的模型,用代碼表達(dá)動作比用 JSON 更自然、更順手。



      Image from [2] — Atomic API call correctness comparison.

      2、復(fù)雜多工具任務(wù):CodeAct 實現(xiàn)更高成功率

      真正拉開差距的是多工具組合場景。M3ToolEval 基準(zhǔn)包含 82 個人工精選的多工具任務(wù),CodeAct 在這里的優(yōu)勢就很明顯了——模型可以在一個代碼塊里組合多個工具、用循環(huán)和條件語句控制流程、存儲中間變量、跨步驟復(fù)用輸出。

      數(shù)據(jù)上看,最佳模型的成功率絕對提升了 20.7%,交互輪次平均減少 2.1 輪。有意思的是,模型越強,從結(jié)構(gòu)化動作空間里獲得的收益就越大。



      Image from [2] — Success rate comparison



      Image from [2] — Full M3ToolEval results

      3、多輪自調(diào)試

      CodeAct 帶來了一個很有意思的能力:自調(diào)試。因為動作本身就是代碼,執(zhí)行出錯會產(chǎn)生 traceback,模型直接拿到結(jié)構(gòu)化的錯誤反饋,下一輪就可以針對性地修復(fù)。

      論文里展示了一個典型案例:CodeActAgent 先用 Pandas 下載數(shù)據(jù),然后訓(xùn)練回歸模型、可視化系數(shù),中間碰到 matplotlib 報錯就自己修,發(fā)現(xiàn)缺失值就自己處理。整個過程不是簡單的工具調(diào)用,而是基于執(zhí)行反饋的迭代推理。



      Image from [2] — Multi-turn interaction example.

      4、微調(diào)后的 CodeActAgent 進(jìn)一步提升性能

      作者構(gòu)建了 CodeActInstruct 數(shù)據(jù)集(約 7k 條多輪軌跡),在此基礎(chǔ)上微調(diào)出了 CodeActAgent。相比基礎(chǔ)的 LLaMA-2 和 Mistral 有大幅提升,在 MINT 任務(wù)上表現(xiàn)突出,跟更大規(guī)模的模型相比也有競爭力。

      比如 CodeActAgent(Mistral-7B),在同等規(guī)模的開源模型里排在前列,通用 Agent 任務(wù)得分明顯提高,同時在 MMLU、GSM8K、HumanEval 等通用能力評測上也沒有退化。



      Image from [2] — CodeActAgent evaluation.

      從實驗數(shù)據(jù)整體來看,CodeAct 做到的不只是格式上的改進(jìn)。它實質(zhì)上重構(gòu)了 Agent 的動作空間——模型獲得了控制流、數(shù)據(jù)流、可復(fù)用變量和自動反饋循環(huán)。工具使用不再是一個接一個地調(diào) API,而是變成了可編程的推理過程。交互步驟更少,任務(wù)成功率更高,特別是在需要組合多個工具的場景下。

      實現(xiàn)

      我先試了 langchain-codeact[3] 這個包,但坑不少,而且只兼容 Anthropic 的模型,所以干脆自己擼了一個小原型。

      實驗環(huán)境用的 Google Colab + OpenAI API。生產(chǎn)環(huán)境建議用隔離沙箱。

      導(dǎo)入依賴

      import os
      import re
      import io
      import contextlib
      from openai import OpenAI
      from google.colab import userdata
      os.environ["OPENAI_API_KEY"] = userdata.get("OPENAI_API_KEY")
      client = OpenAI()

      兩個工具函數(shù):一個從 LM 輸出里提取 Python 代碼塊,另一個用內(nèi)置的 exec() 執(zhí)行它。

      def extract_python_code(text: str):
      pattern = r"```python(.*?)```"
      match = re.search(pattern, text, re.S | re.I)
      return match.group(1).strip() if match else None
      def run_python(code: str):
      buf = io.StringIO()
      try:
      with contextlib.redirect_stdout(buf):
      exec(code, {})
      return buf.getvalue()
      except Exception as e:
      return f"Execution error: {e}"

      CodeAct 循環(huán),這里用 GPT-5-mini 作為底座模型,因為需要推理能力。

      SYSTEM_PROMPT = """
      You are a CodeAct agent.
      Always solve using Python code.
      Return ONLY a python code block.
      Do not explain in text.
      """
      def codeact_run(user_problem, max_iters=3):
      messages = [
      {"role": "system", "content": SYSTEM_PROMPT},
      {"role": "user", "content": user_problem}
      ]
      for step in range(max_iters):
      resp = client.chat.completions.create(
      model="gpt-5-mini",
      messages=messages
      )
      text = resp.choices[0].message.content
      print("\n===== MODEL OUTPUT =====\n")
      print(text)
      code = extract_python_code(text)
      if not code:
      print("\n No code block — retrying\n")
      messages.append({
      "role": "user",
      "content": "Return python code block only."
      })
      continue
      print("\n EXECUTING PYTHON:\n")
      print(code)
      output = run_python(code)
      print("\n PYTHON OUTPUT:\n")
      print(output)
      return output
      print("Failed to obtain executable code.")
      return None

      整個流程就是:讓 LM 理解問題、寫 Python 代碼,extract_python_code() 提取代碼,run_python() 執(zhí)行,拿到結(jié)果。

      problem = """
      A batter hits a baseball at 45.847 m/s at 23.474 degrees.
      Outfielder throws it back at 24.12 m/s at 39.12 degrees.
      Find final distance from batter.
      Assume no air resistance and g = 9.8.
      """
      codeact_run(problem)

      輸出:


      ===== MODEL OUTPUT =====
      ```python
      import math
      # Given values
      v1 = 45.847 # m/s, initial hit speed
      theta1_deg = 23.474 # degrees
      v2 = 24.12 # m/s, outfielder throw speed
      theta2_deg = 39.12 # degrees
      g = 9.8 # m/s^2
      # Convert to radians
      theta1 = math.radians(theta1_deg)
      theta2 = math.radians(theta2_deg)
      # Range of the initial hit (from batter, to the right is positive)
      R1 = (v1**2) * math.sin(2 * theta1) / g
      # Outfielder throws back toward the batter: horizontal velocity is negative
      vx2 = -v2 * math.cos(theta2)
      vy2 = v2 * math.sin(theta2)
      # Time of flight for the throw (starting and ending at ground level)
      t2 = 2 * vy2 / g
      # Horizontal displacement of the throw relative to outfielder's position
      dx2 = vx2 * t2
      # Final x-position relative to batter (batter at x=0)
      x_final = R1 + dx2
      # Distance from batter (absolute)
      distance_from_batter = abs(x_final)
      print(f"Initial landing distance from batter (R1): {R1:.3f} m")
      print(f"Horizontal displacement from outfielder's throw (dx2): {dx2:.3f} m")
      print(f"Final position relative to batter (x_final): {x_final:.3f} m")
      print(f"Final distance from batter: {distance_from_batter:.3f} m")
      ```
      EXECUTING PYTHON:
      import math
      # Given values
      v1 = 45.847 # m/s, initial hit speed
      theta1_deg = 23.474 # degrees
      v2 = 24.12 # m/s, outfielder throw speed
      theta2_deg = 39.12 # degrees
      g = 9.8 # m/s^2
      # Convert to radians
      theta1 = math.radians(theta1_deg)
      theta2 = math.radians(theta2_deg)
      # Range of the initial hit (from batter, to the right is positive)
      R1 = (v1**2) * math.sin(2 * theta1) / g
      # Outfielder throws back toward the batter: horizontal velocity is negative
      vx2 = -v2 * math.cos(theta2)
      vy2 = v2 * math.sin(theta2)
      # Time of flight for the throw (starting and ending at ground level)
      t2 = 2 * vy2 / g
      # Horizontal displacement of the throw relative to outfielder's position
      dx2 = vx2 * t2
      # Final x-position relative to batter (batter at x=0)
      x_final = R1 + dx2
      # Distance from batter (absolute)
      distance_from_batter = abs(x_final)
      print(f"Initial landing distance from batter (R1): {R1:.3f} m")
      print(f"Horizontal displacement from outfielder's throw (dx2): {dx2:.3f} m")
      print(f"Final position relative to batter (x_final): {x_final:.3f} m")
      print(f"Final distance from batter: {distance_from_batter:.3f} m")
      ? PYTHON OUTPUT:
      Initial landing distance from batter (R1): 156.731 m
      Horizontal displacement from outfielder's throw (dx2): -58.119 m
      Final position relative to batter (x_final): 98.612 m
      Final distance from batter: 98.612 m
      'Initial landing distance from batter (R1): 156.731 m\nHorizontal displacement from outfielder\'s throw (dx2): -58.119 m\nFinal position relative to batter (x_final): 98.612 m\nFinal distance from batter: 98.612 m\n'

      到這里可以看到 CodeAct 是怎么讓模型動手干活的——寫代碼、執(zhí)行、拿結(jié)果,LLM 有了"編程的手",不再只是被動回答問題。

      但還有一個問題沒解決。

      模型能寫代碼了,可如果輸入本身就極其龐大呢?幾百頁的報告、幾個 G 的日志、整個代碼倉庫——單次前向傳播根本消化不了這么多信息。

      那如果代碼不只是用來調(diào) API、查數(shù)據(jù)庫,而是用來組織模型自身的推理過程呢?

      這就是遞歸語言模型(Recursive Language Models)要解決的事情。模型不再寫代碼去調(diào)用外部工具,而是寫代碼來調(diào)用自己——把大任務(wù)拆成小任務(wù),分別處理,最后把結(jié)果拼起來。

      CodeAct 是代碼作為動作接口,RLM 是代碼作為推理控制器。

      RLM 遞歸語言模型



      RLM [4] 由 Alex Zhang 和 Omar Khattab 在 2025 年 10 月提出。他們在論文中明確表示受到了 CodeAct 的啟發(fā),但認(rèn)為 CodeAct 在面對超長上下文的推理任務(wù)時力不從心。

      用偽代碼描述 RLM 的工作方式:

      huge document
      → split into sections
      → model analyzes each section
      → model summarizes
      → model calls itself on summaries
      → final answer

      論文給出的正式定義是:"一種通用推理策略,將長提示詞視為外部環(huán)境的一部分,允許 LLM 以編程方式檢查、分解并遞歸地在提示詞片段上調(diào)用自身。"



      Image from [4]

      上圖來自 RLM 論文 [4],展示的是如何處理一整本書這樣的超大上下文。RLM 不會把完整文本硬塞進(jìn)模型(塞不進(jìn)去),而是把提示詞當(dāng)作外部環(huán)境來對待。具體操作是:先把提示詞作為變量加載到 REPL 環(huán)境里,然后用代碼把它拆成可管理的小塊。根語言模型(depth = 0)通過代碼執(zhí)行檢查文本的不同部分,挑出跟任務(wù)相關(guān)的塊,對這些塊發(fā)起遞歸子調(diào)用(depth = 1)。每個子調(diào)用只看自己那一小段上下文,返回中間結(jié)果,最后由根模型把這些結(jié)果聚合起來生成最終響應(yīng)。這套機(jī)制繞過了上下文窗口的硬限制,讓模型可以通過結(jié)構(gòu)化分解和受控遞歸處理任意長度的輸入。

      不同上下文長度下的性能表現(xiàn)

      RLM 的核心主張是能把推理能力擴(kuò)展到標(biāo)準(zhǔn) LLM 固定上下文窗口之外。實驗數(shù)據(jù)很支持這個論斷。

      在 S-NIAH(恒定復(fù)雜度)、OOLONG(線性復(fù)雜度)、OOLONG-Pairs(二次復(fù)雜度)三個基準(zhǔn)上,基礎(chǔ)語言模型的表現(xiàn)都是隨輸入長度增加快速崩塌的,任務(wù)復(fù)雜度越高崩得越厲害。RLM 則一路穩(wěn)住了——哪怕輸入規(guī)模到了百萬 Token 量級,遠(yuǎn)遠(yuǎn)超過底層模型的原生窗口大小,表現(xiàn)依然穩(wěn)健。



      Image from [4] — the log-scale performance vs input length graph.

      信息密集型推理任務(wù)的性能

      差距最大的地方在信息密集型任務(wù)上。OOLONG 和 OOLONG-Pairs 要求模型聚合輸入的幾乎每個部分,做語義變換,根據(jù)成對關(guān)系構(gòu)建輸出——簡單說就是不能跳過任何信息。

      在 OOLONG-Pairs 上,基礎(chǔ)模型的 F1 分?jǐn)?shù)接近零,根本處理不了長上下文下的密集關(guān)系推理。RLM 卻通過遞歸分解展示了涌現(xiàn)能力,GPT-5 的配置下拿到了 58% 的 F1。

      這說明 RLM 做的不只是"看更多 Token"這么簡單。它改變的是推理本身的執(zhí)行方式。



      Image from [4] — performance comparison table.

      效率和成本分析

      遞歸推理聽起來開銷應(yīng)該很大,但實際數(shù)據(jù)卻不是這樣:RLM 的平均 API 成本跟基礎(chǔ)模型差不多,有時候反而更低。

      原因在于 RLM 不會獲得整個上下文。它通過代碼執(zhí)行和針對性的子調(diào)用只探測相關(guān)部分,避免了全量上下文的輸入,減少了無效 Token 的處理,計算資源只分配到真正需要的地方。雖然由于執(zhí)行軌跡的不同,RLM 的成本方差會大一些,但中位成本通常跟摘要壓縮之類的基線策略持平甚至更低。

      好的推理性能靠的不是暴力堆算力,而是結(jié)構(gòu)化分解和選擇性上下文交互。



      Image from [4]-cost distribution quartiles.

      RLM 的核心優(yōu)勢不在于訪問了更多 Token,而在于徹底改變了推理的計算結(jié)構(gòu)。把提示詞外化到環(huán)境中、允許遞歸子調(diào)用,推理就從被動地消耗 Token 變成了主動的信息檢索和受控分解。Context Rot 被削弱了,推理時的信噪比上去了,任意長度的輸入都可以通過可擴(kuò)展的聚合來處理。本質(zhì)上RLM 把長上下文推理從內(nèi)存瓶頸問題轉(zhuǎn)化成了一個編程式的搜索問題。

      實現(xiàn)

      我這里用一本 Arthur Conan Doyle 的《福爾摩斯探案集》(txt 格式)[5] 當(dāng)輸入。Grammerly 統(tǒng)計下來單詞量超過 1M,字符數(shù)約 6.5M。



      using Grammerly for word count

      按 OpenAI[6] 的換算規(guī)則,常見英文文本中 1 個 Token 大約對應(yīng) 4 個字符,也就是約 0.75 個單詞。6.5M 字符對應(yīng)大約 1.625M Token。



      Image from [7]

      OpenAI 當(dāng)前最強模型的上下文窗口是 400,000 Token,我實驗用的 GPT-4.1-mini 是 1,047,576 Token。但實際推理時用戶拿不到全部窗口,系統(tǒng)提示詞、工具描述之類的要占掉一大塊,輸入輸出 Token 還得共享這個空間。就算假設(shè)能用滿 1,047,576 的窗口,1,625,000 Token 的輸入也放不進(jìn)去。

      所以問題很明確:這么大的上下文,怎么用 RLM 來處理?

      實驗任務(wù)是讓模型"提取前 20 個最頻繁出現(xiàn)的大寫實體,并總結(jié) 3 個主要主題"。

      安裝依賴,用 pip 裝 rlms[8] 包:

      !pip install -qU rlms

      導(dǎo)入包,加載環(huán)境變量(Google Colab 的寫法略有不同):

      import os
      from rlm import RLM
      from rlm.logger import RLMLogger
      from google.colab import userdata #google colab
      api_key = userdata.get('OPENAI_API_KEY')

      加載文檔,創(chuàng)建 RLMLogger 存日志:

      with open("big.txt", "r", encoding="utf-8") as f:
      large_document = f.read()
      print(f"Loaded document with {len(large_document)} characters.")
      logger = RLMLogger(log_dir="./logs")

      初始化 RLM environment 設(shè)成 local, Python 內(nèi)置的 exec() 來跑代碼。也可以換成 docker、prime-sandbox、modal、daytona 之類的外部服務(wù)。

      max-depth 設(shè)成 1,跟論文里一致,調(diào)用結(jié)構(gòu)是這樣的:

      Root LM
      ├── Sub LM call
      ├── Sub LM call
      └── Sub LM call

      如果 max-depth = 2 就多一層嵌套:

      Root LM
      ├── Sub LM
      │ ├── Sub-Sub LM
      │ └── Sub-Sub LM
      └── Sub LM
      └── Sub-Sub LM

      以此類推。

      rlm = RLM(
      backend="openai",
      backend_kwargs={
      "model_name": "gpt-4.1-mini", # You can upgrade to stronger model
      "api_key": api_key,
      },
      environment="local",
      environment_kwargs={},
      max_depth=1, # Depth-1 recursion like in paper
      logger=logger,
      verbose=True,
      )
      prompt = f"""
      You are analyzing a large enterprise document.
      Return ONLY valid JSON.
      TASK:
      Extract the top 20 most frequent capitalized entities
      and summarize 3 major themes.
      Document:
      {large_document}
      """
      result = rlm.completion(prompt)
      print("\n RLM Analysis Result:\n")
      print(result)

      結(jié)果出來了:

      Loaded document with 6488666 characters.
      ╭─ ◆ RLM ━ Recursive Language Model ──────────────────────────────────────────────────────────────────────────────╮
      │ │
      │ Backend openai Environment local │
      │ Model gpt-4.1-mini Max Iterations 30 │
      │ Max Depth 1 │
      │ │
      ╰─────────────────────────────────────────────────────────────────────────────────────────────────────────────────╯
      ────────────────────────────────────────────────── Iteration 1 ──────────────────────────────────────────────────
      Iterations 25
      Total Time 397.59s
      Input Tokens 2,026,303
      Output Tokens 98,396
      ═══════════════════════════════════════════════════════════════════════════════════════════════════════════════════

      25 輪迭代,總耗時約 400 秒,處理了 2M 輸入 Token(含子 LM 調(diào)用)輸出約 98,000 Token。給了一個塞不進(jìn)任何上下文窗口的巨大輸入,模型還是給出了接近正確的結(jié)果。



      Actual count vs RLM count

      跟確定性正則匹配的計數(shù)比,RLM 的輸出有輕微偏差。這可以理解因為RLM 做的是跨 chunk 的遞歸語義實體提取,不是嚴(yán)格的詞法計數(shù)。聚合過程中會引入累計漂移,高頻實體和變體形式尤其容易受影響。但關(guān)鍵是模型準(zhǔn)確識別了語料庫的主要敘事主題。RLM 追求的是結(jié)構(gòu)化的語義理解而非 Token 粒度的精確計數(shù)。

      DSPy 也把 RLM 集成進(jìn)了自己的包里,可以直接用 dspy.RLM [10]。

      總結(jié):動作 vs 推理——選擇正確的范式

      大語言模型已經(jīng)不只是文本生成器了。它們正在變成可編程的系統(tǒng)。CodeAct 和 RLM 是這條進(jìn)化路徑上兩個方向不同但可以組合的范式。這兩種方法都讓 LLM 的推理過程變得透明可觀察:中間步驟、執(zhí)行軌跡、分解結(jié)構(gòu)都暴露出來了,開發(fā)者不用再對著一個黑箱去猜模型在想什么。

      CodeAct 把 LLM 變成了執(zhí)行引擎。模型不再只是給你一個文本答案,而是寫代碼、跑代碼、看結(jié)果,不滿意就再來一輪。適合的場景包括工具調(diào)用與 API 編排、數(shù)據(jù)庫查詢與數(shù)據(jù)處理、流程自動化,以及需要通過執(zhí)行來驗證正確性的結(jié)構(gòu)化問題求解。一句話概括:CodeAct 適合需要"動手做事"的任務(wù)。

      RLM 走的是另一個方向。它不是讓模型去操作外部世界,而是讓模型用代碼來組織自己的推理過程——遞歸分解大輸入、通過受控子調(diào)用聚合結(jié)果。適用于超長文檔處理、多文檔推理、信息密集型的分析任務(wù)、跨大規(guī)模語料庫的結(jié)構(gòu)化聚合。RLM 解決的是推理規(guī)模的瓶頸。

      CodeAct 是代碼作為動作接口,RLM 是代碼作為推理控制器。

      兩者不是互斥的。在生產(chǎn)系統(tǒng)里完全可以組合使用——RLM 負(fù)責(zé)在海量上下文中完成推理,CodeAct 負(fù)責(zé)把決策執(zhí)行出去、跟外部系統(tǒng)交互。

      這里真正的范式轉(zhuǎn)移是:與其一味地擴(kuò)大上下文窗口,不如去重構(gòu)計算本身。無論是 CodeAct 的執(zhí)行循環(huán)還是 RLM 的遞歸分解,LLM 系統(tǒng)的未來不在于能吃下多少 Token,而在于如何更聰明地控制推理和動作。

      引用

      https://avoid.overfit.cn/post/021ca9c0ed414fac82ab09532992b7df

      by Shreyansh Jain

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點推薦
      去日本才發(fā)現(xiàn):年輕人都不穿耐克、阿迪,滿街都是Asics、鬼塚虎

      去日本才發(fā)現(xiàn):年輕人都不穿耐克、阿迪,滿街都是Asics、鬼塚虎

      白宸侃片
      2026-02-24 15:45:22
      巡回賽三連敗!王欣瑜0-2速敗出局,無緣印第安維爾斯32強

      巡回賽三連敗!王欣瑜0-2速敗出局,無緣印第安維爾斯32強

      全景體育V
      2026-03-07 07:03:15
      馬克龍就伊朗局勢表態(tài):法國不會在中東“打仗”

      馬克龍就伊朗局勢表態(tài):法國不會在中東“打仗”

      參考消息
      2026-03-06 12:58:11
      沒想到竟然這么多工作需要保密的!網(wǎng)友:不讓看非看被一槍斃了

      沒想到竟然這么多工作需要保密的!網(wǎng)友:不讓看非看被一槍斃了

      另子維愛讀史
      2025-12-08 20:58:22
      曝許家印香港大宅挖出460平地牢,潛伏15年才被發(fā)現(xiàn),是為藏啥?

      曝許家印香港大宅挖出460平地牢,潛伏15年才被發(fā)現(xiàn),是為藏啥?

      林子說事
      2026-03-07 10:33:20
      速度滑冰世錦賽:寧忠?guī)r收獲短距離全能、男子1000米兩項季軍

      速度滑冰世錦賽:寧忠?guī)r收獲短距離全能、男子1000米兩項季軍

      懂球帝
      2026-03-07 07:21:57
      萬萬沒想到!64歲的張凱麗,會因兩會上的一個提案,實現(xiàn)口碑反轉(zhuǎn)

      萬萬沒想到!64歲的張凱麗,會因兩會上的一個提案,實現(xiàn)口碑反轉(zhuǎn)

      阿雹娛樂
      2026-03-07 04:01:50
      奧運會為什么發(fā)避孕套?難道運動員都帶伴侶嗎?看完你就明白了!

      奧運會為什么發(fā)避孕套?難道運動員都帶伴侶嗎?看完你就明白了!

      南權(quán)先生
      2026-02-13 15:17:51
      血淚教訓(xùn)!不能和身邊人訴說的3件事——父母妻兒也不能說

      血淚教訓(xùn)!不能和身邊人訴說的3件事——父母妻兒也不能說

      風(fēng)起見你
      2026-03-07 14:57:38
      女生主動起來有多黏人?網(wǎng)友:這些女的太開放了

      女生主動起來有多黏人?網(wǎng)友:這些女的太開放了

      帶你感受人間冷暖
      2026-01-27 00:20:06
      絕了絕了!塔圖姆醫(yī)學(xué)奇跡!首秀大戰(zhàn)NBA狀元郎

      絕了絕了!塔圖姆醫(yī)學(xué)奇跡!首秀大戰(zhàn)NBA狀元郎

      籃球?qū)崙?zhàn)寶典
      2026-03-06 17:29:14
      老板娘說她喜歡看書,我說我喜歡看八字可以嗎?

      老板娘說她喜歡看書,我說我喜歡看八字可以嗎?

      太急張三瘋
      2026-03-07 14:40:03
      和訊投顧劉芳新:重磅利好來襲!下周這個方向即將起爆!

      和訊投顧劉芳新:重磅利好來襲!下周這個方向即將起爆!

      和訊網(wǎng)
      2026-03-07 13:50:05
      3勝11負(fù)!被勇士碾壓!申京28分遭棄用

      3勝11負(fù)!被勇士碾壓!申京28分遭棄用

      籃球教學(xué)論壇
      2026-03-07 14:53:45
      15年前,那個當(dāng)著全世界喝下核污染水的日本官員,如今還活著嗎

      15年前,那個當(dāng)著全世界喝下核污染水的日本官員,如今還活著嗎

      小蜜情感說
      2026-03-06 16:52:42
      張?zhí)m灣灣之行,最寒心的不是兒子抱怨,而是兒媳的冷漠態(tài)度

      張?zhí)m灣灣之行,最寒心的不是兒子抱怨,而是兒媳的冷漠態(tài)度

      鄉(xiāng)野小珥
      2026-03-06 14:13:37
      一段“冒牌江浙滬獨女”視頻,被全網(wǎng)嘲笑:低認(rèn)知就別硬湊熱度了

      一段“冒牌江浙滬獨女”視頻,被全網(wǎng)嘲笑:低認(rèn)知就別硬湊熱度了

      妍妍教育日記
      2026-02-27 18:15:43
      身價暴漲3倍封神!2570萬血虧,曼聯(lián)悔到骨子里

      身價暴漲3倍封神!2570萬血虧,曼聯(lián)悔到骨子里

      卿子書
      2026-03-06 10:31:22
      百年前20萬白俄難民逃往中國,后代無比驕傲地說:我們是中國人!

      百年前20萬白俄難民逃往中國,后代無比驕傲地說:我們是中國人!

      阿器談史
      2026-03-06 19:45:53
      你身邊有把一手好牌打的稀爛的人嗎?網(wǎng)友:都是上輩子欠人家的

      你身邊有把一手好牌打的稀爛的人嗎?網(wǎng)友:都是上輩子欠人家的

      帶你感受人間冷暖
      2026-01-21 00:15:05
      2026-03-07 15:35:00
      deephub incentive-icons
      deephub
      CV NLP和數(shù)據(jù)挖掘知識
      1940文章數(shù) 1456關(guān)注度
      往期回顧 全部

      科技要聞

      OpenClaw爆火,六位"養(yǎng)蝦人"自述與AI共生

      頭條要聞

      伊朗大使:250年歷史的美國怎能挑釁3000年歷史的伊朗

      頭條要聞

      伊朗大使:250年歷史的美國怎能挑釁3000年歷史的伊朗

      體育要聞

      塔圖姆歸來:凱爾特人的春之綠

      娛樂要聞

      周杰倫田馥甄的“JH戀” 被扒得底朝天

      財經(jīng)要聞

      針對"不敢休、不讓休"怪圈 國家出手了

      汽車要聞

      逃離ICU,上汽通用“止血”企穩(wěn)

      態(tài)度原創(chuàng)

      時尚
      健康
      手機(jī)
      教育
      軍事航空

      這些才是適合普通人的穿搭!搭配腰帶、多穿牛仔褲,簡單舒適

      轉(zhuǎn)頭就暈的耳石癥,能開車上班嗎?

      手機(jī)要聞

      動動嘴就能改UI!三星Galaxy手機(jī)或迎“氛圍編程”時代

      教育要聞

      開學(xué)第一個月,決定孩子一學(xué)期的成績!99%學(xué)霸家長都在盯3件事

      軍事要聞

      美第三個航母打擊群據(jù)稱準(zhǔn)備部署至中東

      無障礙瀏覽 進(jìn)入關(guān)懷版