<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      LLM-in-Sandbox:給大模型一臺電腦,激發通用智能體能力

      0
      分享至



      大模型的能力正在被不同的范式逐步解鎖:In-Context Learning 展示了模型無需微調即可泛化到新任務;Chain-of-Thought 通過引導模型分步推理來提升復雜問題的求解能力;近期,智能體框架則賦予模型調用工具、多輪交互的能力。

      沿著這條技術演進路線,下一步是什么?

      近日,來自中國人民大學高瓴人工智能學院、微軟研究院和清華大學的研究者提出了一個簡潔而有效的范式:LLM-in-Sandbox——讓大模型在代碼沙盒(即虛擬電腦)中自由探索來完成任務。實驗表明,這一范式不僅在代碼任務上有效,更能顯著提升模型在數學、物理、化學、生物醫學、長文本理解、指令遵循等多個非代碼領域的表現,且無需額外訓練,同時顯著減少長文本場景下的 token 消耗,并保持相當水平的推理速度。

      研究者已將 LLM-in-Sandbox 開源為 Python 包,可與 vLLM、SGLang 等主流推理后端無縫集成。LLM-in-Sandbox 應當成為大模型的默認部署范式,取代純 LLM 推理。



      • 論文標題:LLM-in-Sandbox Elicits General Agentic Intelligence
      • 論文鏈接:https://arxiv.org/abs/2601.16206
      • 代碼鏈接:https://github.com/llm-in-sandbox/llm-in-sandbox
      • 項目主頁:https://llm-in-sandbox.github.io

      1. 核心思想:給大模型一臺電腦


      電腦可能是人類創造的最通用的工具,幾乎任何任務都可以通過電腦完成。這種通用性源于三大元能力(Meta-Capabilities):

      • 外部資源訪問:通過網絡獲取信息和知識
      • 文件管理:持久化地讀寫和組織數據
      • 程序執行:編寫并運行任意程序

      正如人類借助電腦完成各種任務,研究者假設:將大模型與虛擬電腦結合,或許能夠解鎖其通用智能的潛力。



      2. LLM-in-Sandbox:

      代碼沙盒激發通用能力


      2.1 輕量級通用沙盒

      與現有軟件工程智能體(SWE-Agent)需要為每個任務配置特定環境不同,LLM-in-Sandbox 采用輕量級、通用化的設計:

      • 基于 Docker 的 Ubuntu 環境
      • 僅預裝 Python 解釋器和基礎科學計算庫
      • 將領域特定工具的獲取交給模型自主完成



      這種設計帶來兩個優勢:泛化性(同一環境支持多種任務)和可擴展性(無需為每個任務維護獨立鏡像)。例如,當擴展到數千個任務時,SWE 智能體可能需要高達 6TB 的存儲空間用于任務特定鏡像,而 LLM-in-Sandbox 僅需約 1.1GB 的共享鏡像。

      2.2 最小化工具集

      研究者為模型配備了三個基礎工具:

      • execute_bash:執行任意終端命令
      • str_replace_editor:文件的創建、查看和編輯
      • submit:標記任務完成

      這三個工具共同實現了電腦的核心能力,足以支撐復雜任務的完成。

      2.3 探索式工作流

      LLM-in-Sandbox 采用多輪交互的工作流:模型在每一輪生成工具調用,接收執行結果作為反饋,然后決定下一步行動,直到調用 submit 或達到最大輪次限制。



      2.4 實驗結果:無需訓練的顯著提升

      研究者在六個非代碼領域進行了實驗:數學、物理、化學、生物醫學、長文本理解和指令遵循。



      實驗結果表明,強大的語言模型在 LLM-in-Sandbox 模式下獲得了一致性的提升。值得注意的是,這些提升完全無需額外訓練:模型能夠自發地利用沙盒環境來增強任務表現。

      2.5 涌現的工具使用能力

      研究者通過案例分析揭示了模型如何自主利用沙盒的三大能力。

      • 外部資源訪問:在化學任務中,模型被要求根據化合物名稱預測分子性質。為此,模型自主安裝了 Java 運行環境,并下載了 OPSIN 庫來將化學名稱轉換為分子結構,這些工具并非預裝在基礎環境中。



      • 文件管理:在長文本理解任務中,面對超過 100K tokens 的行業報告,模型并未嘗試在 prompt 中處理整個文檔,而是使用 grep、sed 等 shell 工具定位相關段落,然后編寫 Python 腳本系統性地提取信息。



      • 計算執行:在指令遵循任務中,模型被要求生成三個滿足嚴格約束的句子:所有句子必須具有相同的字符數,同時使用完全不同的詞匯。模型編寫了 Python 腳本來統計字符、檢測詞匯重疊,并迭代優化候選句子。



      3. LLM-in-Sandbox RL:

      通過強化學習增強泛化能力

      雖然強大的智能體模型能夠直接受益于 LLM-in-Sandbox,但較弱的模型(如 Qwen3-4B-Instruct)往往難以有效利用沙盒環境,甚至表現不如純 LLM 模式。

      為此,研究者提出了LLM-in-Sandbox RL:使用非智能體數據在沙盒環境中訓練模型。

      3.1 方法設計



      核心思想是采用基于上下文的任務(context-based tasks):每個任務包含背景材料和需要基于這些材料完成的目標。由于完成目標依賴于提供的材料,模型必須主動探索沙盒以找到相關信息,從而自然地學會利用沙盒能力。

      3.2 泛化能力



      實驗在 Qwen3-4B-Instruct 和 Qwen3-Coder-30B-A3B 兩個模型上進行。關鍵發現是LLM-in-Sandbox RL 展現出強大的泛化能力:

      • 跨領域泛化:訓練數據來自通用領域,但模型在數學、物理、化學、長文本、指令遵循等多個下游任務上都獲得了一致的提升,甚至在軟件工程任務上也有改善。
      • 跨推理模式泛化:有趣的是,LLM-in-Sandbox RL 不僅提升了沙盒模式的表現,還同時提升了純 LLM 模式的表現。這說明在沙盒中學到的探索和推理能力可以遷移到非沙盒場景。
      • 跨模型能力泛化:無論是較弱的通用模型(Qwen3-4B-Instruct)還是較強的代碼專用模型(Qwen3-Coder-30B-A3B),LLM-in-Sandbox RL 都能帶來一致的提升,表明這一方法具有良好的模型通用性。

      4. 效率分析:

      LLM-in-Sandbox 的實際部署價值


      4.1 Token 消耗



      在長文本場景下,LLM-in-Sandbox 將文檔存儲在沙盒中而非放入 prompt,可將 token 消耗降低最多 8 倍(100K → 13K tokens)。

      4.2 推理速度



      通過將計算卸載到沙盒,LLM-in-Sandbox 將工作負載從慢速的自回歸生成(decode)轉移到快速的并行預填充(prefill),在平均情況下保持有競爭力的吞吐量(QPM):MiniMax 可實現 2.2 倍加速。

      5. LLM-in-Sandbox 超越文本生成

      前面的實驗評估的是 LLM 和 LLM-in-Sandbox 都能完成的任務。然而,LLM-in-Sandbox 還能實現純 LLM 根本無法完成的能力。通過給 LLM 提供虛擬電腦,LLM-in-Sandbox 突破了 text-in-text-out 的范式,解鎖了新的可能性:

      • 跨模態能力:LLM 局限于文本輸入輸出,但 LLM-in-Sandbox 可以通過在沙盒中調用專業軟件來處理和生成圖像、視頻、音頻和交互式應用
      • 文件級操作:不再是描述文件應該包含什么,而是直接生成可用的文件 ——.png、.mp4、.wav、.html
      • 自主工具獲?。翰煌陬A定義的工具調用,LLM-in-Sandbox 使 LLM 能夠自主發現、安裝和學習使用任意軟件庫



      這些案例揭示了一個有前景的方向:隨著 LLM 能力的增強和沙盒環境的完善,LLM-in-Sandbox 可能演化為真正的通用數字創作系統。

      6. 總結與展望

      LLM-in-Sandbox 提出了一個簡潔而有效的范式:通過給大模型提供一臺虛擬電腦,讓其自由探索來完成任務。實驗表明,這一范式能夠顯著提升模型在非代碼領域的表現,且無需額外訓練。

      研究者認為,LLM-in-Sandbox 應當成為大模型的默認部署范式,取代純 LLM 推理。當沙盒可以帶來顯著的性能提升,并且部署成本幾乎可以忽略不計時,為什么還要用純 LLM?

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      釋永信害慘4位女明星:2個央視名嘴、1個炫富全網被封,她最冤?

      釋永信害慘4位女明星:2個央視名嘴、1個炫富全網被封,她最冤?

      情感大頭說說
      2026-01-30 11:43:05
      今夜,見證歷史!剛剛,暴漲!科技巨頭,突迎利好

      今夜,見證歷史!剛剛,暴漲!科技巨頭,突迎利好

      證券時報
      2026-01-30 00:44:05
      “戲混子”沒走,比資本家丑孩子更可怕的是“星二代”開始世襲了

      “戲混子”沒走,比資本家丑孩子更可怕的是“星二代”開始世襲了

      流史歲月
      2026-01-26 10:58:30
      美國總統特朗普已聽取針對伊朗的多種打擊方案

      美國總統特朗普已聽取針對伊朗的多種打擊方案

      極目新聞
      2026-01-30 10:50:13
      斯塔默在三里屯下館子,英使館官員:見識到中國如今多先進了吧?

      斯塔默在三里屯下館子,英使館官員:見識到中國如今多先進了吧?

      荊楚寰宇文樞
      2026-01-29 23:25:24
      一嫁日本,二嫁美國,三嫁法國,絕不嫁中國人的李勤勤,咋樣了?

      一嫁日本,二嫁美國,三嫁法國,絕不嫁中國人的李勤勤,咋樣了?

      心靈的觸動a
      2026-01-30 00:04:59
      被核武轟炸45次,羅布泊本該寸草不生,結果卻成世界最大鉀肥基地

      被核武轟炸45次,羅布泊本該寸草不生,結果卻成世界最大鉀肥基地

      鑒史錄
      2026-01-23 12:12:32
      牙科界大地震!中國科學家發明神奇藥水,滴幾滴爛牙變新牙!

      牙科界大地震!中國科學家發明神奇藥水,滴幾滴爛牙變新牙!

      最黑科技
      2026-01-29 21:32:23
      澳網:德約科維奇大戰辛納 混雙決出首冠

      澳網:德約科維奇大戰辛納 混雙決出首冠

      大眼瞄世界
      2026-01-30 10:33:23
      澳網首冠誕生!10年來首個衛冕組合!張帥明天沖擊澳網第二冠!

      澳網首冠誕生!10年來首個衛冕組合!張帥明天沖擊澳網第二冠!

      籃球看比賽
      2026-01-30 13:58:23
      劍橋20+男生,被大8歲已婚女蓄意接近,卷入三角關系后離奇死亡

      劍橋20+男生,被大8歲已婚女蓄意接近,卷入三角關系后離奇死亡

      一莎觀察
      2026-01-29 23:16:05
      結婚23年她的內衣都是丈夫洗,在丈夫入獄后,她為夫還債三千萬

      結婚23年她的內衣都是丈夫洗,在丈夫入獄后,她為夫還債三千萬

      琨玉秋霜
      2026-01-27 14:10:08
      廣東大部分市縣發布橙色以上森林火險預警!冷空氣將攜雨來襲

      廣東大部分市縣發布橙色以上森林火險預警!冷空氣將攜雨來襲

      南方都市報
      2026-01-30 12:55:04
      四川女大學生到東北游玩暈倒雪地凍傷,左手三根手指或面臨截肢!2300余名愛心人士伸援手

      四川女大學生到東北游玩暈倒雪地凍傷,左手三根手指或面臨截肢!2300余名愛心人士伸援手

      紅星新聞
      2026-01-29 16:07:17
      關機的手機正在監聽?國安部緊急警告:你的舊手機可能正在泄露機密?。?!

      關機的手機正在監聽?國安部緊急警告:你的舊手機可能正在泄露機密?。?!

      大白聊IT
      2026-01-30 07:03:56
      清算終于開始了!一個要求,震動東京:中國要求日本限期內歸還

      清算終于開始了!一個要求,震動東京:中國要求日本限期內歸還

      來科點譜
      2026-01-29 09:00:27
      俄羅斯警告塞爾維亞別亂來,中國不愿看到的一幕發生,武契奇急了

      俄羅斯警告塞爾維亞別亂來,中國不愿看到的一幕發生,武契奇急了

      有牙的兔紙
      2026-01-30 03:33:01
      深成指、滬指跌逾1% 近90股跌超9%

      深成指、滬指跌逾1% 近90股跌超9%

      財聯社
      2026-01-30 10:03:13
      朱媛媛最后影像!殺青合影時強撐微笑,辛柏青全程陪護成最后守候

      朱媛媛最后影像!殺青合影時強撐微笑,辛柏青全程陪護成最后守候

      樂悠悠娛樂
      2026-01-30 11:06:13
      孫守剛、張弓,有新職

      孫守剛、張弓,有新職

      新京報政事兒
      2026-01-30 10:15:03
      2026-01-30 15:39:00
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      12221文章數 142554關注度
      往期回顧 全部

      科技要聞

      單季狂賺3000億;iPhone 17 全球賣瘋了!

      頭條要聞

      水貝黃金平臺杰我睿暴雷無法兌付:有人超5000萬元入局

      頭條要聞

      水貝黃金平臺杰我睿暴雷無法兌付:有人超5000萬元入局

      體育要聞

      敢揍多爾特,此子必成大器?

      娛樂要聞

      金晨出事前 曾靈魂發問未收到春晚邀請

      財經要聞

      血鉛超標工人,擋在“勞動關系”門檻外

      汽車要聞

      售7.999萬元起 2026款大眾朗逸新銳上市

      態度原創

      教育
      時尚
      藝術
      公開課
      軍事航空

      教育要聞

      鼓樓區三至六年級試卷

      推廣|| 冬天利用率超高的裙子,怎么搭都對!

      藝術要聞

      風景畫選刊 | 中國油畫學會三十年藝術展

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      新西蘭拒絕特朗普:不加入"和平委員會"

      無障礙瀏覽 進入關懷版