網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

這腦洞神了！兩AI「互噴」，竟治好祖?zhèn)骺蒲熊浖?5%老毛病？

2026-01-09 17:18:21　來源: 新智元

北京舉報

分享至

新智元報道

編輯：KingHZ

【新智元導讀】過去幾十年，科學計算領域誕生了無數(shù)開源工具，卻鮮有能「開箱即用」。深勢科技Deploy-Master以執(zhí)行為中心，用自動化工作流一次性部署驗證超5萬個工具，為Agentic Science鋪平道路。

過去幾十年里，科學計算領域積累了數(shù)量空前的開源軟件工具。

從生物信息學、化學模擬，到材料計算、物理仿真與工程設計，幾乎每一個學科方向，都形成了自己的工具生態(tài)。在GitHub等平臺上，成千上萬個代碼倉庫聲稱可以被用于科研實踐。

但一個長期存在、卻始終沒有被系統(tǒng)性解決的事實是：絕大多數(shù)科學軟件，停留在「被發(fā)布過」，而不是「可以直接運行」的狀態(tài)。

在真實科研實踐中，我們往往需要花費數(shù)天甚至數(shù)周時間，反復解決編譯失敗、依賴沖突、系統(tǒng)不兼容等問題，才能在本地「勉強跑通」一個工具。

這樣的運行環(huán)境高度依賴個人經(jīng)驗，往往是臨時的、不可移植的，也很難被他人復現(xiàn)或復用。每個研究者、每個實驗室，都在手工維護自己的運行環(huán)境，而不是在一個共享、可復現(xiàn)的執(zhí)行基礎設施之上開展工作。

這種模式帶來的問題，并不只是效率低下。更關鍵的是，它在結構上限制了科學軟件的三件事情：可復現(xiàn)性、大規(guī)模評估，以及系統(tǒng)性集成。

即便容器化、云計算和HPC平臺已經(jīng)顯著降低了算力門檻，這一「部署瓶頸」依然真實存在，并且長期制約著科學軟件的可用性。

隨著AIfor Science（AI4S）的興起，這一問題被進一步放大。

在新的科研范式中，AI系統(tǒng)不再只是輸出預測結果，而是需要與真實的科學工具發(fā)生緊密交互：

1. 調(diào)用求解器；

2. 執(zhí)行模擬程序；

3. 運行分析管線；

4. 處理真實數(shù)據(jù)。

在這樣的背景下，一個工具是否「真的能跑」，不再是工程細節(jié)，而是第一性問題。

這一問題在Agentic Science場景中表現(xiàn)得更加尖銳。

如果工具依賴隱含環(huán)境、執(zhí)行高度脆弱，那么智能體的規(guī)劃將無法真正落地，執(zhí)行失敗也無法被結構化分析，更不可能轉(zhuǎn)化為可學習的執(zhí)行軌跡。

從這個角度看，工具是否部署就緒，已經(jīng)成為制約AI4S與Agentic Science規(guī)模化發(fā)展的結構性瓶頸。

基于這些觀察，深勢科技逐漸形成了一個判斷：科學軟件的問題，并不在于工具不夠多，而在于缺乏一個能夠?qū)⒐ぞ呦到y(tǒng)性轉(zhuǎn)化為可執(zhí)行事實的共享基礎設施。

Deploy-Master，正是在這一背景下被提出的。

在真實世界中，部署并不是一個孤立步驟，而是一條連續(xù)鏈路：

工具能否被發(fā)現(xiàn)、
是否被正確理解、
能否構建環(huán)境，
以及是否真的可以被執(zhí)行。

Deploy-Master正是圍繞這條鏈路，被設計為一個以執(zhí)行為中心的一站式自動化工作流。

Search Agent

百萬級倉庫搜索

在大規(guī)模場景下，部署的第一個難題并不在構建，而在發(fā)現(xiàn)。如果候選工具集合本身存在系統(tǒng)性偏差，后續(xù)所有自動化都會被放大為偏差。

為此，他們從91個科學與工程領域出發(fā)，構建了一個覆蓋AI4S實際應用場景的學科空間，并使用語言模型擴展搜索關鍵詞，在GitHub與公共網(wǎng)絡中進行大規(guī)模檢索。

初始召回得到的倉庫，會作為「錨點」，通過依賴關系、引用關系、共享貢獻者和文檔鏈接等信號進行迭代擴展，從而避免僅依賴關鍵詞搜索帶來的盲區(qū)。

隨后，他們通過結構啟發(fā)式規(guī)則剔除明顯不可執(zhí)行的倉庫，并由agent進行語義判斷，確認其是否構成一個可執(zhí)行科學工具。

通過這一多階段漏斗流程，他們將最初約50萬個倉庫，收斂為52,550個進入自動部署流程的科學工具候選。

這一步的意義，不僅在于篩選工具，更在于第一次以結構化方式刻畫了真實科學工具世界的規(guī)模與邊界。

Build Agent

雙模型辯論

在構建階段，大家面對的并不是一個「有明確說明書」的世界。

大量科學軟件倉庫的構建信息是零散的、不完整的，甚至相互矛盾的。

README文件可能早已過期，已有Dockerfile也未必反映當前代碼狀態(tài)，而關鍵依賴往往只存在于作者本地環(huán)境中。

Build Agent會系統(tǒng)性地遍歷倉庫中的構建線索，并在必要時進行補充信息檢索，生成初始構建方案。

早期實驗表明，僅依賴單一模型生成構建規(guī)格，成功率只有50%–60%，失敗主要源于構建信息中大量隱含、未被顯式表達的假設。

為此，Deploy-Master引入了雙模型評審與辯論（debate）機制：

一個模型提出構建規(guī)格，

另一個模型獨立審查并主動尋找潛在不一致、缺失依賴或環(huán)境假設，提出修正建議。

兩者通過多輪交互，不斷修正方案，直到形成穩(wěn)定、可執(zhí)行的構建規(guī)格。這一機制將整體成功率提升到了95%以上。

每一個工具最終都會通過一個最小可執(zhí)行命令進行驗證。

只有通過執(zhí)行驗證的工具，才會被視為成功部署，并被進一步結構化、注冊和發(fā)布到玻爾與SciencePedia上，使其可以被直接使用，或被其他agent（例如SciMaster）調(diào)用。

從構建時間的分布來看，大規(guī)模部署并不是一個「均勻」的過程。

盡管大多數(shù)工具可以在7分鐘左右完成構建，但整體分布呈現(xiàn)出明顯的長尾特征。

一部分工具僅包含輕量級腳本或解釋型代碼，構建過程相對簡單；

而另一部分工具則涉及復雜的編譯流程、深層依賴以及系統(tǒng)級庫配置，其構建時間顯著更長。

這種差異并不會阻止整體流程的推進，但它決定了部署在規(guī)模化條件下的成本結構。

在成功部署的50,112個工具中，我們觀察到一個高度異構的語言分布。

工具覆蓋了170多種編程語言，其中Python占據(jù)了最大比例，其次是C/C++、Notebook形式的工具、R、Java等。

絕大部分語言部署成功率都穩(wěn)定維持在較高水平。

少數(shù)成功率相對較低的語言，主要集中在依賴復雜編譯鏈或系統(tǒng)級庫的場景，例如C/C++、Fortran以及部分R工具。

這并不意味著這些語言「天生更難部署」，而是反映了其工具鏈對底層環(huán)境的耦合程度更高，從而放大了構建規(guī)格中的不確定性。

從部署的角度看，語言本身并不是決定性因素，環(huán)境耦合強度才是。在2,438次失敗的構建嘗試中，他們對失敗原因進行了系統(tǒng)性統(tǒng)計。

結果顯示，失敗并非均勻分布，而是高度集中在少數(shù)幾類問題上。最主要的失敗來源是構建流程錯誤，包括構建步驟與倉庫當前狀態(tài)不一致、關鍵依賴缺失、編譯器或系統(tǒng)庫不匹配等。這類失敗遠遠多于資源不足、網(wǎng)絡異常或權限問題。

與此同時，資源相關錯誤在高并發(fā)階段也確實出現(xiàn)過，并直接推動了對調(diào)度策略和隔離機制的后續(xù)改進。這進一步說明，在規(guī)模化部署中，失敗不應被視為異常，而應被視為系統(tǒng)暴露問題、進而自我修正的信號。

通過統(tǒng)一的執(zhí)行基礎設施，他們得以系統(tǒng)性地觀察科學軟件在真實環(huán)境中的部署行為：

哪些環(huán)節(jié)最容易失敗，
哪些隱含假設最常被觸發(fā)，
哪些工具鏈最容易放大不確定性。

這種可觀測性本身，正是Deploy-Master希望建立的基礎之一。

它讓「科學軟件難以部署」從一種經(jīng)驗判斷，轉(zhuǎn)化為可以被量化、被分析、被持續(xù)改進的工程對象。

從可運行工具，

到Agentic Science的執(zhí)行地基

Deploy-Master的直接產(chǎn)出，是一個由數(shù)萬條執(zhí)行驗證工具構成的集合。但更重要的是，它為社區(qū)Agent與各類Master Agent提供了一個長期缺失的基礎前提。

對Agent而言，工具調(diào)用并不是抽象動作，而是必須在現(xiàn)實環(huán)境中成功落地的執(zhí)行過程。

只有當工具被統(tǒng)一構建、驗證并注冊為可執(zhí)行能力，Agent才真正擁有穩(wěn)定的action space，規(guī)劃、執(zhí)行與學習之間的閉環(huán)才得以成立。這也使得不同來源的社區(qū)Agent，可以共享同一批經(jīng)過執(zhí)行驗證的工具能力，而不再各自維護脆弱、不可復現(xiàn)的運行環(huán)境。

這一方法論的意義，并不局限于科學計算。

科學工具往往被視為自動化部署中最困難的一類：

依賴復雜
系統(tǒng)耦合強
文檔不完整
對環(huán)境高度敏感。

如果在這樣一個「最難場景」中，仍然可以通過以執(zhí)行為中心的設計，在萬級規(guī)模下穩(wěn)定地產(chǎn)生可運行工具，那么結論已經(jīng)非常清晰——

問題不在工具類型，而在于是否建立了以執(zhí)行為核心的基礎設施。

這一判斷同樣適用于更廣泛的軟件工具生態(tài)：工程工具、數(shù)據(jù)處理系統(tǒng)、專業(yè)軟件乃至各類Agent Tooling。

只要工具最終需要被執(zhí)行，其部署問題就無法繞開「不完美信息」這一現(xiàn)實前提。

Deploy-Master并未解決所有問題。異構硬件、分布式計算、語義級I/O接口以及與物理實驗系統(tǒng)的閉環(huán)集成，仍然是未來需要面對的挑戰(zhàn)。

但有一件事情已經(jīng)足夠清楚：在Agentic Science時代，執(zhí)行不是推理之后的附屬步驟，而是所有能力得以成立的前提。

當「工具能不能跑」不再是一個默認假設，而成為一個被系統(tǒng)性驗證的事實，科學智能體才真正開始擁有與現(xiàn)實世界交互的基礎。而Deploy-Master，正是邁向這一執(zhí)行現(xiàn)實的一次嘗試。

秒追ASI

?點贊、轉(zhuǎn)發(fā)、在看一鍵三連?

點亮星標，鎖定新智元極速推送！

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.