![]()
新智元報道
編輯:KingHZ
【新智元導讀】過去幾十年,科學計算領域誕生了無數(shù)開源工具,卻鮮有能「開箱即用」。深勢科技Deploy-Master以執(zhí)行為中心,用自動化工作流一次性部署驗證超5萬個工具,為Agentic Science鋪平道路。
過去幾十年里,科學計算領域積累了數(shù)量空前的開源軟件工具。
從生物信息學、化學模擬,到材料計算、物理仿真與工程設計,幾乎每一個學科方向,都形成了自己的工具生態(tài)。在GitHub等平臺上,成千上萬個代碼倉庫聲稱可以被用于科研實踐。
但一個長期存在、卻始終沒有被系統(tǒng)性解決的事實是:絕大多數(shù)科學軟件,停留在「被發(fā)布過」,而不是「可以直接運行」的狀態(tài)。
在真實科研實踐中,我們往往需要花費數(shù)天甚至數(shù)周時間,反復解決編譯失敗、依賴沖突、系統(tǒng)不兼容等問題,才能在本地「勉強跑通」一個工具。
這樣的運行環(huán)境高度依賴個人經(jīng)驗,往往是臨時的、不可移植的,也很難被他人復現(xiàn)或復用。每個研究者、每個實驗室,都在手工維護自己的運行環(huán)境,而不是在一個共享、可復現(xiàn)的執(zhí)行基礎設施之上開展工作。
這種模式帶來的問題,并不只是效率低下。更關鍵的是,它在結構上限制了科學軟件的三件事情:可復現(xiàn)性、大規(guī)模評估,以及系統(tǒng)性集成。
即便容器化、云計算和HPC平臺已經(jīng)顯著降低了算力門檻,這一「部署瓶頸」依然真實存在,并且長期制約著科學軟件的可用性。
隨著AIfor Science(AI4S)的興起,這一問題被進一步放大。
在新的科研范式中,AI系統(tǒng)不再只是輸出預測結果,而是需要與真實的科學工具發(fā)生緊密交互:
1. 調(diào)用求解器;
2. 執(zhí)行模擬程序;
3. 運行分析管線;
4. 處理真實數(shù)據(jù)。
在這樣的背景下,一個工具是否「真的能跑」,不再是工程細節(jié),而是第一性問題。
這一問題在Agentic Science場景中表現(xiàn)得更加尖銳。
如果工具依賴隱含環(huán)境、執(zhí)行高度脆弱,那么智能體的規(guī)劃將無法真正落地,執(zhí)行失敗也無法被結構化分析,更不可能轉(zhuǎn)化為可學習的執(zhí)行軌跡。
從這個角度看,工具是否部署就緒,已經(jīng)成為制約AI4S與Agentic Science規(guī)模化發(fā)展的結構性瓶頸。
基于這些觀察,深勢科技逐漸形成了一個判斷:科學軟件的問題,并不在于工具不夠多,而在于缺乏一個能夠?qū)⒐ぞ呦到y(tǒng)性轉(zhuǎn)化為可執(zhí)行事實的共享基礎設施。
Deploy-Master,正是在這一背景下被提出的。
在真實世界中,部署并不是一個孤立步驟,而是一條連續(xù)鏈路:
工具能否被發(fā)現(xiàn)、
是否被正確理解、
能否構建環(huán)境,
以及是否真的可以被執(zhí)行。
Deploy-Master正是圍繞這條鏈路,被設計為一個以執(zhí)行為中心的一站式自動化工作流。
![]()
Search Agent
百萬級倉庫搜索
在大規(guī)模場景下,部署的第一個難題并不在構建,而在發(fā)現(xiàn)。如果候選工具集合本身存在系統(tǒng)性偏差,后續(xù)所有自動化都會被放大為偏差。
為此,他們從91個科學與工程領域出發(fā),構建了一個覆蓋AI4S實際應用場景的學科空間,并使用語言模型擴展搜索關鍵詞,在GitHub與公共網(wǎng)絡中進行大規(guī)模檢索。
初始召回得到的倉庫,會作為「錨點」,通過依賴關系、引用關系、共享貢獻者和文檔鏈接等信號進行迭代擴展,從而避免僅依賴關鍵詞搜索帶來的盲區(qū)。
隨后,他們通過結構啟發(fā)式規(guī)則剔除明顯不可執(zhí)行的倉庫,并由agent進行語義判斷,確認其是否構成一個可執(zhí)行科學工具。
通過這一多階段漏斗流程,他們將最初約50萬個倉庫,收斂為52,550個進入自動部署流程的科學工具候選。
這一步的意義,不僅在于篩選工具,更在于第一次以結構化方式刻畫了真實科學工具世界的規(guī)模與邊界。
![]()
Build Agent
雙模型辯論
在構建階段,大家面對的并不是一個「有明確說明書」的世界。
大量科學軟件倉庫的構建信息是零散的、不完整的,甚至相互矛盾的。
README文件可能早已過期,已有Dockerfile也未必反映當前代碼狀態(tài),而關鍵依賴往往只存在于作者本地環(huán)境中。
Build Agent會系統(tǒng)性地遍歷倉庫中的構建線索,并在必要時進行補充信息檢索,生成初始構建方案。
早期實驗表明,僅依賴單一模型生成構建規(guī)格,成功率只有50%–60%,失敗主要源于構建信息中大量隱含、未被顯式表達的假設。
為此,Deploy-Master引入了雙模型評審與辯論(debate)機制:
一個模型提出構建規(guī)格,
另一個模型獨立審查并主動尋找潛在不一致、缺失依賴或環(huán)境假設,提出修正建議。
兩者通過多輪交互,不斷修正方案,直到形成穩(wěn)定、可執(zhí)行的構建規(guī)格。這一機制將整體成功率提升到了95%以上。
每一個工具最終都會通過一個最小可執(zhí)行命令進行驗證。
只有通過執(zhí)行驗證的工具,才會被視為成功部署,并被進一步結構化、注冊和發(fā)布到玻爾與SciencePedia上,使其可以被直接使用,或被其他agent(例如SciMaster)調(diào)用。
![]()
從構建時間的分布來看,大規(guī)模部署并不是一個「均勻」的過程。
盡管大多數(shù)工具可以在7分鐘左右完成構建,但整體分布呈現(xiàn)出明顯的長尾特征。
一部分工具僅包含輕量級腳本或解釋型代碼,構建過程相對簡單;
而另一部分工具則涉及復雜的編譯流程、深層依賴以及系統(tǒng)級庫配置,其構建時間顯著更長。
這種差異并不會阻止整體流程的推進,但它決定了部署在規(guī)模化條件下的成本結構。
在成功部署的50,112個工具中,我們觀察到一個高度異構的語言分布。
工具覆蓋了170多種編程語言,其中Python占據(jù)了最大比例,其次是C/C++、Notebook形式的工具、R、Java等。
絕大部分語言部署成功率都穩(wěn)定維持在較高水平。
少數(shù)成功率相對較低的語言,主要集中在依賴復雜編譯鏈或系統(tǒng)級庫的場景,例如C/C++、Fortran以及部分R工具。
這并不意味著這些語言「天生更難部署」,而是反映了其工具鏈對底層環(huán)境的耦合程度更高,從而放大了構建規(guī)格中的不確定性。
從部署的角度看,語言本身并不是決定性因素,環(huán)境耦合強度才是。在2,438次失敗的構建嘗試中,他們對失敗原因進行了系統(tǒng)性統(tǒng)計。
結果顯示,失敗并非均勻分布,而是高度集中在少數(shù)幾類問題上。最主要的失敗來源是構建流程錯誤,包括構建步驟與倉庫當前狀態(tài)不一致、關鍵依賴缺失、編譯器或系統(tǒng)庫不匹配等。這類失敗遠遠多于資源不足、網(wǎng)絡異常或權限問題。
與此同時,資源相關錯誤在高并發(fā)階段也確實出現(xiàn)過,并直接推動了對調(diào)度策略和隔離機制的后續(xù)改進。這進一步說明,在規(guī)模化部署中,失敗不應被視為異常,而應被視為系統(tǒng)暴露問題、進而自我修正的信號。
通過統(tǒng)一的執(zhí)行基礎設施,他們得以系統(tǒng)性地觀察科學軟件在真實環(huán)境中的部署行為:
哪些環(huán)節(jié)最容易失敗,
哪些隱含假設最常被觸發(fā),
哪些工具鏈最容易放大不確定性。
這種可觀測性本身,正是Deploy-Master希望建立的基礎之一。
它讓「科學軟件難以部署」從一種經(jīng)驗判斷,轉(zhuǎn)化為可以被量化、被分析、被持續(xù)改進的工程對象。
從可運行工具,
到Agentic Science的執(zhí)行地基
Deploy-Master的直接產(chǎn)出,是一個由數(shù)萬條執(zhí)行驗證工具構成的集合。但更重要的是,它為社區(qū)Agent與各類Master Agent提供了一個長期缺失的基礎前提。
對Agent而言,工具調(diào)用并不是抽象動作,而是必須在現(xiàn)實環(huán)境中成功落地的執(zhí)行過程。
只有當工具被統(tǒng)一構建、驗證并注冊為可執(zhí)行能力,Agent才真正擁有穩(wěn)定的action space,規(guī)劃、執(zhí)行與學習之間的閉環(huán)才得以成立。這也使得不同來源的社區(qū)Agent,可以共享同一批經(jīng)過執(zhí)行驗證的工具能力,而不再各自維護脆弱、不可復現(xiàn)的運行環(huán)境。
這一方法論的意義,并不局限于科學計算。
科學工具往往被視為自動化部署中最困難的一類:
依賴復雜
系統(tǒng)耦合強
文檔不完整
對環(huán)境高度敏感。
如果在這樣一個「最難場景」中,仍然可以通過以執(zhí)行為中心的設計,在萬級規(guī)模下穩(wěn)定地產(chǎn)生可運行工具,那么結論已經(jīng)非常清晰——
問題不在工具類型,而在于是否建立了以執(zhí)行為核心的基礎設施。
這一判斷同樣適用于更廣泛的軟件工具生態(tài):工程工具、數(shù)據(jù)處理系統(tǒng)、專業(yè)軟件乃至各類Agent Tooling。
只要工具最終需要被執(zhí)行,其部署問題就無法繞開「不完美信息」這一現(xiàn)實前提。
Deploy-Master并未解決所有問題。異構硬件、分布式計算、語義級I/O接口以及與物理實驗系統(tǒng)的閉環(huán)集成,仍然是未來需要面對的挑戰(zhàn)。
但有一件事情已經(jīng)足夠清楚:在Agentic Science時代,執(zhí)行不是推理之后的附屬步驟,而是所有能力得以成立的前提。
當「工具能不能跑」不再是一個默認假設,而成為一個被系統(tǒng)性驗證的事實,科學智能體才真正開始擁有與現(xiàn)實世界交互的基礎。而Deploy-Master,正是邁向這一執(zhí)行現(xiàn)實的一次嘗試。
秒追ASI
?點贊、轉(zhuǎn)發(fā)、在看一鍵三連?
點亮星標,鎖定新智元極速推送!
![]()
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.