網易首頁 > 網易號 > 正文申請入駐

告別科研“七步馬拉松”，一個AI智能體正在改寫知識生產方式

2026-03-24 09:30:06　來源: 36氪

江蘇舉報

分享至

如果把科研流程整體交給智能體執行，會發生什么？

科研這件事，長期被浪漫化了。

它并不是一個統一的動作，而是一條被拆分得很細的流水線。檢索、篩選、閱讀、整理、假設、實驗、驗證，再回到寫作與發表——這七個環節幾乎構成了所有學術工作的基本路徑。

問題在于，這條路徑的每一個環節，都在消耗時間，但并不都在創造價值。

文獻檢索往往意味著在成千上萬篇論文中篩選出幾十篇真正相關的內容。閱讀階段需要逐篇理解方法與結論，再在腦中建立一個尚不穩定的認知結構。真正到問題定義時，研究者才開始進入“創造”的部分，而這往往已經消耗掉了大量時間。

這些環節，本質上都屬于“確定性勞動”，它們可以被拆解、被描述、被重復執行，但依然依賴人工完成。這就形成了一種典型的錯配：最寶貴的認知資源，被大量消耗在最容易被替代的部分。

過去十年，AI確實進入了科研，但更多停留在邊緣。它幫人更快地找論文、更順暢地翻譯文本、甚至能寫出一篇結構完整的綜述，但這些能力并沒有改變科研的基本形態。科研仍然是一場“七步馬拉松”，只是跑得稍微快了一點。

一個更激進的命題擺到了臺面上：如果把科研流程整體交給智能體執行，會發生什么？

近期剛剛升級的AI學術智能體切問學術（即WisPaper中文版）給出了一種新可能。把確定性的勞動交給算力，把不確定的靈感還給人。這句話的背后，是一整套關于科研生產方式的重新分配。

AI不生產論文，但加速進程

傳統科研過程中，七步走的科研馬拉松，需要人在不同環節之間反復切換與銜接。

切問學術的出現，并不意味著它可以直接生產論文。它更多是嵌入到科研的推進過程中，成為一種貫穿式能力。給定一個研究任務，系統可以從文獻檢索出發，完成閱讀、分析與信息結構化，在此基礎上識別潛在問題，進一步進入實驗設計與執行，最終輸出結果與報告。

AI在科研中的角色，也因此發生變化。過去的AI更像“助手”，它在旁邊提供建議，或者幫你完成某一部分工作。這些工作多是局部性的，比如翻譯一篇論文，總結一段內容，或者補全一段代碼，研究者需要不斷接管流程，在不同任務之間來回切換，維持整體推進。

無法避免的機器幻覺，又讓這部分工作需要被復審，以此來規避可能出現的學術欺詐、造假風險。切問學術作為AI智能體的定位，更接近“執行者”，它可以在沒有持續人工介入的情況下，自主完成一部分內容。這意味著，科研流程第一次出現“被托管”的可能。

用一個更直觀的類比，它有點像自動駕駛。在自動駕駛體系中，人類負責設定目標，系統負責路徑與執行。

同樣的邏輯正在引入科研之后，類似的分工正在出現。研究者定義問題，切問學術作為智能體負責推進過程。

科研流程的變化，從這里開始顯現。

首先是流程的歸屬被重新劃分。原本需要人逐步完成的任務，被整合為一段可以被系統整體接管的過程。檢索、閱讀、整理這些原本高度依賴人工的環節，不再需要逐一介入，而是在同一套邏輯中被連續處理。

其次，科研的工作方式從串行過程轉向并行結構。在此類AI智能體介入后，科研不再只能沿著單一路徑推進。多個假設可以被同時展開，多個方向可以并行驗證。一個研究者的工作方式，從完成一個問題，轉向管理一組問題。

當流程本身開始被重新組織，科研的節奏也隨之改變。

100倍速引擎，科研第一次出現“代差”

從產品能力上來說，切問學術做的第一件事，是把傳統科研路徑的鏈條“解耦”。在傳統路徑里，每一個環節之間都存在等待與切換成本。而切問學術帶來的，是指數級別的效率提升。

這種變化是具體的。據其公開資料顯示，對比傳統人工，切問學術的AI4S模式，在文獻檢索方面預估提效10至100倍，原本需要數周完成的文獻篩選，被壓縮到分鐘級；論文閱讀20倍提升，需要數月完成的閱讀與整理，被壓縮到小時級的結構化提取；問題識別可以在全域數據中被系統性掃描與定位，50倍速鎖定。這樣的效率飛升，幾乎可以說重塑科研生命周期。

與此同時，切問學術的提效，建立在有效且可靠的基礎上。就其公布數據來看，切問學術的文獻搜索準確率達到93.78%，而主流模型大致停留在70%左右；文檔版式解析、公式解析與表格解析準確率均在90%以上，整體高于行業水平。

這些能力并不直接產生結論，卻決定了信息以什么形態進入后續處理。變量關系、實驗結構、數據分布被提前拆解，閱讀從逐篇處理轉為結構化接收。

尤其是切問學術在測試中的綜述一致性達到了22.26%，并且引用真實性接近99.8%。前者決定了不同來源的信息是否能夠被納入同一套邏輯框架，后者則真正在杜絕生成式模型機器幻覺方面邁出了一大步。

也正是在這樣的基礎之上，其嵌入科研流程的價值，才有成立的空間。

本次升級中的一大亮點，在于實驗等環節的深入。上傳一篇論文，系統自動完成閱讀與理解，拆解核心任務與算法邏輯；在此基礎上，解析實驗方法，生成可執行的實驗方案；隨后自動搭建計算環境，包括算力配置與依賴項；生成代碼并執行實驗流程，最終輸出結果與完整實驗報告。

整個過程，不需要人工逐步介入。切問學術可以基于已有文獻或系統識別出的研究空白，自動生成實驗路徑，并且自主匹配或尋找數據，完成環境搭建，執行實驗并輸出結果。

傳統科研流程中的“認知”與“執行”是分離的。理解可以被加速，但驗證仍然依賴人。而現在原本需要人反復切換、反復試錯的一整段，被整體提速。科研流程，從“人驅動”變成“智能驅動”。

在這個意義上，它或許代表著科研效率的代際更替。

而這一切，并不是通用大模型就可以實現的。比如說學習能力，傳統大模型或許擅長考試，但是對于從未見過的新知識，存在學習障礙。在CL-bench測試中，大模型們需要理解一套完全陌生的規則，并在上下文中立即應用。大多數模型在這一環節失效，平均成功率只有17.2%。

科研場景恰恰依賴這種能力，每一個問題，都是新的。當模型可以在上下文中快速建立規則理解，它才具備進入科研流程的基礎。

也正因此，切問學術針對如何在真實環境中推進任務有針對性優化。其進行的AgentGym-RL的訓練方式，是更接近真實科研的環境，模型需要在網頁操作、實驗流程等任務中不斷調整路徑。執行不能依賴預設答案，而是在反饋中不斷修正。

就相關論文文獻顯示，一個僅有70億參數的小模型（Llama-3.1-8B），經過AgentGym-RL訓練后，在多個場景中達到了與GPT-4o、Claude 3.5-Sonnet相當甚至更好的表現。

同時，在訓練過程中其針對推理、代碼等關鍵能力相關的Token賦予更高權重，讓能力提升與訓練指標對齊。

但即便具備在真實環境中推進任務的能力，這件事依然沒有那么簡單。模型要真正進入科研流程，還要解決一個更隱蔽的問題，訓練本身的穩定性。

RLHF幾乎是所有大模型對齊能力的核心路徑。但這套方法有一個共識性的難點：PPO訓練極不穩定。這也是為什么，很多模型在短任務中表現良好，一旦進入復雜流程，就開始出現不可控偏移。

切問學術通過PPO-max通過更細粒度的約束與獎勵機制，讓訓練過程保持穩定，不再依賴運氣。

穩定之后，是執行。調用工具、編寫代碼、處理環境依賴，這些環節本身就充滿不確定性。傳統模型在這一部分往往依賴模板，或者停留在“生成代碼”的層面，一旦進入真實執行環境，就會出現偏差。

科研環境里，信息本身并不總是一致的。不同論文之間可能存在結論沖突，數據來源也可能帶來偏差。模型如果只是簡單整合，很容易在多源信息中失真。

而切問學術在面對“已有記憶”與“當前輸入”不一致時，會在內部形成兩條處理路徑，最終根據不同信號強度做出選擇。這讓模型在復雜文獻環境中具備基本的判斷能力，而不是被動接受信息。

當這些能力聚合，變化就不再是局部的提升。它更代表著，科研的生產方式，正在發生一次真正的范式轉變。

當科研回歸到“人”，加速突破的臨界點

在這場變化里，被改變的并不只是效率。

科研的工作方式，開始從親自完成每一步，轉向在關鍵節點做判斷。當執行被系統接管，研究者不再需要反復進入那些確定性的流程，而是逐漸退出具體操作，轉而站在更上層的位置去理解問題、選擇路徑、審視結果。

這種變化看起來微妙，也在悄悄重寫科研的角色分工。那些最聰明的大腦，不再需要在流程中奔跑。從更接近執行者的角色，轉向架構者或者說領導者。

同時，另一道隱形門檻也在消失。在很多領域，idea和結果之間隔著代碼、算力與實驗環境。這部分需求一旦被切問學術一類的智能體解決，科研的進入門檻會被重新定義。

結果是，科研競爭開始前移。從誰能做出來，變成誰能更早看到問題，回歸到了定義問題的“人”。一些原本受限于技術條件的研究者，也可以更直接參與到問題本身。

科研的本質，是知識生產。當知識生產的周期被壓縮，影響的是整個技術體系的節奏。除了時間成本下降之外，知識庫更新頻率也在同步加速。比如新材料、靶向藥、清潔能源這些受到驗證成本限制的領域，驗證一旦被壓縮，路徑篩選會明顯加快，錯誤方向更早被淘汰，可行路徑更快浮現。

這意味著，研究會在更高密度的試探中不斷逼近答案。原本需要多年才能積累的試錯過程，被壓縮到更短周期內反復發生。

技術突破的出現方式，也隨之發生變化，從依賴個體經驗的偶然發現，轉向在高頻驗證中逐步收斂。

當這種節奏持續疊加，一個更接近臨界點的狀態開始出現。科研開始進入一種新的分工結構：AI負責推進已知路徑，把確定性的部分持續壓縮；而人則停留在未知區域，去判斷哪些問題值得被繼續追問。

封面來源｜視覺中國

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.