![]()
在數字經濟浪潮中,企業對于高效、精準的信息獲取與決策支持的需求日益迫切。從前沿科學探索到行業趨勢分析,再到企業級決策支持,一個能夠從海量異構數據源中提取關鍵知識、執行多步驟推理并生成結構化或多模態輸出的「深度研究系統」正變得不可或缺。
然而,現有的研究系統,盡管各自在特定領域有所建樹,卻普遍面臨著難以適應真實世界企業環境的挑戰:
- 靜態架構與缺乏適應性:多數系統依賴靜態提示或固定腳本,缺乏從真實世界反饋中學習和優化的機制,難以適應不斷變化的業務需求和數據分布。
- 私有數據集成與動態優化不足:現有的研究型智能體,如 OpenAI 的 GPT 代理,在集成公共信息源方面表現出色,但往往難以安全、高效地整合企業私有數據,也缺乏動態優化能力。
- 缺乏自動化評估與持續優化:像 Anthropic 的 Claude Research Workbench 雖然強調安全性與人機協作,但缺少自動評估和連續優化機制,難以在部署環境中實現持續改進。
- 長短期記憶與動態演進機制缺失:多數系統缺乏有效的長短期記憶能力,無法積累和重用歷史經驗,導致智能體在處理復雜、長期任務時效率低下且無法持續進步。
- 表格結構化推理與文本合成的脫節:企業數據中包含大量半結構化或復雜表格,但現有系統往往難以將表格的精確符號推理與非結構化文本的生成合成有效結合。
- 缺乏評估驅動的閉環迭代:許多系統缺少一個評估驅動的閉環優化流程,無法系統性地識別低性能案例、進行有針對性的改進并防止性能退化。
為了填補這些空白,阿里巴巴釘釘(Dingtalk)團隊提出了Dingtalk-DeepResearch,一個為復雜、演進的企業任務設計的統一多智能體智能框架,旨在整合深度研究生成、異構表格推理和多模態報告合成,從而提供一個適應性強、可部署、企業級的解決方案。
![]()
- 論文標題:Dingtalk DeepResearch: A Unified Multi Agent Framework for Adaptive Intelligence in Enterprise Environments
- 論文地址:https://arxiv.org/abs/2510.24760
Dingtalk-DeepResearch 在國際權威深度研究評測 DeepResearch Bench 中取得48.49高分(全球第二、國內第一),顯著超越包括 OpenAI、Claude 在內的主流系統;并在 ResearcherBench 達到0.7032平均覆蓋率(全球第三、國內第一)。
![]()
![]()
更關鍵的是,該框架已穩定部署于制造業、供應鏈等真實企業場景,能夠在復雜異構表格、多階段推理與多模態生成任務中保持行業領先的準確性和穩健性,實現了國際頂級基準與實際生產落地的雙重突破。
總體架構:
構建企業智能的大腦
Dingtalk-DeepResearch 框架采用分層設計,旨在為企業提供一個全面而靈活的智能中樞:
![]()
Dingtalk-DeepResearch Agent Studio:這一層提供了專業的智能體,專門用于深度研究、表格數據處理和數據分析。同時,它也支持可定制的個人智能體,以滿足不同用戶的特定需求。這體現了框架的 flexibility 和個性化能力。
Dingtalk-DeepResearch Core:這一層作為框架的「大腦」,它集成了上下文壓縮、推理與規劃、長短期記憶和人機協作控制等關鍵功能。該核心還包括一個自演進引擎 (DingAutoEvaluator)和一套豐富的集成工具,支持代碼執行、網絡搜索、文件與表格檢索及多模態處理。值得注意的是,它能與釘釘生態系統連接,并在用戶授權下安全訪問個人工作文檔。所有這些能力均由經過 CPT、SFT 和 RL 訓練的 LLM 驅動。
Dingtalk-DeepResearch Data Layer:這一層是一個統一的數據骨干。它整合了知識圖譜、數據庫、緩存以及包括對話、音視頻、圖、文本和表格在內的多模態數據集。該層匯集了業務、行業、個人及合成數據,為智能體檢索和關聯多樣化的企業及行業數據提供了基礎。
詳細方法:
自適應智能的核心機制
Dingtalk-DeepResearch 的創新之處在于其獨特的方法論,尤其是在文檔生成、在線學習和表格推理方面。
大規模多階段文檔強化學習:構建文檔生成專家
為了賦予 Dingtalk-DeepResearch 強大的文檔生成能力,該框架設計了一個多階段訓練管道,結合了大規模獎勵建模、結構化查詢格式的監督微調以及在靜態和實時內容流上的強化學習,并通過真實用戶數據進行在線偏好優化。
- 階段 1:獎勵模型(Doc-RM)訓練
此階段的目標是訓練一個文檔專屬的獎勵模型(Doc-RM)。團隊使用了約 80 萬個人工標注的正負樣本對 ,這些樣本根據事實準確性、語義覆蓋、邏輯結構和呈現清晰度進行評估 。該模型將作為后續強化學習階段的評分骨干 。
- 階段 2:結構化查詢格式的冷啟動監督微調 (SFT)
為使模型掌握特定的輸出格式,團隊使用了 3,200 個精選樣本進行 SFT 。這些樣本涵蓋四大類格式:視覺呈現生成(如 Markdown 格式的 PPT)、結構化數據解釋(如表格解析)、綜合多章節敘述 和領域特定模板 。此階段會獎勵兼具內容準確性、邏輯結構和美觀文本格式的輸出 ,為后續 RL 調優奠定基礎 。
- 階段 3:靜態文檔集合上的強化學習 (RL)
利用訓練好的 Doc-RM 作為獎勵函數 ,智能體在大型離線文檔庫上進行強化學習。它通過檢索靜態文檔、合成答案,并根據覆蓋范圍、事實正確性和連貫性獲得獎勵 ,從而在受控環境中建立穩定的合成能力基線 。
- 階段 4:實時文檔獲取上的強化學習 (RL)
為處理時效性信息,RL 被擴展到實時內容檢索 。團隊設計了 10,000 個時間敏感查詢 ,覆蓋了需要避免「事后偏見」的場景(如財務預測)和需要最新信息的「過時信息」場景(如突發新聞)。系統通過實時搜索獲取最新文檔,并由 Doc-RM 結合定制的獎懲結構(強調時間正確性)進行評分 。
- 階段 5:基于 Copilot 的真實用戶交互在線直接偏好優化 (DPO)
在實際部署中,系統作為用戶 Copilot 運行 。通過收集模型的原始輸出和用戶的編輯版本,系統會提取高影響力的差異 ,并將其構造成在線 DPO 數據集,從而持續向用戶的特定偏好進行微調 。
通過這一多階段方法,Dingtalk-DeepResearch 不僅獲得了強大的文檔生成能力,還實現了對不斷變化的真實世界信息需求的自適應響應。
熵引導記憶檢索自適應在線學習:無需微調 LLM 的持續演進
Dingtalk-DeepResearch 的一個顯著特點是其熵引導、記憶感知的在線學習機制。該機制允許智能體在不微調底層 LLM 參數的情況下,持續適應不斷演變的任務。系統并非依賴靜態提示,而是從一個外部的 episodic memory bank 中動態選擇和重用先前的案例 ,平衡了對高價值經驗的利用和對多樣化歷史情境的探索。
智能體會根據當前任務狀態計算存儲案例的概率分布,該分布受其估計的 Q 值和溫度參數的調節 。這鼓勵了對替代案例的探索,減輕了對早期經驗的過擬合 。同時,記憶感知組件通過學習到的語義相似性來確保上下文相關性,從而準確地重新應用多步驟推理模式和工具調用序列 。
該機制被集成到規劃器-執行器循環中 ,每次執行都會更新案例庫,在線重新訓練檢索策略,并逐步提高推理性能 。此外,該系統將這種記憶驅動的范式擴展到個性化層面,通過構建用戶畫像、文檔交互歷史和先前工作流的長期結構化記憶 ,智能體能夠更深入地理解用戶的工作風格和需求,從而提供日益相關和高效的輔助。
結構感知異構表格解析、檢索與推理:企業級數據處理的利器
在企業環境中,表格數據往往與文本敘述混合,形式多樣且結構復雜。Dingtalk-DeepResearch 的表格問答模塊通過結合布局感知表格建模和異構檢索-執行,實現了精確且可解釋的推理。
- 數據攝入 (Data Ingestion)
系統在攝入半結構化表格時會保留其原始布局,而非扁平化為純文本。表格被解析為捕獲了標題、合并單元格和嵌套關系的層次化表示。同時,表格也以標準化模式存儲在關系數據庫中,其 Markdown 渲染版本則加入文本知識庫。這種雙存儲方法保持了結構完整性,并同時支持符號查詢和向量檢索。
- 結構化解析 (Structural Parsing)
系統應用多模態檢測器來區分標題和內容單元格 ,推斷列類型(如離散、連續),并分析布局以識別嵌入的子表 。這些豐富的模式注解為精確推理奠定了基礎 。
- 語義理解 (Semantic Understanding)
系統會將用戶問題分解為感知文本和表格上下文的特定模態子查詢 。查詢詞匯通過嵌入相似性和類型感知標記與數據庫模式及文本實體對齊 。這種分解能確保表格相關子查詢被直接用于符號執行,而文本子查詢則交由文檔檢索器處理 。
- 表格推理 (Tabular Reasoning)
對于表格子查詢,系統會調用 NL2SQL 生成器 ,在關系數據庫上生成可執行的 SQL 語句,以執行聚合、過濾或多跳連接 。得益于評估驅動的開發范式,DingAutoEvaluator 會持續發現低準確度的案例 ,并將其反饋到專用訓練循環中以重新訓練 NL2SQL 生成器 ,從而提高其魯棒性和執行可靠性 。
- 表格檢索 (Table Retrieval)
系統采用混合的自頂向下和自底向上檢索策略 。檢索過程分兩階段:首先從文本知識庫和 Markdown 渲染的表格中進行密集向量召回 ,然后使用模式感知的相關性模型進行語義重排序 。
這種緊密集成結構保留攝入、精確解析、上下文感知分解、符號 SQL 推理和自適應檢索的方法,使 Dingtalk-DeepResearch 能夠大規模處理真實世界中的異構數據,提供穩健的企業級表格問答能力。
DingAutoEvaluator:數據飛輪與持續優化的核心驅動
DingAutoEvaluator 是 Dingtalk-DeepResearch 實現持續演進的關鍵。它是一個自動化評估平臺,作為數據飛輪和性能演進的核心驅動力,將開發范式從啟發式迭代和零星手動檢查轉變為完全評估驅動的方法。
該過程始于不確定性感知案例挖掘。系統會持續監控模型在檢索和生成層面的認知不確定性峰值 ,這些「灰色地帶」的輸出(即模型能力邊緣的推理)會被自動識別并優先提交給專家標注者 。
隨后,平臺中精心策劃的多個「教師模型」會根據一系列多維度評估指標全面檢查框架的輸出 。這個統一的測量框架 涵蓋了 RAG、LLM、推理、智能體框架和知識庫健康度等多個方面 。關鍵指標類別包括:
- RAG 評估:如上下文精度和答案忠實度。
- LLM 評估:如響應準確性和意圖識別。
- 推理評估:如邏輯連貫性和思維一致性。
- 智能體框架評估:如任務依從性和工具使用正確性。
- 知識庫評估:如知識過時率 。
這些指標不僅用于離線基準測試,還作為在線監控循環中的實時信號,為數據飛輪提供高價值案例,并為獎勵建模和持續優化提供信號。
實驗結果與案例展示:
能力驗證與實際應用
論文通過多個實際案例展示了 Dingtalk-DeepResearch 的端到端能力,特別是在復雜表格數據解析、檢索、推理以及多模態文檔生成方面。
復雜表格解析、檢索與推理案例
在案例 A中,系統處理了一個包含庫存、多周預測和多式聯運計劃的復雜表格。Dingtalk-DeepResearch 能夠準確解析多節生產記錄、發貨計劃和物流說明,實現精確的信息檢索與合成。該方法可擴展到多個大型文件(如案例中 8 個相似的 1200 行文件),顯示了其魯棒性和實用性。
![]()
在案例 B中,系統處理了一個 1200 行的周生產記錄 103,并回答了關于 2025 年第一季度總產量的提問 104。系統清晰地展示了其端到端流程:
- 問題分解:將復雜問題分解為四個步驟,包括定位表格、識別時間范圍、提取數據和匯總。
- 表格檢索與模式鏈接:系統成功定位到「YF Seat Weekly Production Statistics on Dec 30, 2024」表格 106,并將「Q1 2025」鏈接到 13 個具體的周次列。
- SQL 生成與執行:系統生成了精確的 SUM 聚合 SQL 語句 108,并成功執行得出 total_production = 245036。
![]()
- 最終答案:基于執行結果,系統給出了「...2025 年第一季度...所有產品的總產量為 245036 件」的準確回答。
![]()
語義對齊的視覺-語言融合多模態文檔生成
該框架還展示了其在 Kaggle 競賽案例(厄瓜多爾超市銷售預測)中的端到端自動化能力 。從源代碼、數據處理、統計可視化到最終的分析報告,全部由 Dingtalk-DeepResearch 自動生成和執行,無需任何人工干預 。
這證明了系統在一個統一的深度研究工作流中,集成了代碼合成、執行和多模態結果呈現的能力 。
![]()
![]()
結論:
面向未來的企業級自適應智能
Dingtalk-DeepResearch 提出了一種統一的多智能體智能框架,專為企業環境設計,其核心優勢在于:
- 熵引導在線學習,實現無需頻繁微調 LLM 的自適應能力。
- 大規模多階段文檔強化學習,顯著提升文檔生成的事實準確性、結構質量和用戶對齊度。
- 結構感知異構表格推理,能夠有效處理真實世界中復雜多樣的表格數據。
- DingAutoEvaluator 自動化評估引擎,通過不確定性感知案例挖掘和多維度指標,形成數據飛輪,驅動模型的持續優化和防范性能退化。
Dingtalk-DeepResearch 已經成功部署在企業內部工作流程中,并即將作為釘釘的服務對外開放,這將為更廣泛的企業用戶提供適應性強、評估驅動、多模態推理的復雜任務解決方案。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.