![]()
在數(shù)字經(jīng)濟浪潮中,企業(yè)對于高效、精準的信息獲取與決策支持的需求日益迫切。從前沿科學探索到行業(yè)趨勢分析,再到企業(yè)級決策支持,一個能夠從海量異構(gòu)數(shù)據(jù)源中提取關(guān)鍵知識、執(zhí)行多步驟推理并生成結(jié)構(gòu)化或多模態(tài)輸出的「深度研究系統(tǒng)」正變得不可或缺。
然而,現(xiàn)有的研究系統(tǒng),盡管各自在特定領(lǐng)域有所建樹,卻普遍面臨著難以適應(yīng)真實世界企業(yè)環(huán)境的挑戰(zhàn):
- 靜態(tài)架構(gòu)與缺乏適應(yīng)性:多數(shù)系統(tǒng)依賴靜態(tài)提示或固定腳本,缺乏從真實世界反饋中學習和優(yōu)化的機制,難以適應(yīng)不斷變化的業(yè)務(wù)需求和數(shù)據(jù)分布。
- 私有數(shù)據(jù)集成與動態(tài)優(yōu)化不足:現(xiàn)有的研究型智能體,如 OpenAI 的 GPT 代理,在集成公共信息源方面表現(xiàn)出色,但往往難以安全、高效地整合企業(yè)私有數(shù)據(jù),也缺乏動態(tài)優(yōu)化能力。
- 缺乏自動化評估與持續(xù)優(yōu)化:像 Anthropic 的 Claude Research Workbench 雖然強調(diào)安全性與人機協(xié)作,但缺少自動評估和連續(xù)優(yōu)化機制,難以在部署環(huán)境中實現(xiàn)持續(xù)改進。
- 長短期記憶與動態(tài)演進機制缺失:多數(shù)系統(tǒng)缺乏有效的長短期記憶能力,無法積累和重用歷史經(jīng)驗,導(dǎo)致智能體在處理復(fù)雜、長期任務(wù)時效率低下且無法持續(xù)進步。
- 表格結(jié)構(gòu)化推理與文本合成的脫節(jié):企業(yè)數(shù)據(jù)中包含大量半結(jié)構(gòu)化或復(fù)雜表格,但現(xiàn)有系統(tǒng)往往難以將表格的精確符號推理與非結(jié)構(gòu)化文本的生成合成有效結(jié)合。
- 缺乏評估驅(qū)動的閉環(huán)迭代:許多系統(tǒng)缺少一個評估驅(qū)動的閉環(huán)優(yōu)化流程,無法系統(tǒng)性地識別低性能案例、進行有針對性的改進并防止性能退化。
為了填補這些空白,阿里巴巴釘釘(Dingtalk)團隊提出了Dingtalk-DeepResearch,一個為復(fù)雜、演進的企業(yè)任務(wù)設(shè)計的統(tǒng)一多智能體智能框架,旨在整合深度研究生成、異構(gòu)表格推理和多模態(tài)報告合成,從而提供一個適應(yīng)性強、可部署、企業(yè)級的解決方案。
![]()
- 論文標題:Dingtalk DeepResearch: A Unified Multi Agent Framework for Adaptive Intelligence in Enterprise Environments
- 論文地址:https://arxiv.org/abs/2510.24760
Dingtalk-DeepResearch 在國際權(quán)威深度研究評測 DeepResearch Bench 中取得48.49高分(全球第二、國內(nèi)第一),顯著超越包括 OpenAI、Claude 在內(nèi)的主流系統(tǒng);并在 ResearcherBench 達到0.7032平均覆蓋率(全球第三、國內(nèi)第一)。
![]()
![]()
更關(guān)鍵的是,該框架已穩(wěn)定部署于制造業(yè)、供應(yīng)鏈等真實企業(yè)場景,能夠在復(fù)雜異構(gòu)表格、多階段推理與多模態(tài)生成任務(wù)中保持行業(yè)領(lǐng)先的準確性和穩(wěn)健性,實現(xiàn)了國際頂級基準與實際生產(chǎn)落地的雙重突破。
總體架構(gòu):
構(gòu)建企業(yè)智能的大腦
Dingtalk-DeepResearch 框架采用分層設(shè)計,旨在為企業(yè)提供一個全面而靈活的智能中樞:
![]()
Dingtalk-DeepResearch Agent Studio:這一層提供了專業(yè)的智能體,專門用于深度研究、表格數(shù)據(jù)處理和數(shù)據(jù)分析。同時,它也支持可定制的個人智能體,以滿足不同用戶的特定需求。這體現(xiàn)了框架的 flexibility 和個性化能力。
Dingtalk-DeepResearch Core:這一層作為框架的「大腦」,它集成了上下文壓縮、推理與規(guī)劃、長短期記憶和人機協(xié)作控制等關(guān)鍵功能。該核心還包括一個自演進引擎 (DingAutoEvaluator)和一套豐富的集成工具,支持代碼執(zhí)行、網(wǎng)絡(luò)搜索、文件與表格檢索及多模態(tài)處理。值得注意的是,它能與釘釘生態(tài)系統(tǒng)連接,并在用戶授權(quán)下安全訪問個人工作文檔。所有這些能力均由經(jīng)過 CPT、SFT 和 RL 訓(xùn)練的 LLM 驅(qū)動。
Dingtalk-DeepResearch Data Layer:這一層是一個統(tǒng)一的數(shù)據(jù)骨干。它整合了知識圖譜、數(shù)據(jù)庫、緩存以及包括對話、音視頻、圖、文本和表格在內(nèi)的多模態(tài)數(shù)據(jù)集。該層匯集了業(yè)務(wù)、行業(yè)、個人及合成數(shù)據(jù),為智能體檢索和關(guān)聯(lián)多樣化的企業(yè)及行業(yè)數(shù)據(jù)提供了基礎(chǔ)。
詳細方法:
自適應(yīng)智能的核心機制
Dingtalk-DeepResearch 的創(chuàng)新之處在于其獨特的方法論,尤其是在文檔生成、在線學習和表格推理方面。
大規(guī)模多階段文檔強化學習:構(gòu)建文檔生成專家
為了賦予 Dingtalk-DeepResearch 強大的文檔生成能力,該框架設(shè)計了一個多階段訓(xùn)練管道,結(jié)合了大規(guī)模獎勵建模、結(jié)構(gòu)化查詢格式的監(jiān)督微調(diào)以及在靜態(tài)和實時內(nèi)容流上的強化學習,并通過真實用戶數(shù)據(jù)進行在線偏好優(yōu)化。
- 階段 1:獎勵模型(Doc-RM)訓(xùn)練
此階段的目標是訓(xùn)練一個文檔專屬的獎勵模型(Doc-RM)。團隊使用了約 80 萬個人工標注的正負樣本對 ,這些樣本根據(jù)事實準確性、語義覆蓋、邏輯結(jié)構(gòu)和呈現(xiàn)清晰度進行評估 。該模型將作為后續(xù)強化學習階段的評分骨干 。
- 階段 2:結(jié)構(gòu)化查詢格式的冷啟動監(jiān)督微調(diào) (SFT)
為使模型掌握特定的輸出格式,團隊使用了 3,200 個精選樣本進行 SFT 。這些樣本涵蓋四大類格式:視覺呈現(xiàn)生成(如 Markdown 格式的 PPT)、結(jié)構(gòu)化數(shù)據(jù)解釋(如表格解析)、綜合多章節(jié)敘述 和領(lǐng)域特定模板 。此階段會獎勵兼具內(nèi)容準確性、邏輯結(jié)構(gòu)和美觀文本格式的輸出 ,為后續(xù) RL 調(diào)優(yōu)奠定基礎(chǔ) 。
- 階段 3:靜態(tài)文檔集合上的強化學習 (RL)
利用訓(xùn)練好的 Doc-RM 作為獎勵函數(shù) ,智能體在大型離線文檔庫上進行強化學習。它通過檢索靜態(tài)文檔、合成答案,并根據(jù)覆蓋范圍、事實正確性和連貫性獲得獎勵 ,從而在受控環(huán)境中建立穩(wěn)定的合成能力基線 。
- 階段 4:實時文檔獲取上的強化學習 (RL)
為處理時效性信息,RL 被擴展到實時內(nèi)容檢索 。團隊設(shè)計了 10,000 個時間敏感查詢 ,覆蓋了需要避免「事后偏見」的場景(如財務(wù)預(yù)測)和需要最新信息的「過時信息」場景(如突發(fā)新聞)。系統(tǒng)通過實時搜索獲取最新文檔,并由 Doc-RM 結(jié)合定制的獎懲結(jié)構(gòu)(強調(diào)時間正確性)進行評分 。
- 階段 5:基于 Copilot 的真實用戶交互在線直接偏好優(yōu)化 (DPO)
在實際部署中,系統(tǒng)作為用戶 Copilot 運行 。通過收集模型的原始輸出和用戶的編輯版本,系統(tǒng)會提取高影響力的差異 ,并將其構(gòu)造成在線 DPO 數(shù)據(jù)集,從而持續(xù)向用戶的特定偏好進行微調(diào) 。
通過這一多階段方法,Dingtalk-DeepResearch 不僅獲得了強大的文檔生成能力,還實現(xiàn)了對不斷變化的真實世界信息需求的自適應(yīng)響應(yīng)。
熵引導(dǎo)記憶檢索自適應(yīng)在線學習:無需微調(diào) LLM 的持續(xù)演進
Dingtalk-DeepResearch 的一個顯著特點是其熵引導(dǎo)、記憶感知的在線學習機制。該機制允許智能體在不微調(diào)底層 LLM 參數(shù)的情況下,持續(xù)適應(yīng)不斷演變的任務(wù)。系統(tǒng)并非依賴靜態(tài)提示,而是從一個外部的 episodic memory bank 中動態(tài)選擇和重用先前的案例 ,平衡了對高價值經(jīng)驗的利用和對多樣化歷史情境的探索。
智能體會根據(jù)當前任務(wù)狀態(tài)計算存儲案例的概率分布,該分布受其估計的 Q 值和溫度參數(shù)的調(diào)節(jié) 。這鼓勵了對替代案例的探索,減輕了對早期經(jīng)驗的過擬合 。同時,記憶感知組件通過學習到的語義相似性來確保上下文相關(guān)性,從而準確地重新應(yīng)用多步驟推理模式和工具調(diào)用序列 。
該機制被集成到規(guī)劃器-執(zhí)行器循環(huán)中 ,每次執(zhí)行都會更新案例庫,在線重新訓(xùn)練檢索策略,并逐步提高推理性能 。此外,該系統(tǒng)將這種記憶驅(qū)動的范式擴展到個性化層面,通過構(gòu)建用戶畫像、文檔交互歷史和先前工作流的長期結(jié)構(gòu)化記憶 ,智能體能夠更深入地理解用戶的工作風格和需求,從而提供日益相關(guān)和高效的輔助。
結(jié)構(gòu)感知異構(gòu)表格解析、檢索與推理:企業(yè)級數(shù)據(jù)處理的利器
在企業(yè)環(huán)境中,表格數(shù)據(jù)往往與文本敘述混合,形式多樣且結(jié)構(gòu)復(fù)雜。Dingtalk-DeepResearch 的表格問答模塊通過結(jié)合布局感知表格建模和異構(gòu)檢索-執(zhí)行,實現(xiàn)了精確且可解釋的推理。
- 數(shù)據(jù)攝入 (Data Ingestion)
系統(tǒng)在攝入半結(jié)構(gòu)化表格時會保留其原始布局,而非扁平化為純文本。表格被解析為捕獲了標題、合并單元格和嵌套關(guān)系的層次化表示。同時,表格也以標準化模式存儲在關(guān)系數(shù)據(jù)庫中,其 Markdown 渲染版本則加入文本知識庫。這種雙存儲方法保持了結(jié)構(gòu)完整性,并同時支持符號查詢和向量檢索。
- 結(jié)構(gòu)化解析 (Structural Parsing)
系統(tǒng)應(yīng)用多模態(tài)檢測器來區(qū)分標題和內(nèi)容單元格 ,推斷列類型(如離散、連續(xù)),并分析布局以識別嵌入的子表 。這些豐富的模式注解為精確推理奠定了基礎(chǔ) 。
- 語義理解 (Semantic Understanding)
系統(tǒng)會將用戶問題分解為感知文本和表格上下文的特定模態(tài)子查詢 。查詢詞匯通過嵌入相似性和類型感知標記與數(shù)據(jù)庫模式及文本實體對齊 。這種分解能確保表格相關(guān)子查詢被直接用于符號執(zhí)行,而文本子查詢則交由文檔檢索器處理 。
- 表格推理 (Tabular Reasoning)
對于表格子查詢,系統(tǒng)會調(diào)用 NL2SQL 生成器 ,在關(guān)系數(shù)據(jù)庫上生成可執(zhí)行的 SQL 語句,以執(zhí)行聚合、過濾或多跳連接 。得益于評估驅(qū)動的開發(fā)范式,DingAutoEvaluator 會持續(xù)發(fā)現(xiàn)低準確度的案例 ,并將其反饋到專用訓(xùn)練循環(huán)中以重新訓(xùn)練 NL2SQL 生成器 ,從而提高其魯棒性和執(zhí)行可靠性 。
- 表格檢索 (Table Retrieval)
系統(tǒng)采用混合的自頂向下和自底向上檢索策略 。檢索過程分兩階段:首先從文本知識庫和 Markdown 渲染的表格中進行密集向量召回 ,然后使用模式感知的相關(guān)性模型進行語義重排序 。
這種緊密集成結(jié)構(gòu)保留攝入、精確解析、上下文感知分解、符號 SQL 推理和自適應(yīng)檢索的方法,使 Dingtalk-DeepResearch 能夠大規(guī)模處理真實世界中的異構(gòu)數(shù)據(jù),提供穩(wěn)健的企業(yè)級表格問答能力。
DingAutoEvaluator:數(shù)據(jù)飛輪與持續(xù)優(yōu)化的核心驅(qū)動
DingAutoEvaluator 是 Dingtalk-DeepResearch 實現(xiàn)持續(xù)演進的關(guān)鍵。它是一個自動化評估平臺,作為數(shù)據(jù)飛輪和性能演進的核心驅(qū)動力,將開發(fā)范式從啟發(fā)式迭代和零星手動檢查轉(zhuǎn)變?yōu)橥耆u估驅(qū)動的方法。
該過程始于不確定性感知案例挖掘。系統(tǒng)會持續(xù)監(jiān)控模型在檢索和生成層面的認知不確定性峰值 ,這些「灰色地帶」的輸出(即模型能力邊緣的推理)會被自動識別并優(yōu)先提交給專家標注者 。
隨后,平臺中精心策劃的多個「教師模型」會根據(jù)一系列多維度評估指標全面檢查框架的輸出 。這個統(tǒng)一的測量框架 涵蓋了 RAG、LLM、推理、智能體框架和知識庫健康度等多個方面 。關(guān)鍵指標類別包括:
- RAG 評估:如上下文精度和答案忠實度。
- LLM 評估:如響應(yīng)準確性和意圖識別。
- 推理評估:如邏輯連貫性和思維一致性。
- 智能體框架評估:如任務(wù)依從性和工具使用正確性。
- 知識庫評估:如知識過時率 。
這些指標不僅用于離線基準測試,還作為在線監(jiān)控循環(huán)中的實時信號,為數(shù)據(jù)飛輪提供高價值案例,并為獎勵建模和持續(xù)優(yōu)化提供信號。
實驗結(jié)果與案例展示:
能力驗證與實際應(yīng)用
論文通過多個實際案例展示了 Dingtalk-DeepResearch 的端到端能力,特別是在復(fù)雜表格數(shù)據(jù)解析、檢索、推理以及多模態(tài)文檔生成方面。
復(fù)雜表格解析、檢索與推理案例
在案例 A中,系統(tǒng)處理了一個包含庫存、多周預(yù)測和多式聯(lián)運計劃的復(fù)雜表格。Dingtalk-DeepResearch 能夠準確解析多節(jié)生產(chǎn)記錄、發(fā)貨計劃和物流說明,實現(xiàn)精確的信息檢索與合成。該方法可擴展到多個大型文件(如案例中 8 個相似的 1200 行文件),顯示了其魯棒性和實用性。
![]()
在案例 B中,系統(tǒng)處理了一個 1200 行的周生產(chǎn)記錄 103,并回答了關(guān)于 2025 年第一季度總產(chǎn)量的提問 104。系統(tǒng)清晰地展示了其端到端流程:
- 問題分解:將復(fù)雜問題分解為四個步驟,包括定位表格、識別時間范圍、提取數(shù)據(jù)和匯總。
- 表格檢索與模式鏈接:系統(tǒng)成功定位到「YF Seat Weekly Production Statistics on Dec 30, 2024」表格 106,并將「Q1 2025」鏈接到 13 個具體的周次列。
- SQL 生成與執(zhí)行:系統(tǒng)生成了精確的 SUM 聚合 SQL 語句 108,并成功執(zhí)行得出 total_production = 245036。
![]()
- 最終答案:基于執(zhí)行結(jié)果,系統(tǒng)給出了「...2025 年第一季度...所有產(chǎn)品的總產(chǎn)量為 245036 件」的準確回答。
![]()
語義對齊的視覺-語言融合多模態(tài)文檔生成
該框架還展示了其在 Kaggle 競賽案例(厄瓜多爾超市銷售預(yù)測)中的端到端自動化能力 。從源代碼、數(shù)據(jù)處理、統(tǒng)計可視化到最終的分析報告,全部由 Dingtalk-DeepResearch 自動生成和執(zhí)行,無需任何人工干預(yù) 。
這證明了系統(tǒng)在一個統(tǒng)一的深度研究工作流中,集成了代碼合成、執(zhí)行和多模態(tài)結(jié)果呈現(xiàn)的能力 。
![]()
![]()
結(jié)論:
面向未來的企業(yè)級自適應(yīng)智能
Dingtalk-DeepResearch 提出了一種統(tǒng)一的多智能體智能框架,專為企業(yè)環(huán)境設(shè)計,其核心優(yōu)勢在于:
- 熵引導(dǎo)在線學習,實現(xiàn)無需頻繁微調(diào) LLM 的自適應(yīng)能力。
- 大規(guī)模多階段文檔強化學習,顯著提升文檔生成的事實準確性、結(jié)構(gòu)質(zhì)量和用戶對齊度。
- 結(jié)構(gòu)感知異構(gòu)表格推理,能夠有效處理真實世界中復(fù)雜多樣的表格數(shù)據(jù)。
- DingAutoEvaluator 自動化評估引擎,通過不確定性感知案例挖掘和多維度指標,形成數(shù)據(jù)飛輪,驅(qū)動模型的持續(xù)優(yōu)化和防范性能退化。
Dingtalk-DeepResearch 已經(jīng)成功部署在企業(yè)內(nèi)部工作流程中,并即將作為釘釘?shù)姆?wù)對外開放,這將為更廣泛的企業(yè)用戶提供適應(yīng)性強、評估驅(qū)動、多模態(tài)推理的復(fù)雜任務(wù)解決方案。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.