2月4日消息,深度研究智能體權威評測榜單DeepResearch Bench公布最新結果,百度千帆深度研究Agent(Qianfan-DeepResearch Pro)憑借卓越的端到端研究能力和極高的報告產出質量,登上測評榜單榜首。
在衡量研究報告含金量的四大核心維度——全面性、洞察力、指令遵循度和可讀性上,千帆深度研究Agent均實現了行業領先。
![]()
當前,深度研究(DeepResearch)正成為人工智能進化的關鍵分水嶺。不同于傳統文本生成,深度研究任務要求系統能夠像人類專家一樣,自主執行多步驟、可迭代的認知任務,涵蓋了從復雜需求理解、廣泛信息獲取到深度洞察產出的全過程。
深度研究Agent目前已廣泛應用于學術綜述、金融投研、商業分析等領域,能夠將傳統需數日的手動研究工作壓縮至分鐘級完成,顯著提升研究與決策效率。
作為評價這一前沿賽道能力的“金標準”,DeepResearch Bench填補了通用AI評測在端到端深度研究任務上的空白。
現有的Benchmark多聚焦于單一能力,難以覆蓋長程推理與檢索合成的復雜性。該榜單由領域專家設計了100個博士級別的研究任務,覆蓋22個學科,并引入RACE報告質量評價框架與引文準確性評估,是目前全球范圍內衡量DeepResearch Agent生產力水平最硬核、最真實的評價體系。
?千帆深度研究Agent能夠在此次評測中脫穎而出,得益于優異的技術設計,它采用Agentic架構,通過“任務理解-規劃-執行”循環機制實現端到端研究交付,依托百度搜索與RAG技術保障信息獲取的廣度、可信度與相關性。
兩大重要設計確保了任務執行的準確性,首先采用“由粗到細”的研究路徑展開方式應對任務不確定性;其次,通過深度執行路徑規劃與實時反思機制,系統能在每個研究節點動態評估進展、調整策略,從而有效避免幻覺與路徑偏離,并確保復雜研究任務的高質量完成。
此外,在報告生成階段,千帆深度研究Agent采用獨立的兩階段報告渲染機制:首先產出pivot報告,通過優化相關推理能力,來保證邏輯一致性和內容全面性;之后使用不同的渲染工具,基于pivot報告渲染出最終的markdown、html、ppt等多形態報告,從而實現“一次研究,多形態報告”的交付。
?目前,該深度研究Agent已上線百度千帆平臺,用戶只需輸入復雜調研需求,系統即可在十幾分鐘內生成帶引用的專業級研究報告,真正實現“分鐘級”的深度洞察交付。
?此次登榜是百度千帆 Agent Infra強大支撐能力的集中體現。千帆Agent Infra提供模型、工具、Agent開發、數據及Agent運行環境等一站式開發服務。平臺已累計開發超130萬個Agents,以百度獨家能力“百度AI搜索”為代表的工具日均調用量已突破數千萬次。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.