![]()
這項由北京智源人工智能研究院和清華大學等機構(gòu)聯(lián)合開展的研究發(fā)表于2026年2月的ArXiv預印本平臺(論文編號:arXiv:2602.06540v1),有興趣深入了解的讀者可以通過該編號查詢完整論文。研究團隊開發(fā)了一個名為AgentCPM-Report的創(chuàng)新系統(tǒng),徹底改變了AI生成深度研究報告的方式。
當我們談論AI寫研究報告時,大多數(shù)人可能會覺得這是個很復雜的技術(shù)問題。但實際上,這個研究解決的是一個非常貼近人類寫作體驗的問題。回想一下你寫畢業(yè)論文或工作報告的過程,你是先列好詳細大綱再嚴格按照大綱寫作的嗎?還是在寫作過程中不斷發(fā)現(xiàn)新的想法,然后調(diào)整大綱和內(nèi)容?大部分人的經(jīng)歷都是后者——寫作本身就是思考的過程,在寫的時候才會發(fā)現(xiàn)哪些地方需要更深入探討,哪些邏輯需要調(diào)整。
然而,現(xiàn)有的AI系統(tǒng)卻采用了"先做計劃再執(zhí)行"的機械化方式。這些系統(tǒng)就像是嚴格按照菜譜做菜的廚師,一旦菜譜定了,就不允許中途調(diào)整,即使發(fā)現(xiàn)某種調(diào)料不夠或者火候不對。這種僵化的工作方式導致AI生成的報告往往結(jié)構(gòu)完整但內(nèi)容淺薄,缺乏真正的洞察力。
更關(guān)鍵的是,目前最優(yōu)秀的深度研究系統(tǒng)都依賴于動輒千億參數(shù)的大型模型,比如GPT-4或Gemini這樣的閉源系統(tǒng)。這就像是只有超級計算機才能完成的工作,普通人或小公司根本無法負擔。特別是當你需要處理敏感或私密數(shù)據(jù)時,必須將這些信息上傳到云端處理,這帶來了巨大的隱私和安全風險。
一、寫作即推理:顛覆傳統(tǒng)的WARP框架
研究團隊提出的核心創(chuàng)新是WARP(Writing As Reasoning Policy)框架,這個名字本身就很形象——寫作如同推理。這個框架的核心理念是讓AI在寫作過程中不斷思考和調(diào)整,就像人類作者一樣。
在傳統(tǒng)的AI寫作系統(tǒng)中,整個過程分為兩個完全獨立的階段:制定詳細計劃,然后嚴格執(zhí)行。這就像是要求一個建筑師在沒有實地勘察的情況下就畫出完美的建筑藍圖,然后工人必須嚴格按照藍圖施工,即使發(fā)現(xiàn)地基有問題也不能調(diào)整。顯然,這種方式很難產(chǎn)生高質(zhì)量的結(jié)果。
WARP框架完全改變了這種工作模式。它讓AI在兩種狀態(tài)之間不斷切換:證據(jù)驅(qū)動的起草(Evidence-Based Drafting)和推理驅(qū)動的深化(Reasoning-Driven Deepening)。這個過程更像是一個經(jīng)驗豐富的記者在寫深度報道——先收集基礎信息寫出初稿,然后在寫作過程中發(fā)現(xiàn)哪些地方需要更多證據(jù)支撐,哪些論點需要進一步展開,于是再去收集更多信息,調(diào)整文章結(jié)構(gòu),如此循環(huán)往復。
具體來說,AI首先會根據(jù)用戶的需求生成一個粗略的大綱,這個大綱只包含主要章節(jié)的標題和簡要寫作意圖,而不是詳細到每個段落的內(nèi)容規(guī)劃。然后,AI開始填充這些章節(jié)的內(nèi)容。在寫作過程中,AI會評估當前的草稿質(zhì)量,判斷哪些部分論述不夠深入或者邏輯不夠連貫。一旦發(fā)現(xiàn)這樣的問題,AI就會進入"深化模式",重新搜索相關(guān)信息,將原來的章節(jié)分解為更細致的小節(jié),然后繼續(xù)寫作。
這個過程的巧妙之處在于,AI不是盲目地擴展內(nèi)容,而是基于已經(jīng)寫出的文字來判斷哪些地方真正需要深化。就像一個好的導師在審閱學生論文時,能夠準確指出哪些地方論述不充分,哪些地方需要更多的實例支撐。
二、小模型的逆襲:多階段智能體訓練策略
僅僅有好的框架還不夠,要讓只有80億參數(shù)的小模型掌握這種復雜的寫作技能,需要特別設計的訓練方法。研究團隊開發(fā)了一套多階段智能體訓練策略,這個過程就像是培養(yǎng)一個新手記者成為資深專家的完整培訓計劃。
第一階段是"冷啟動"訓練,類似于給新記者進行基礎的新聞寫作培訓。在這個階段,AI學習基本的指令遵循能力和格式規(guī)范,就像學會如何寫標準的新聞稿。研究團隊使用了大約33000個高質(zhì)量的寫作樣本來訓練模型的基礎能力。
第二階段是原子技能強化學習,這就像是分別訓練記者的各項專業(yè)技能:如何做背景調(diào)研(檢索能力)、如何組織文章結(jié)構(gòu)(規(guī)劃能力)、如何寫出引人入勝的段落(寫作能力)、如何判斷何時收手(決策能力)。研究團隊為每種能力都設計了專門的獎勵函數(shù)。比如,對于規(guī)劃能力,系統(tǒng)會評估生成的大綱是否邏輯清晰、層次分明;對于寫作能力,系統(tǒng)會檢查段落是否與引用的資料保持一致,是否有足夠的深度和新穎性。
第三階段是整體管道強化學習,這相當于讓記者在真實環(huán)境中完成完整的報道任務。在這個階段,AI不再依賴事先準備好的標準答案,而是根據(jù)最終生成報告的整體質(zhì)量來調(diào)整自己的策略。這個階段特別重要,因為它讓AI學會了全局優(yōu)化——知道什么時候應該深入挖掘某個話題,什么時候應該適可而止。
訓練過程中最巧妙的一個創(chuàng)新是"軌跡修剪"策略。研究團隊發(fā)現(xiàn),即使是大型的教師模型也不知道什么時候應該停止擴展內(nèi)容,經(jīng)常會無休止地添加細節(jié)或者過早結(jié)束。為了解決這個問題,他們讓教師模型強制性地生成多個版本的報告,每個版本的詳細程度都不同,然后評估這些版本的質(zhì)量,選擇最好的那個版本作為訓練目標。這就像是讓一個經(jīng)驗豐富的編輯從記者提交的多個草稿中選擇最佳版本。
三、從實驗室到現(xiàn)實:全面的性能驗證
為了驗證這個系統(tǒng)的實際效果,研究團隊在三個不同的基準測試上進行了全面評估。這些測試涵蓋了從學術(shù)研究報告到商業(yè)咨詢分析的各種場景,就像是讓這個AI系統(tǒng)參加多個不同類型的寫作比賽。
在DeepResearch Bench這個專門測試博士級別研究任務的基準上,AgentCPM-Report展現(xiàn)出了令人驚訝的性能。這個測試包含了22個學術(shù)領域的100個復雜任務,相當于讓AI完成真正的博士論文級別的研究工作。結(jié)果顯示,僅使用80億參數(shù)的AgentCPM-Report在洞察力指標上得到了52.64分,超過了使用更大模型的Gemini-2.5-Pro-deepresearch系統(tǒng)的49.45分。這就像是讓一個資歷較淺的記者在深度報道比賽中戰(zhàn)勝了資深記者。
更重要的是,研究團隊通過詳細分析發(fā)現(xiàn),這種性能提升主要來自于系統(tǒng)的"推理驅(qū)動深化"能力。傳統(tǒng)系統(tǒng)在寫完初稿后就基本定型了,而AgentCPM-Report能夠在寫作過程中不斷發(fā)現(xiàn)新的研究角度和連接點。比如,在寫一篇關(guān)于人工智能對人際關(guān)系影響的報告時,系統(tǒng)可能在寫作過程中意識到需要從認知心理學和社會學兩個不同角度來分析這個問題,然后自動調(diào)整文章結(jié)構(gòu),添加相應的章節(jié)。
在商業(yè)咨詢場景的DeepConsult測試中,AgentCPM-Report同樣表現(xiàn)出色。這個測試模擬了真實的商業(yè)分析任務,要求AI生成具有實用價值的商業(yè)研究報告。結(jié)果顯示,與基于OpenAI系統(tǒng)的基線相比,AgentCPM-Report的勝率達到了57.60%,敗率只有28.68%。這意味著在大多數(shù)情況下,這個小模型系統(tǒng)生成的報告質(zhì)量都超過了大型商業(yè)AI系統(tǒng)。
四、技術(shù)細節(jié):讓復雜變簡單的工程智慧
雖然WARP框架的理念聽起來很直觀,但要在技術(shù)上實現(xiàn)卻需要解決許多復雜的問題。研究團隊在論文中詳細描述了這些技術(shù)細節(jié),每一個都體現(xiàn)了深思熟慮的工程智慧。
首先是狀態(tài)表示問題。在每個寫作循環(huán)中,AI需要同時跟蹤用戶查詢、當前大綱、已寫內(nèi)容和檢索到的背景信息。這就像是一個記者需要同時記住采訪主題、文章框架、已寫段落和收集的素材。研究團隊將這些信息統(tǒng)一編碼為一個全局狀態(tài),讓AI能夠在不同寫作階段之間保持連貫性。
動作空間的設計也很巧妙。AI可以執(zhí)行五種基本操作:初始化(生成基礎大綱)、搜索(獲取相關(guān)信息)、寫作(生成內(nèi)容)、擴展(細化大綱結(jié)構(gòu))和終止(完成寫作)。這些操作的組合可以產(chǎn)生復雜的寫作行為,就像是用簡單的積木搭建復雜的建筑。
特別值得注意的是終止決策機制。AI需要學會判斷什么時候應該停止寫作,這是一個非常困難的問題,因為沒有標準答案告訴系統(tǒng)什么樣的報告長度是"剛好"的。研究團隊通過分析報告的語義密度和邏輯連貫性來訓練這種判斷能力,讓AI能夠在內(nèi)容充分和過度冗余之間找到平衡點。
在實際部署方面,研究團隊還考慮了效率問題。他們將報告結(jié)構(gòu)限制在三個層級以內(nèi),并且限制了最多12次的深化操作。這些限制確保了系統(tǒng)能夠在合理的時間內(nèi)完成任務,同時避免了無限循環(huán)的風險。
五、從理論到應用:真實世界的影響
這項研究的意義遠遠超出了技術(shù)層面的創(chuàng)新。它代表了AI系統(tǒng)設計哲學的重大轉(zhuǎn)變——從機械化的執(zhí)行模式轉(zhuǎn)向更加人性化的思考模式。
在實際應用中,這種變化會產(chǎn)生深遠的影響。首先,它大大降低了高質(zhì)量AI寫作系統(tǒng)的門檻。以前只有大型科技公司才能提供的深度研究服務,現(xiàn)在中小企業(yè)甚至個人用戶都可能擁有。這就像是從需要大型主機才能運行的軟件變成了人人都能使用的手機應用。
更重要的是,這種本地化的AI系統(tǒng)解決了數(shù)據(jù)隱私和安全的重要問題。企業(yè)可以在自己的服務器上部署這樣的系統(tǒng),處理敏感的商業(yè)信息而不用擔心數(shù)據(jù)泄露。學術(shù)研究者也可以用它來處理機密的研究數(shù)據(jù),而不需要將這些信息上傳到云端。
從用戶體驗的角度來看,WARP框架生成的報告更加貼近人類的閱讀期望。由于系統(tǒng)在寫作過程中會不斷發(fā)現(xiàn)和探索新的角度,最終的報告往往包含意想不到的洞察和連接,而不是簡單的信息堆砌。這就像是閱讀一篇由經(jīng)驗豐富的記者寫出的深度報道,而不是由機器拼湊的信息摘要。
研究團隊在論文中還展示了一個具體的案例,說明系統(tǒng)是如何在寫作過程中發(fā)現(xiàn)新的研究方向的。在寫一篇關(guān)于AI對人際關(guān)系影響的報告時,系統(tǒng)最初的大綱只包含了技術(shù)影響和社會影響兩個部分。但在寫作過程中,系統(tǒng)意識到還需要從認知心理學的角度分析這個問題,于是自動添加了相關(guān)章節(jié),并搜索了相關(guān)的理論框架如"計算機即社會行為者"理論。這種動態(tài)的內(nèi)容發(fā)現(xiàn)能力是傳統(tǒng)靜態(tài)規(guī)劃系統(tǒng)無法實現(xiàn)的。
六、挑戰(zhàn)與局限:誠實面對現(xiàn)實問題
盡管AgentCPM-Report取得了令人印象深刻的成果,研究團隊也誠實地承認了當前系統(tǒng)的局限性。這種坦誠的態(tài)度體現(xiàn)了嚴謹?shù)膶W術(shù)精神,也為未來的改進指明了方向。
首先是內(nèi)容呈現(xiàn)的問題。目前的系統(tǒng)主要關(guān)注文本內(nèi)容的生成,對于表格、圖表等復雜格式的處理能力有限。在許多專業(yè)報告中,數(shù)據(jù)可視化是傳達信息的重要方式,但現(xiàn)有的AI系統(tǒng)在這方面還需要人工干預。研究團隊建議將內(nèi)容生成和格式渲染分離,用專門的渲染模塊來處理復雜的版面設計。
信息源的局限性也是一個現(xiàn)實問題。目前系統(tǒng)主要依賴預先構(gòu)建的文本數(shù)據(jù)庫,雖然包含了280萬篇學術(shù)論文摘要和網(wǎng)頁摘要,但在時效性和覆蓋范圍上仍有不足。特別是對于快速發(fā)展的技術(shù)領域或者需要最新數(shù)據(jù)的商業(yè)分析,系統(tǒng)可能無法提供足夠新鮮的信息。
評估標準的主觀性也是一個值得關(guān)注的問題。雖然研究團隊使用了多個基準測試和不同的評判模型,但報告質(zhì)量的評估本質(zhì)上帶有主觀色彩。不同的讀者對于什么是"高質(zhì)量"的報告可能有不同的標準。
七、未來展望:技術(shù)進步的下一步
研究團隊在論文結(jié)尾部分詳細描述了未來的研究方向,這些方向既體現(xiàn)了技術(shù)發(fā)展的必然趨勢,也反映了對用戶需求的深刻理解。
多模態(tài)內(nèi)容生成是一個重要的發(fā)展方向。未來的系統(tǒng)需要能夠處理圖像、視頻、音頻等多種媒體形式,生成真正的多媒體研究報告。這不僅僅是技術(shù)挑戰(zhàn),也涉及到如何在不同媒體形式之間保持內(nèi)容的連貫性和邏輯性。
個性化定制是另一個值得期待的功能。不同的用戶對報告的風格、深度、關(guān)注點都有不同的需求。未來的系統(tǒng)可能會學習用戶的偏好,自動調(diào)整寫作風格和內(nèi)容重點。比如,學術(shù)研究者可能更關(guān)注方法論的嚴謹性,而商業(yè)用戶可能更看重實用性和可操作性。
實時更新能力也是一個重要的改進方向。隨著信息更新速度的加快,AI系統(tǒng)需要能夠動態(tài)地獲取最新信息,更新已有的報告內(nèi)容。這就像是讓報告成為一個"活文檔",能夠隨著新信息的出現(xiàn)而自動演進。
說到底,這項研究代表了AI技術(shù)發(fā)展的一個重要里程碑。它證明了通過巧妙的算法設計和訓練策略,小型模型也能夠?qū)崿F(xiàn)以前只有大型模型才能完成的復雜任務。更重要的是,它展示了AI系統(tǒng)如何能夠更好地模擬人類的思考過程,從機械化的執(zhí)行轉(zhuǎn)向創(chuàng)造性的探索。
對于普通用戶來說,這意味著高質(zhì)量的AI寫作助手可能很快就會變得觸手可及。無論是學生寫論文、研究者做綜述,還是企業(yè)分析師制作報告,都可能從這種技術(shù)中受益。而且由于系統(tǒng)可以完全在本地運行,用戶不必擔心隱私泄露或網(wǎng)絡連接問題。
這項研究也提醒我們,AI技術(shù)的發(fā)展不應該只是簡單的參數(shù)規(guī)模競賽。通過更好的架構(gòu)設計和訓練方法,我們可以讓AI系統(tǒng)變得更加高效、實用,也更加貼近人類的工作方式。這種發(fā)展方向?qū)τ贏I技術(shù)的普及和可持續(xù)發(fā)展都具有重要意義。
Q&A
Q1:WARP框架和傳統(tǒng)AI寫作方法有什么根本區(qū)別?
A:傳統(tǒng)AI寫作采用"先制定詳細計劃再嚴格執(zhí)行"的方式,就像嚴格按照菜譜做菜。而WARP框架讓AI在寫作過程中不斷思考和調(diào)整,在"證據(jù)驅(qū)動的起草"和"推理驅(qū)動的深化"之間循環(huán)切換,更像人類作者在寫作中發(fā)現(xiàn)新想法然后調(diào)整內(nèi)容的自然過程。
Q2:AgentCPM-Report只用80億參數(shù)就能超越大模型嗎?
A:是的,在多個基準測試中AgentCPM-Report都展現(xiàn)了超越大型模型的性能。比如在洞察力指標上得分52.64,超過了Gemini-2.5-Pro-deepresearch的49.45分。這主要歸功于WARP框架和多階段訓練策略,證明了巧妙的算法設計比簡單的參數(shù)堆積更重要。
Q3:普通用戶什么時候能用上這種本地AI寫作系統(tǒng)?
A:研究團隊已經(jīng)在GitHub開源了相關(guān)代碼,并在HuggingFace平臺提供了模型下載。由于系統(tǒng)設計為完全本地運行,不依賴云端服務,理論上現(xiàn)在就可以部署使用。不過要達到消費級產(chǎn)品的易用性還需要一定時間的工程化開發(fā)。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.