你有沒有遇到過這種崩潰時刻:要匯報的PPT明天就要交,你折騰到半夜,一邊查資料一邊排版,做出來的東西還是字體不統一、排版亂七八糟,而整體風格呢,毫無美感可言。這種痛苦幾乎是打工人的共同記憶。PPT本身不難,難的是同時要做好兩件事:一是把內容研究透徹,二是把視覺設計做得好看。這兩件事單獨拿出來都要花不少時間,合在一起更是要命。
![]()
中科院軟件所的研究團隊注意到了這個問題,開發了一個叫做DEEPPRESENTER的AI系統,能夠自動完成從研究資料到生成精美演示文稿的全流程。更關鍵的是,這個系統有一個別的同類工具都不具備的能力:它會把自己生成的PPT"看一遍",發現哪里不對勁,然后自己改掉。這就好像系統里住著一個會"挑剔自己作品"的設計師,而不是生成完就拍屁股走人。
PPT生成器為什么以前總是做出"電子垃圾"
要理解DEEPPRESENTER的厲害之處,我們得先聊聊它的前輩們為什么不好用。
想象一下,你雇了一個秘書幫你做PPT,但這個秘書的工作方式是這樣的:他事先背好了幾套固定的PPT模板,然后不管你給他什么主題,他都往模板里塞文字。做完之后,他不會去翻開PPT看實際效果如何,而是假設"我打完字了,應該就沒問題了吧"。
這就是以前大多數AI生成工具的工作方式。它們依賴預設好的模板,按照固定流程填充內容,生成完就結束。具體來說,有兩個核心問題讓這些工具做出來的東西差強人意。
第一個問題是"內容浮于表面"。這些工具大多不會主動去查資料,只能把用戶提供的文字重新排布一下。如果你讓它做一個關于"注意力機制"的AI入門科普PPT,它不會去讀論文、找圖片、整理關鍵信息,而是把你隨手給它的幾句話拆開塞進不同的幻燈片里。結果自然是內容單薄,看著像是初中生做的報告。
第二個問題更隱蔽,叫做"只在腦子里自檢,不用眼睛看結果"。以前的AI工具在檢查自己的輸出時,只能分析自己生成的代碼或者文字,也就是"中間狀態",而不是用戶真正看到的那個渲染出來的畫面。打個比方,這就像一個畫家畫完一幅畫,評價好壞時不是看實際畫布,而是去回想自己用了哪幾種顏色、畫了幾筆,這能判斷出"文字溢出邊框"或者"兩個元素疊在一起"嗎?顯然不行。結果就是,AI覺得自己生成的代碼沒問題,但渲染出來的PPT里文字擠成一團、背景和字色太接近根本看不清、圖片路徑寫錯了顯示一片空白,這些毛病它全部發現不了。
DEEPPRESENTER要解決的,正是這兩個根本問題。
一個研究員、一個設計師,外加一雙會"看PPT"的眼睛
DEEPPRESENTER的核心設計思路是把做PPT這件事拆給兩個專門的AI"角色"來完成,同時給它們配備了一個關鍵工具,能真正"看到"PPT渲染效果的檢查能力。
先說第一個角色,叫做"研究員"(Researcher)。這個AI的職責是在你提出需求之后,主動去搜索、閱讀和整理相關資料。如果你說"我要做一個給初學者看的、關于Transformer模型的PPT",研究員會真的去查相關論文,下載資料,生成配套圖表,整理成一份結構清晰的"講稿文檔",就像你給演講者準備的那種提綱加素材的文檔,而不是直接上手畫幻燈片。
更聰明的地方在于,研究員的工作深度會根據主題自動調整。如果是技術性話題,它會去深挖相關研究;如果是面向普通大眾的科普,它會優先找通俗的例子和易懂的插圖。它不是按照一套死板的流程走,而是"理解了你的需求"之后靈活規劃自己的工作路徑。
第二個角色叫做"演示者"(Presenter)。它接過研究員準備好的講稿文檔,從零開始設計幻燈片。注意是從零開始,不是套模板,而是先給整個演示文稿定一個視覺主題:選配色、定字體、規劃布局風格。比如,如果主題是環保,可能會用綠色和大地色系;如果是學術匯報,會偏向簡潔的白底黑字風格。然后再逐頁生成幻燈片,把講稿內容轉化成視覺設計。
這兩個角色分工協作,通過一個共享的"工作臺"傳遞文件和信息,就像一個辦公室里研究員把報告遞給設計師,設計師再基于報告做出PPT。
但真正讓這套系統與眾不同的,是第三個關鍵設計:一個叫做inspect(檢查)的工具。
這個工具的工作原理很直接:把生成的幻燈片HTML文件放進一個"無頭瀏覽器"(就是沒有界面的瀏覽器),讓它真正渲染出圖片,然后把這張圖片"給AI看"。AI看完后,如果發現"這里的標題字太淺,跟背景幾乎融為一體",或者"這一頁的圖片路徑錯了,顯示空白",就會立刻記錄下來,計劃修改,然后真的去修改代碼。
![]()
這種"先看渲染結果,再反思,再修改"的循環,研究團隊稱之為"環境感知反思"(Environment-Grounded Reflection)。與之相對的,是以前那種只能"自言自語"反思自己代碼的"自我反思"方式。兩者的區別,就像你評價一道菜是"看著食譜說應該很好吃",還是"真的先吃一口再說"。顯然后者要靠譜得多。
同樣,研究員那邊也有一個inspect工具,不過功能有所不同,它會檢查講稿文檔里有沒有圖片引用路徑寫錯、語言是否符合用戶要求、幻燈片數量有沒有滿足指定條件等。這樣整條流水線的每一個環節都有真實的觀察和糾錯能力,而不是盲目往前走。
訓練一個"會獨立工作的小模型":讓AI教AI
DEEPPRESENTER用大型模型(比如谷歌的Gemini-3-Pro)跑得很好,但有一個現實問題:這些頂級大模型調用費用不便宜,每次生成PPT的成本在真實使用中會顯得有些高。研究團隊的思路是:能不能用一個小得多、便宜得多的模型,訓練它"學會"DEEPPRESENTER的工作方式,讓它也能有樣學樣地做出高質量的PPT?
![]()
于是他們開發了DeepPresenter-9B,一個參數量為90億的專用小模型(相比之下,頂級大模型的參數量往往是其幾十倍甚至更多)。訓練這個小模型的過程,有點像培養一個新手設計師的方式,給他看大量"優秀作品的完整制作過程",讓他學習每一步的思路和操作。
這些"制作過程"叫做"軌跡"(trajectory),每一條軌跡記錄了從接到任務到完成PPT的所有中間步驟:查了什么資料、寫了什么內容、生成了哪些幻燈片、發現了什么問題、做了什么修改。研究團隊用大模型跑了1024個不同主題的PPT任務,收集這些完整的工作軌跡,再拿來訓練小模型。
但這里有一個棘手的問題,研究團隊把它叫做"自我驗證偏見"。簡單說就是:同一個AI既當運動員又當裁判,容易出現"自我感覺良好"的錯覺。AI在生成PPT之后自己檢查,很可能會說"這一頁做得很棒!",因為檢查這個動作和生成這個動作都來自同一套思維狀態,容易產生先入為主的判斷,對自己已經做出的東西保持莫名的信任。
為了解決這個問題,研究團隊引入了一個獨立的"外部批評者"(Extrinsic Verification)。每次AI用inspect工具看完自己生成的幻燈片之后,不是讓它自己寫反思,而是把渲染圖片單獨交給另一個獨立的AI來評審。這個獨立批評者和生成過程完全隔離,不知道之前發生了什么,只對著眼前的圖片做出評判:這里對比度太低,那里文字溢出,請改進。這個評判意見會被插入到訓練軌跡中,作為"正確的反思應該長什么樣"的示范。
打個比方,這就像一個學生寫完作文之后,不是自己改自己的文章,而是把作文交給另一個老師來批改,再把批改意見帶回來。這樣學到的"如何自我糾錯"的能力,會比自己看自己要可靠得多。
在這個獨立批評者的幫助下,研究團隊發現,同樣的300個訓練樣本,加入外部驗證的那組模型性能提升是沒有外部驗證組的1.67倍(平均分提升0.20對比0.12)。差距不算小,說明"獨立批評"這個機制確實有效地打破了AI的自我幻覺。
最終,1024個訓練任務跑完之后,經過三輪嚴格的質量篩選,先檢查有沒有滿足用戶指定的約束條件,再檢查AI有沒有真正按照批評意見去修改,最后再檢查最終PPT有沒有明顯的視覺缺陷,篩出了802條高質量軌跡,用來訓練DeepPresenter-9B。
數字會說話:它到底有多強?
研究團隊拿128個不同主題、不同格式要求的PPT生成任務做了測試,橫跨中英文、16:9寬屏和4:3標準比例、限定幻燈片數量和自由發揮等各種情形。評估維度有三個:內容質量(你說的話有沒有做到)、視覺風格(PPT好不好看)、約束滿足度(有沒有按用戶要求的幻燈片數、語言、比例來做)。
![]()
結果用平均分來看(滿分5分),DEEPPRESENTER用Gemini-3-Pro作為底層模型時,拿到了4.44分,超過了商業產品Gamma的4.36分,也把其他所有開源框架甩在了身后。其中最顯著的提升來自內容質量,因為研究員會自主搜集資料,內容豐富度遠超那些只能靠用戶自己提供材料的工具。
另一個有意思的指標叫做"多樣性分數"(Diversity Score),用來衡量同一個系統做出來的不同PPT之間長得有多不一樣。這個指標滿分1分,那些依賴固定模板的工具普遍在0.17到0.35之間,而DEEPPRESENTER拿到了0.79,相當于"從零設計"帶來的風格自由度是"套模板"方式的兩倍多。就連商業產品Gamma也只有0.52,不如DEEPPRESENTER。
而那個"經濟實惠的小弟"DeepPresenter-9B,平均分達到了4.19,超過所有開源基線模型,基本和GPT-5打平(GPT-5在DEEPPRESENTER框架下是4.22),但使用成本要低得多。從"性價比"角度看,DeepPresenter-9B在同等成本下的表現遠優于其他競爭對手。
此外,研究團隊還做了專門的消融實驗,就是把系統的某個部件拆掉,看會發生什么。拆掉"環境感知反思"(讓AI無法真正看到渲染后的PPT)之后,Gemini版本的平均分從4.44跌到4.32,小模型版本從4.19跌到3.82,跌幅更為明顯。拆掉"雙智能體分工"(把研究員和演示者合并成一個)之后,小模型的平均分直接跌到3.23,說明這個分工設計是系統能維持高水準的重要基礎。
AI也會"犯錯的地方":失敗案例告訴我們什么
研究團隊沒有只展示好的數據,他們也認真分析了系統在哪里會出問題。
![]()
在收集訓練軌跡的過程中,未能通過質量篩選的軌跡里,問題來自四個方向:最多的是"輸出質量不達標",占43%,說明在自由發揮的生成模式下,保持穩定的高質量并不容易;其次是"環境運行問題",占32.3%,主要是上下文窗口裝不下那么多內容(因為生成PPT的過程步驟很長,需要記住的中間狀態非常多),或者底層基礎設施出故障;剩下的是約束沒滿足(13.5%)和行為不一致(11.2%)。
這說明這類長步驟的AI工作流對穩定性要求很高,一旦中間哪個環節出了差錯,整條鏈可能就斷了。研究團隊坦承這是目前還沒有完全解決的挑戰。
另外,DEEPPRESENTER的"外部批評者"目前只在訓練階段用,真正跑起來生成PPT的時候并不使用,因為實時引入外部批評者會讓運行成本更高、速度更慢,而且有時候批評者提的意見和AI的實際修改方向對不上,反而帶來新的問題。研究團隊認為,如何在真實推理時也有效解決"自我驗證偏見",是未來值得繼續研究的方向。
至頂AI實驗室洞見
DEEPPRESENTER做了一件聽起來簡單但以前沒人做好的事:讓AI在生成PPT的過程中,真的去"看"它自己做出來的東西長什么樣,而不是假裝看了。這個小小的改變,背后是對"AI如何自我糾錯"這件事的重新理解,你不能在腦子里想象一道菜好不好吃,你得先嘗一口。
對于普通人來說,這個系統最直接的意義是:你可以把一篇論文、一個主題、一個演講需求扔給它,然后去倒杯水,等回來就有一份真正認真做過的PPT,不是模板填充,是有調研、有設計、有自我檢查過的作品。當然,目前這套系統還不是可以直接下載使用的產品,更多是學術層面的框架和驗證。但隨著技術的成熟,這類工具走入普通辦公場景只是時間問題。
你會不會讓AI幫你把下一份重要的演示文稿做好?如果AI真的能做到"看著改、改完再看",你還會坐在電腦前熬夜調字號嗎?
論文地址:https://arxiv.org/abs/2602.22839v1
END本文來自至頂AI實驗室,一個專注于探索生成式AI前沿技術及其應用的實驗室。致力于推動生成式AI在各個領域的創新與突破,挖掘其潛在的應用場景,為企業和個人提供切實可行的解決方案。
Q&A
Q1:DEEPPRESENTER和普通的AI生成PPT工具有什么不同?
A:最大的不同在于兩點:一是它有專門的"研究員"會主動搜集資料,而不是只靠用戶提供內容;二是它會把生成的幻燈片真正渲染成圖片"看一遍",發現視覺問題后自己修改,而不是生成完就結束。
Q2:DeepPresenter-9B是什么,和主系統有什么關系?
A:DeepPresenter-9B是研究團隊基于DEEPPRESENTER框架訓練出來的一個小型專用模型,參數量約90億,運行成本遠低于GPT-5等大模型,但在PPT生成質量上接近甚至超過了大部分開源競爭對手,是"經濟實惠版"的DEEPPRESENTER。
Q3:這個系統現在可以直接用嗎?
A:目前DEEPPRESENTER以學術研究框架的形式發布,項目代碼在GitHub上開源(https://github.com/icip-cas/PPTAgent),有技術背景的用戶可以嘗試部署,但尚未以成品應用的形式面向普通用戶。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.