網易首頁 > 網易號 > 正文申請入駐

中科院把研究員和設計師都塞進了一個PPT AI系統

2026-03-10 22:35:05　來源: 至頂AI實驗室

北京舉報

分享至

你有沒有遇到過這種崩潰時刻：要匯報的PPT明天就要交，你折騰到半夜，一邊查資料一邊排版，做出來的東西還是字體不統一、排版亂七八糟，而整體風格呢，毫無美感可言。這種痛苦幾乎是打工人的共同記憶。PPT本身不難，難的是同時要做好兩件事：一是把內容研究透徹，二是把視覺設計做得好看。這兩件事單獨拿出來都要花不少時間，合在一起更是要命。

中科院軟件所的研究團隊注意到了這個問題，開發了一個叫做DEEPPRESENTER的AI系統，能夠自動完成從研究資料到生成精美演示文稿的全流程。更關鍵的是，這個系統有一個別的同類工具都不具備的能力：它會把自己生成的PPT"看一遍"，發現哪里不對勁，然后自己改掉。這就好像系統里住著一個會"挑剔自己作品"的設計師，而不是生成完就拍屁股走人。

PPT生成器為什么以前總是做出"電子垃圾"

要理解DEEPPRESENTER的厲害之處，我們得先聊聊它的前輩們為什么不好用。

想象一下，你雇了一個秘書幫你做PPT，但這個秘書的工作方式是這樣的：他事先背好了幾套固定的PPT模板，然后不管你給他什么主題，他都往模板里塞文字。做完之后，他不會去翻開PPT看實際效果如何，而是假設"我打完字了，應該就沒問題了吧"。

這就是以前大多數AI生成工具的工作方式。它們依賴預設好的模板，按照固定流程填充內容，生成完就結束。具體來說，有兩個核心問題讓這些工具做出來的東西差強人意。

第一個問題是"內容浮于表面"。這些工具大多不會主動去查資料，只能把用戶提供的文字重新排布一下。如果你讓它做一個關于"注意力機制"的AI入門科普PPT，它不會去讀論文、找圖片、整理關鍵信息，而是把你隨手給它的幾句話拆開塞進不同的幻燈片里。結果自然是內容單薄，看著像是初中生做的報告。

第二個問題更隱蔽，叫做"只在腦子里自檢，不用眼睛看結果"。以前的AI工具在檢查自己的輸出時，只能分析自己生成的代碼或者文字，也就是"中間狀態"，而不是用戶真正看到的那個渲染出來的畫面。打個比方，這就像一個畫家畫完一幅畫，評價好壞時不是看實際畫布，而是去回想自己用了哪幾種顏色、畫了幾筆，這能判斷出"文字溢出邊框"或者"兩個元素疊在一起"嗎？顯然不行。結果就是，AI覺得自己生成的代碼沒問題，但渲染出來的PPT里文字擠成一團、背景和字色太接近根本看不清、圖片路徑寫錯了顯示一片空白，這些毛病它全部發現不了。

DEEPPRESENTER要解決的，正是這兩個根本問題。

一個研究員、一個設計師，外加一雙會"看PPT"的眼睛

DEEPPRESENTER的核心設計思路是把做PPT這件事拆給兩個專門的AI"角色"來完成，同時給它們配備了一個關鍵工具，能真正"看到"PPT渲染效果的檢查能力。

先說第一個角色，叫做"研究員"（Researcher）。這個AI的職責是在你提出需求之后，主動去搜索、閱讀和整理相關資料。如果你說"我要做一個給初學者看的、關于Transformer模型的PPT"，研究員會真的去查相關論文，下載資料，生成配套圖表，整理成一份結構清晰的"講稿文檔"，就像你給演講者準備的那種提綱加素材的文檔，而不是直接上手畫幻燈片。

更聰明的地方在于，研究員的工作深度會根據主題自動調整。如果是技術性話題，它會去深挖相關研究；如果是面向普通大眾的科普，它會優先找通俗的例子和易懂的插圖。它不是按照一套死板的流程走，而是"理解了你的需求"之后靈活規劃自己的工作路徑。

第二個角色叫做"演示者"（Presenter）。它接過研究員準備好的講稿文檔，從零開始設計幻燈片。注意是從零開始，不是套模板，而是先給整個演示文稿定一個視覺主題：選配色、定字體、規劃布局風格。比如，如果主題是環保，可能會用綠色和大地色系；如果是學術匯報，會偏向簡潔的白底黑字風格。然后再逐頁生成幻燈片，把講稿內容轉化成視覺設計。

這兩個角色分工協作，通過一個共享的"工作臺"傳遞文件和信息，就像一個辦公室里研究員把報告遞給設計師，設計師再基于報告做出PPT。

但真正讓這套系統與眾不同的，是第三個關鍵設計：一個叫做inspect（檢查）的工具。

這個工具的工作原理很直接：把生成的幻燈片HTML文件放進一個"無頭瀏覽器"（就是沒有界面的瀏覽器），讓它真正渲染出圖片，然后把這張圖片"給AI看"。AI看完后，如果發現"這里的標題字太淺，跟背景幾乎融為一體"，或者"這一頁的圖片路徑錯了，顯示空白"，就會立刻記錄下來，計劃修改，然后真的去修改代碼。

這種"先看渲染結果，再反思，再修改"的循環，研究團隊稱之為"環境感知反思"（Environment-Grounded Reflection）。與之相對的，是以前那種只能"自言自語"反思自己代碼的"自我反思"方式。兩者的區別，就像你評價一道菜是"看著食譜說應該很好吃"，還是"真的先吃一口再說"。顯然后者要靠譜得多。

同樣，研究員那邊也有一個inspect工具，不過功能有所不同，它會檢查講稿文檔里有沒有圖片引用路徑寫錯、語言是否符合用戶要求、幻燈片數量有沒有滿足指定條件等。這樣整條流水線的每一個環節都有真實的觀察和糾錯能力，而不是盲目往前走。

訓練一個"會獨立工作的小模型"：讓AI教AI

DEEPPRESENTER用大型模型（比如谷歌的Gemini-3-Pro）跑得很好，但有一個現實問題：這些頂級大模型調用費用不便宜，每次生成PPT的成本在真實使用中會顯得有些高。研究團隊的思路是：能不能用一個小得多、便宜得多的模型，訓練它"學會"DEEPPRESENTER的工作方式，讓它也能有樣學樣地做出高質量的PPT？

于是他們開發了DeepPresenter-9B，一個參數量為90億的專用小模型（相比之下，頂級大模型的參數量往往是其幾十倍甚至更多）。訓練這個小模型的過程，有點像培養一個新手設計師的方式，給他看大量"優秀作品的完整制作過程"，讓他學習每一步的思路和操作。

這些"制作過程"叫做"軌跡"（trajectory），每一條軌跡記錄了從接到任務到完成PPT的所有中間步驟：查了什么資料、寫了什么內容、生成了哪些幻燈片、發現了什么問題、做了什么修改。研究團隊用大模型跑了1024個不同主題的PPT任務，收集這些完整的工作軌跡，再拿來訓練小模型。

但這里有一個棘手的問題，研究團隊把它叫做"自我驗證偏見"。簡單說就是：同一個AI既當運動員又當裁判，容易出現"自我感覺良好"的錯覺。AI在生成PPT之后自己檢查，很可能會說"這一頁做得很棒！"，因為檢查這個動作和生成這個動作都來自同一套思維狀態，容易產生先入為主的判斷，對自己已經做出的東西保持莫名的信任。

為了解決這個問題，研究團隊引入了一個獨立的"外部批評者"（Extrinsic Verification）。每次AI用inspect工具看完自己生成的幻燈片之后，不是讓它自己寫反思，而是把渲染圖片單獨交給另一個獨立的AI來評審。這個獨立批評者和生成過程完全隔離，不知道之前發生了什么，只對著眼前的圖片做出評判：這里對比度太低，那里文字溢出，請改進。這個評判意見會被插入到訓練軌跡中，作為"正確的反思應該長什么樣"的示范。

打個比方，這就像一個學生寫完作文之后，不是自己改自己的文章，而是把作文交給另一個老師來批改，再把批改意見帶回來。這樣學到的"如何自我糾錯"的能力，會比自己看自己要可靠得多。

在這個獨立批評者的幫助下，研究團隊發現，同樣的300個訓練樣本，加入外部驗證的那組模型性能提升是沒有外部驗證組的1.67倍（平均分提升0.20對比0.12）。差距不算小，說明"獨立批評"這個機制確實有效地打破了AI的自我幻覺。

最終，1024個訓練任務跑完之后，經過三輪嚴格的質量篩選，先檢查有沒有滿足用戶指定的約束條件，再檢查AI有沒有真正按照批評意見去修改，最后再檢查最終PPT有沒有明顯的視覺缺陷，篩出了802條高質量軌跡，用來訓練DeepPresenter-9B。

數字會說話：它到底有多強？

研究團隊拿128個不同主題、不同格式要求的PPT生成任務做了測試，橫跨中英文、16:9寬屏和4:3標準比例、限定幻燈片數量和自由發揮等各種情形。評估維度有三個：內容質量（你說的話有沒有做到）、視覺風格（PPT好不好看）、約束滿足度（有沒有按用戶要求的幻燈片數、語言、比例來做）。

結果用平均分來看（滿分5分），DEEPPRESENTER用Gemini-3-Pro作為底層模型時，拿到了4.44分，超過了商業產品Gamma的4.36分，也把其他所有開源框架甩在了身后。其中最顯著的提升來自內容質量，因為研究員會自主搜集資料，內容豐富度遠超那些只能靠用戶自己提供材料的工具。

另一個有意思的指標叫做"多樣性分數"（Diversity Score），用來衡量同一個系統做出來的不同PPT之間長得有多不一樣。這個指標滿分1分，那些依賴固定模板的工具普遍在0.17到0.35之間，而DEEPPRESENTER拿到了0.79，相當于"從零設計"帶來的風格自由度是"套模板"方式的兩倍多。就連商業產品Gamma也只有0.52，不如DEEPPRESENTER。

而那個"經濟實惠的小弟"DeepPresenter-9B，平均分達到了4.19，超過所有開源基線模型，基本和GPT-5打平（GPT-5在DEEPPRESENTER框架下是4.22），但使用成本要低得多。從"性價比"角度看，DeepPresenter-9B在同等成本下的表現遠優于其他競爭對手。

此外，研究團隊還做了專門的消融實驗，就是把系統的某個部件拆掉，看會發生什么。拆掉"環境感知反思"（讓AI無法真正看到渲染后的PPT）之后，Gemini版本的平均分從4.44跌到4.32，小模型版本從4.19跌到3.82，跌幅更為明顯。拆掉"雙智能體分工"（把研究員和演示者合并成一個）之后，小模型的平均分直接跌到3.23，說明這個分工設計是系統能維持高水準的重要基礎。

AI也會"犯錯的地方"：失敗案例告訴我們什么

研究團隊沒有只展示好的數據，他們也認真分析了系統在哪里會出問題。

在收集訓練軌跡的過程中，未能通過質量篩選的軌跡里，問題來自四個方向：最多的是"輸出質量不達標"，占43%，說明在自由發揮的生成模式下，保持穩定的高質量并不容易；其次是"環境運行問題"，占32.3%，主要是上下文窗口裝不下那么多內容（因為生成PPT的過程步驟很長，需要記住的中間狀態非常多），或者底層基礎設施出故障；剩下的是約束沒滿足（13.5%）和行為不一致（11.2%）。

這說明這類長步驟的AI工作流對穩定性要求很高，一旦中間哪個環節出了差錯，整條鏈可能就斷了。研究團隊坦承這是目前還沒有完全解決的挑戰。

另外，DEEPPRESENTER的"外部批評者"目前只在訓練階段用，真正跑起來生成PPT的時候并不使用，因為實時引入外部批評者會讓運行成本更高、速度更慢，而且有時候批評者提的意見和AI的實際修改方向對不上，反而帶來新的問題。研究團隊認為，如何在真實推理時也有效解決"自我驗證偏見"，是未來值得繼續研究的方向。

至頂AI實驗室洞見

DEEPPRESENTER做了一件聽起來簡單但以前沒人做好的事：讓AI在生成PPT的過程中，真的去"看"它自己做出來的東西長什么樣，而不是假裝看了。這個小小的改變，背后是對"AI如何自我糾錯"這件事的重新理解，你不能在腦子里想象一道菜好不好吃，你得先嘗一口。

對于普通人來說，這個系統最直接的意義是：你可以把一篇論文、一個主題、一個演講需求扔給它，然后去倒杯水，等回來就有一份真正認真做過的PPT，不是模板填充，是有調研、有設計、有自我檢查過的作品。當然，目前這套系統還不是可以直接下載使用的產品，更多是學術層面的框架和驗證。但隨著技術的成熟，這類工具走入普通辦公場景只是時間問題。

你會不會讓AI幫你把下一份重要的演示文稿做好？如果AI真的能做到"看著改、改完再看"，你還會坐在電腦前熬夜調字號嗎？

論文地址：https://arxiv.org/abs/2602.22839v1

END本文來自至頂AI實驗室，一個專注于探索生成式AI前沿技術及其應用的實驗室。致力于推動生成式AI在各個領域的創新與突破，挖掘其潛在的應用場景，為企業和個人提供切實可行的解決方案。

Q&A

Q1：DEEPPRESENTER和普通的AI生成PPT工具有什么不同？

A：最大的不同在于兩點：一是它有專門的"研究員"會主動搜集資料，而不是只靠用戶提供內容；二是它會把生成的幻燈片真正渲染成圖片"看一遍"，發現視覺問題后自己修改，而不是生成完就結束。

Q2：DeepPresenter-9B是什么，和主系統有什么關系？

A：DeepPresenter-9B是研究團隊基于DEEPPRESENTER框架訓練出來的一個小型專用模型，參數量約90億，運行成本遠低于GPT-5等大模型，但在PPT生成質量上接近甚至超過了大部分開源競爭對手，是"經濟實惠版"的DEEPPRESENTER。

Q3：這個系統現在可以直接用嗎？

A：目前DEEPPRESENTER以學術研究框架的形式發布，項目代碼在GitHub上開源（https://github.com/icip-cas/PPTAgent），有技術背景的用戶可以嘗試部署，但尚未以成品應用的形式面向普通用戶。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.