![]()
新智元報道
編輯:LRST
【新智元導讀】華東師范大學Planing Lab提出APEX框架,通過自然語言指令實現學術海報的局部可控編輯,并引入「審查—調整」機制提升編輯可靠性。
學術海報是科研成果展示的重要形式,但在有限版面內完成高密度內容組織與美觀排版,往往需要研究人員投入大量時間與精力。
近年來,Paper2Poster、PosterGen 等工作嘗試通過多智能體框架自動生成學術海報初稿,但生成結果普遍存在排版僵硬、風格單一的問題,與人工精修海報仍有明顯差距。
不僅如此,這些方法缺乏在初稿基礎上進行交互式修改的能力,當用戶不滿意時,往往仍需大量人工手動修改。
針對這一痛點,華東師范大學Planing Lab提出APEX(Academic Poster Editing Agentic Expert),這是首個面向交互式學術海報編輯的Agent框架。
APEX能夠根據用戶的自然語言指令,對現有學術海報進行局部、可控的自動修改,真正實現「一句話編輯學術海報」。
為應對學術海報中圖文元素密集、結構復雜的特點,APEX通過操縱預定義的一套涵蓋「單元素操作」到「組操作」的多層級API來增量式編輯學術海報。
此外,其引入「審查—調整(Review-and-Adjustment)」機制,在首次編輯完成后對比編輯前后的視覺與語義變化,檢查是否存在與指令不一致或不必要的修改,并進行二次修正,從而顯著提升編輯結果的可靠性。
為模擬真實編輯場景并系統評估學術海報自動編輯能力,團隊通過參考導向與無參考優化兩種方式構建了首個學術海報編輯基準測試APEX-Bench,該基準覆蓋 59 篇 ICLR、ICML、NeurIPS 頂級會議論文,對應514條具有4種難度梯度的編輯指令,涵蓋文本內容修改、風格調整、圖像編輯與布局重構等多種操作類型。
![]()
論文鏈接:https://arxiv.org/abs/2601.04794
代碼倉庫:https://github.com/Breesiu/APEX
實驗結果表明,綜合指令遵循度、修改范圍控制度以及視覺一致性這三種關鍵指標,APEX 顯著優于「重繪式」方法和通用PPT Agent方法,能夠在嚴格執行用戶指令的同時,最大限度避免對無關區域的誤改。
為什么現在的AI改不好海報?
學術海報是科研成果展示的核心窗口,其要求在有限的空間內進行高密度的論文信息排版。
近年來的大模型自動化工具(Paper2Poster,PosterGen等)雖然能生成學術海報,但不能在海報初稿的基礎上根據用戶的指令進行二次修改。而圍繞學術海報編輯的現有解決方案也各有不足:
重繪式方法(Regeneration-based)存在「嚴重幻覺」問題
「重繪」式方法指的是將原海報、相關論文和修改指令一起輸入給多模態大模型(如Gemini3-pro, Gemini-3-Pro-Image-Preview (Banana pro)),讓模型重新生成一張海報圖像或XML文件(pptx)。
其中使用Banana pro重新生成海報這種時下熱門的方法存在嚴重的視覺幻覺,端到端的圖像生成較不穩定,常常會亂改海報中已有元素。特別是在處理學術圖表時,模型容易模糊、扭曲圖表中的內容,導致數據不可讀甚至含義錯誤,且難以保證海報其余部分的忠實度。
![]()
Banana Pro的幻覺問題
而生成XML的方式也存在較嚴重幻覺問題,其很難在編輯過程中保留原始海報的所有內容。
通用PPT Agent存在「領域水土不服」問題
通用的幻燈片編輯Agent雖然能操作pptx文件,但缺乏對學術論文結構的深層理解,且難以處理海報中高密度的圖文排版。
APEX方法框架
為了解決上述問題,APEX執行多層級的API序列來增量式編輯學術海報,并引入「審查-調整」機制調整初次編輯的結果,提高編輯的準確度。
![]()
APEX學術海報編輯架構圖
1. 語義解析與元素序列化
系統首先利用python-pptx庫將原始海報的pptx文件解析為結構化的JSON數據,提取出所有元素的ID、位置和屬性,為精準控制提供數據基礎。
2. 規劃與執行(Planner-and-Execution)
論文理解工具:當指令涉及內容補充(如「插入消融實驗的表格」)時,Agent會調用論文理解工具從原論文PDF中提取真實數據,杜絕內容造假。
多層級API設計:APEX沒有依賴不穩定的代碼生成,而是預定義了一套涵蓋「單元素操作」到「組操作」的多層級API(如move_group移動章節,text_format_brush同時修改文本的多個屬性)。系統根據輸入的JSON數據、海報圖像、用戶指令以及所需的論文內容,生成API序列來編輯學術海報對應的pptx文件。
這是系統的「質檢」部分。在初次編輯后,多模態Agent會對比編輯前后效果,不僅檢查系統是否進行了冗余的編輯操作,還會核實海報中修改的部分是否與用戶的指令一致。
如果發現排版重疊或內容錯誤,系統會自動生成額外的API序列進行二次修正,極大緩解了初次編輯效果不佳的問題。
APEX-Bench
首個學術海報編輯基準
![]()
APEX-Bench構建流程
為了系統評估編輯能力,團隊構建了APEX-Bench,包含59篇頂級AI會議(ICLR, ICML, NeurIPS)論文對應的514條編輯指令。
數據源與PosterGen:為模擬學術論文合成與編輯全流程自動化場景,數據集中的海報統一使用PosterGen這一兼具良好美學設計與內容組織的自動學術海報生成框架合成。
構建策略:采用「模型輔助,人工精修」。其中「模型輔助」的具體策略如下所示:
參考導向(Reference-guided):大模型對比PosterGen生成的AI初稿與人類作者的終稿,根據差異生成編輯指令。
無參考優化(Reference-free):大模型從美學和內容等角度出發,自主提出優化建議。
多維分類:涵蓋了文本內容修改、文本風格調整、圖像調整、布局重構等多種操作,并按難度分為四個等級,且包含了大量依賴論文上下文(Paper-related)的編輯指令。
評價指標:為了全面自動化評估編輯質量,團隊采用了多模態大模型裁判(VLM-as-a-judge)進行評估。評估維度如下:
指令遵循度(Instruction Fulfillment):衡量系統是否準確地執行了用戶的具體要求。
修改范圍控制度(Modification Scope):評估系統是否引入了不必要的、未請求的修改(即是否對無關區域產生非預期修改)。
視覺一致性(Visual Consistency):在前兩個指標得分較高的情況下,評估修改后的元素是否與原海報的整體設計(布局、風格)保持和諧統一
實驗結果
![]()
各方法性能及成本比較
團隊在APEX-Bench上進行了廣泛評測。實驗對比了圖像生成(Direct Image Generation)、XML生成(XML Generation)、基于python腳本的直接編輯(Direct Script-based Editing)、通用PPT Agent的方法(PPTC、Talk-to-Your-Slides)以及我們提出的APEX方法。
結果顯示:在指令遵循度(I.F.)和視覺一致性(V.C.)上,APEX得分最高且大幅領先其他方法,說明其能較好地執行用戶指令并保持編輯后海報的視覺一致性。此外,其在修改范圍控制度(M.S.)的良好表現可以說明,該方法有效避免了重繪式方法常見的幻覺問題,極少改變與用戶指令無關的元素。
總結
APEX通過多層級API和「審查-調整」機制,有效填補了學術海報自動編輯的領域空白,解決了學術海報編輯中「重繪導致幻覺」和「通用PPT Agent不懂學術海報的復雜結構」的雙重難題,為科研人員提供了一個可靠的學術海報自動編輯助手。
參考資料:
https://arxiv.org/abs/2601.04794
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.