![]()
編輯|SIA
你負責寫方法,AI負責畫 Figure。 科研打工人,終于等來「畫圖解放日」。
還在為論文里的方法框圖熬夜畫 PPT、拉箭頭、對齊字體嗎?
一張 Figure 2,動輒幾個小時,嚴重的甚至能耗上幾天,科研人的「隱藏副本」不是實驗,而是畫圖。
既要忠于論文原意,又得暗暗符合頂會那套心照不宣的「學術審美」:顏色不能土,布局不能亂,箭頭更不能連錯。
看起來只是一張圖,實際上是美學、邏輯和耐心的三重折磨。
那么,問題來了:現在的大模型已經能寫論文、跑實驗、改代碼,為什么偏偏搞不定這些學術插圖?有人可能會問:DALL·E、基礎 VLM 不行嗎?
答案是:真不行。
它們畫出來的圖往往是:模塊和文字對不上、字體直接亂碼、箭頭邏輯錯誤。圖是「好看」,但不中用啊。
于是,一個狠角色出現了:PaperBanana
來自北大 + Google Cloud AI Research 的團隊,目標很簡單也很狂:你寫方法,AI 畫 Figure,水準呢?直接投頂會的那種。
科研打工人,終于等到了「畫圖解放日」。
![]()
![]()
![]()
![]()
來看效果成色。
PaperBanana 展示了解決兩類學術插圖的能力:
第一類,是論文方法流程圖與模型結構示意圖,用來說明算法如何運作(左);第二類,是統計圖表,用來表達實驗結果與數據對比(右邊)。
![]()
左邊是方法框圖(Methodology Diagrams),右邊是統計圖(Statistical Plots)
與以往「只會畫圖像」的生成模型不同,PaperBanana 強調兩點:不是只要「畫得好看」,而是必須「畫得正確」。
它要保證:模塊之間的邏輯關系不出錯、數據表達符合科研規范、圖可以直接服務論文敘事,而不是裝飾。
研究指出,PaperBanana 可以覆蓋多種常見學術插圖類型,包括方法流程圖、模型結構示意圖、概念性框架圖,以及通過代碼驅動生成的高精度統計圖。
PaperBanana 不僅能從零生成,還能潤色你現有的丑圖。
給它一張草圖或初版框圖,它負責自動美化、重排布局、統一風格,讓它更像頂會論文里的標準圖形
更直觀的對比——
左側是手工繪制的插圖,右側是 PaperBanana 風格增強(Style Enhanced)后的版本。
![]()
這些示例覆蓋了多個典型科研場景,包括 Transformer 與不同 LayerNorm 變體的對比示意、工程流程與三維建模管線的系統框架,以及強化學習和表示學習中抽象幾何關系的表達。它們的共同特點在于邏輯復雜、元素密集,對人工排版提出了極高要求,也正是科研人員最容易在“畫圖”上消耗大量時間與精力的部分。
語義結構上一致,但視覺呈現,完全不同。
原始圖信息完整,卻給人一種「能看懂,但不好看」的感覺:布局略顯松散,配色偏向單一,不同模塊之間的層級關系也不夠清晰。
PaperBanana 潤色增后,圖中的邏輯被重新梳理進一套更規范的視覺體系之中。
不同功能模塊通過顏色進行區分,虛線和分區框用來強化層次結構,箭頭的走向也更加明確,整體觀感明顯更接近頂會論文中常見的標準范式。
再看下面的圖例,同一張圖對比,高低立判。
人類畫的圖,對,但不一定好看。
未經調教的原始模型生成(Nano-Banana-Pro),畫出來但難讀。
PaperBanana 真正做到了「畫清楚、講明白」,也更符合頂會審美的論文級插圖:配色更現代統一,信息更精煉,模塊分區更清晰。
![]()
那么,它是如何做到這一點的?
PaperBanana「畫論文圖」變成了一條由多智能體協作完成的流水線。
系統先檢索參考范例,再規劃結構化描述,并在審美規范約束下生成初稿;
隨后由視覺代理將文本描述轉化為圖像或代碼繪圖,評論代理不斷對照原始論文內容進行糾錯與打磨。
經過多輪迭代后,輸出的不再是普通示意圖,而是一張同時滿足語義正確性與頂會審美標準的論文級插圖。
這不是簡單的作圖自動化,而是一種「科研表達方式」的自動規范化。
![]()
研究人員還順帶對比了兩種路線:直接讓模型「畫圖」VS 讓模型「寫代碼畫圖」。
結論很扎心:AI 直接畫出來的圖雖然精美,但經常在數字上胡說八道。
目前最靠譜的方式還是:AI 寫繪圖代碼(基于 Gemini-3-Pro),再生成統計圖。
![]()
這只是開始。類似工具已經開始出現,比如:Claude Scientific Writer,集成論文寫作 + 插圖 + 圖表生成。
未來科研可能變成這樣:你不用再在 PPT 里對齊箭頭、調顏色、拖文本框到凌晨三點,而是把更多時間留給真正重要的事情。
https://dwzhu-pku.github.io/PaperBanana/
https://github.com/K-Dense-AI/claude-scientific-writer
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.