![]()
編輯|SIA
你負(fù)責(zé)寫方法,AI負(fù)責(zé)畫 Figure。 科研打工人,終于等來「畫圖解放日」。
還在為論文里的方法框圖熬夜畫 PPT、拉箭頭、對齊字體嗎?
一張 Figure 2,動輒幾個小時,嚴(yán)重的甚至能耗上幾天,科研人的「隱藏副本」不是實(shí)驗(yàn),而是畫圖。
既要忠于論文原意,又得暗暗符合頂會那套心照不宣的「學(xué)術(shù)審美」:顏色不能土,布局不能亂,箭頭更不能連錯。
看起來只是一張圖,實(shí)際上是美學(xué)、邏輯和耐心的三重折磨。
那么,問題來了:現(xiàn)在的大模型已經(jīng)能寫論文、跑實(shí)驗(yàn)、改代碼,為什么偏偏搞不定這些學(xué)術(shù)插圖?有人可能會問:DALL·E、基礎(chǔ) VLM 不行嗎?
答案是:真不行。
它們畫出來的圖往往是:模塊和文字對不上、字體直接亂碼、箭頭邏輯錯誤。圖是「好看」,但不中用啊。
于是,一個狠角色出現(xiàn)了:PaperBanana
來自北大 + Google Cloud AI Research 的團(tuán)隊(duì),目標(biāo)很簡單也很狂:你寫方法,AI 畫 Figure,水準(zhǔn)呢?直接投頂會的那種。
科研打工人,終于等到了「畫圖解放日」。
![]()
![]()
![]()
![]()
來看效果成色。
PaperBanana 展示了解決兩類學(xué)術(shù)插圖的能力:
第一類,是論文方法流程圖與模型結(jié)構(gòu)示意圖,用來說明算法如何運(yùn)作(左);第二類,是統(tǒng)計(jì)圖表,用來表達(dá)實(shí)驗(yàn)結(jié)果與數(shù)據(jù)對比(右邊)。
![]()
左邊是方法框圖(Methodology Diagrams),右邊是統(tǒng)計(jì)圖(Statistical Plots)
與以往「只會畫圖像」的生成模型不同,PaperBanana 強(qiáng)調(diào)兩點(diǎn):不是只要「畫得好看」,而是必須「畫得正確」。
它要保證:模塊之間的邏輯關(guān)系不出錯、數(shù)據(jù)表達(dá)符合科研規(guī)范、圖可以直接服務(wù)論文敘事,而不是裝飾。
研究指出,PaperBanana 可以覆蓋多種常見學(xué)術(shù)插圖類型,包括方法流程圖、模型結(jié)構(gòu)示意圖、概念性框架圖,以及通過代碼驅(qū)動生成的高精度統(tǒng)計(jì)圖。
PaperBanana 不僅能從零生成,還能潤色你現(xiàn)有的丑圖。
給它一張草圖或初版框圖,它負(fù)責(zé)自動美化、重排布局、統(tǒng)一風(fēng)格,讓它更像頂會論文里的標(biāo)準(zhǔn)圖形
更直觀的對比——
左側(cè)是手工繪制的插圖,右側(cè)是 PaperBanana 風(fēng)格增強(qiáng)(Style Enhanced)后的版本。
![]()
這些示例覆蓋了多個典型科研場景,包括 Transformer 與不同 LayerNorm 變體的對比示意、工程流程與三維建模管線的系統(tǒng)框架,以及強(qiáng)化學(xué)習(xí)和表示學(xué)習(xí)中抽象幾何關(guān)系的表達(dá)。它們的共同特點(diǎn)在于邏輯復(fù)雜、元素密集,對人工排版提出了極高要求,也正是科研人員最容易在“畫圖”上消耗大量時間與精力的部分。
語義結(jié)構(gòu)上一致,但視覺呈現(xiàn),完全不同。
原始圖信息完整,卻給人一種「能看懂,但不好看」的感覺:布局略顯松散,配色偏向單一,不同模塊之間的層級關(guān)系也不夠清晰。
PaperBanana 潤色增后,圖中的邏輯被重新梳理進(jìn)一套更規(guī)范的視覺體系之中。
不同功能模塊通過顏色進(jìn)行區(qū)分,虛線和分區(qū)框用來強(qiáng)化層次結(jié)構(gòu),箭頭的走向也更加明確,整體觀感明顯更接近頂會論文中常見的標(biāo)準(zhǔn)范式。
再看下面的圖例,同一張圖對比,高低立判。
人類畫的圖,對,但不一定好看。
未經(jīng)調(diào)教的原始模型生成(Nano-Banana-Pro),畫出來但難讀。
PaperBanana 真正做到了「畫清楚、講明白」,也更符合頂會審美的論文級插圖:配色更現(xiàn)代統(tǒng)一,信息更精煉,模塊分區(qū)更清晰。
![]()
那么,它是如何做到這一點(diǎn)的?
PaperBanana「畫論文圖」變成了一條由多智能體協(xié)作完成的流水線。
系統(tǒng)先檢索參考范例,再規(guī)劃結(jié)構(gòu)化描述,并在審美規(guī)范約束下生成初稿;
隨后由視覺代理將文本描述轉(zhuǎn)化為圖像或代碼繪圖,評論代理不斷對照原始論文內(nèi)容進(jìn)行糾錯與打磨。
經(jīng)過多輪迭代后,輸出的不再是普通示意圖,而是一張同時滿足語義正確性與頂會審美標(biāo)準(zhǔn)的論文級插圖。
這不是簡單的作圖自動化,而是一種「科研表達(dá)方式」的自動規(guī)范化。
![]()
研究人員還順帶對比了兩種路線:直接讓模型「畫圖」VS 讓模型「寫代碼畫圖」。
結(jié)論很扎心:AI 直接畫出來的圖雖然精美,但經(jīng)常在數(shù)字上胡說八道。
目前最靠譜的方式還是:AI 寫繪圖代碼(基于 Gemini-3-Pro),再生成統(tǒng)計(jì)圖。
![]()
這只是開始。類似工具已經(jīng)開始出現(xiàn),比如:Claude Scientific Writer,集成論文寫作 + 插圖 + 圖表生成。
未來科研可能變成這樣:你不用再在 PPT 里對齊箭頭、調(diào)顏色、拖文本框到凌晨三點(diǎn),而是把更多時間留給真正重要的事情。
https://dwzhu-pku.github.io/PaperBanana/
https://github.com/K-Dense-AI/claude-scientific-writer
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.