網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

谷歌做了個論文專用版nano banana！頂會級Figure直出

2026-02-05 15:52:42　來源: 機(jī)器之心Pro

北京舉報

分享至

編輯｜SIA

你負(fù)責(zé)寫方法，AI負(fù)責(zé)畫 Figure。科研打工人，終于等來「畫圖解放日」。

還在為論文里的方法框圖熬夜畫 PPT、拉箭頭、對齊字體嗎？

一張 Figure 2，動輒幾個小時，嚴(yán)重的甚至能耗上幾天，科研人的「隱藏副本」不是實(shí)驗(yàn)，而是畫圖。

既要忠于論文原意，又得暗暗符合頂會那套心照不宣的「學(xué)術(shù)審美」：顏色不能土，布局不能亂，箭頭更不能連錯。

看起來只是一張圖，實(shí)際上是美學(xué)、邏輯和耐心的三重折磨。

那么，問題來了：現(xiàn)在的大模型已經(jīng)能寫論文、跑實(shí)驗(yàn)、改代碼，為什么偏偏搞不定這些學(xué)術(shù)插圖？有人可能會問：DALL·E、基礎(chǔ) VLM 不行嗎？

答案是：真不行。

它們畫出來的圖往往是：模塊和文字對不上、字體直接亂碼、箭頭邏輯錯誤。圖是「好看」，但不中用啊。

于是，一個狠角色出現(xiàn)了：PaperBanana

來自北大 + Google Cloud AI Research 的團(tuán)隊(duì)，目標(biāo)很簡單也很狂：你寫方法，AI 畫 Figure，水準(zhǔn)呢？直接投頂會的那種。

科研打工人，終于等到了「畫圖解放日」。

來看效果成色。

PaperBanana 展示了解決兩類學(xué)術(shù)插圖的能力：

第一類，是論文方法流程圖與模型結(jié)構(gòu)示意圖，用來說明算法如何運(yùn)作（左）；第二類，是統(tǒng)計(jì)圖表，用來表達(dá)實(shí)驗(yàn)結(jié)果與數(shù)據(jù)對比（右邊）。

左邊是方法框圖（Methodology Diagrams），右邊是統(tǒng)計(jì)圖（Statistical Plots）

與以往「只會畫圖像」的生成模型不同，PaperBanana 強(qiáng)調(diào)兩點(diǎn)：不是只要「畫得好看」，而是必須「畫得正確」。

它要保證：模塊之間的邏輯關(guān)系不出錯、數(shù)據(jù)表達(dá)符合科研規(guī)范、圖可以直接服務(wù)論文敘事，而不是裝飾。

研究指出，PaperBanana 可以覆蓋多種常見學(xué)術(shù)插圖類型，包括方法流程圖、模型結(jié)構(gòu)示意圖、概念性框架圖，以及通過代碼驅(qū)動生成的高精度統(tǒng)計(jì)圖。

PaperBanana 不僅能從零生成，還能潤色你現(xiàn)有的丑圖。

給它一張草圖或初版框圖，它負(fù)責(zé)自動美化、重排布局、統(tǒng)一風(fēng)格，讓它更像頂會論文里的標(biāo)準(zhǔn)圖形

更直觀的對比——

左側(cè)是手工繪制的插圖，右側(cè)是 PaperBanana 風(fēng)格增強(qiáng)（Style Enhanced）后的版本。

這些示例覆蓋了多個典型科研場景，包括 Transformer 與不同 LayerNorm 變體的對比示意、工程流程與三維建模管線的系統(tǒng)框架，以及強(qiáng)化學(xué)習(xí)和表示學(xué)習(xí)中抽象幾何關(guān)系的表達(dá)。它們的共同特點(diǎn)在于邏輯復(fù)雜、元素密集，對人工排版提出了極高要求，也正是科研人員最容易在“畫圖”上消耗大量時間與精力的部分。

語義結(jié)構(gòu)上一致，但視覺呈現(xiàn)，完全不同。

原始圖信息完整，卻給人一種「能看懂，但不好看」的感覺：布局略顯松散，配色偏向單一，不同模塊之間的層級關(guān)系也不夠清晰。

PaperBanana 潤色增后，圖中的邏輯被重新梳理進(jìn)一套更規(guī)范的視覺體系之中。

不同功能模塊通過顏色進(jìn)行區(qū)分，虛線和分區(qū)框用來強(qiáng)化層次結(jié)構(gòu)，箭頭的走向也更加明確，整體觀感明顯更接近頂會論文中常見的標(biāo)準(zhǔn)范式。

再看下面的圖例，同一張圖對比，高低立判。

人類畫的圖，對，但不一定好看。

未經(jīng)調(diào)教的原始模型生成（Nano-Banana-Pro），畫出來但難讀。

PaperBanana 真正做到了「畫清楚、講明白」，也更符合頂會審美的論文級插圖：配色更現(xiàn)代統(tǒng)一，信息更精煉，模塊分區(qū)更清晰。

那么，它是如何做到這一點(diǎn)的？

PaperBanana「畫論文圖」變成了一條由多智能體協(xié)作完成的流水線。

系統(tǒng)先檢索參考范例，再規(guī)劃結(jié)構(gòu)化描述，并在審美規(guī)范約束下生成初稿；

隨后由視覺代理將文本描述轉(zhuǎn)化為圖像或代碼繪圖，評論代理不斷對照原始論文內(nèi)容進(jìn)行糾錯與打磨。

經(jīng)過多輪迭代后，輸出的不再是普通示意圖，而是一張同時滿足語義正確性與頂會審美標(biāo)準(zhǔn)的論文級插圖。

這不是簡單的作圖自動化，而是一種「科研表達(dá)方式」的自動規(guī)范化。

研究人員還順帶對比了兩種路線：直接讓模型「畫圖」VS 讓模型「寫代碼畫圖」。

結(jié)論很扎心：AI 直接畫出來的圖雖然精美，但經(jīng)常在數(shù)字上胡說八道。

目前最靠譜的方式還是：AI 寫繪圖代碼（基于 Gemini-3-Pro），再生成統(tǒng)計(jì)圖。

這只是開始。類似工具已經(jīng)開始出現(xiàn)，比如：Claude Scientific Writer，集成論文寫作 + 插圖 + 圖表生成。

未來科研可能變成這樣：你不用再在 PPT 里對齊箭頭、調(diào)顏色、拖文本框到凌晨三點(diǎn)，而是把更多時間留給真正重要的事情。

https://dwzhu-pku.github.io/PaperBanana/

https://github.com/K-Dense-AI/claude-scientific-writer

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.