效果好到刷屏的Nano Banana,學術特供版熱乎出爐!
名字就是如此直觀——PaperBanana,給你每天都在頭痛的Paper用上Banana。(試圖押韻skr)
而且這一次是由谷歌北大強強聯手打造。
![]()
知道你想馬上看效果,別急,三個官方案例這就給大家搬上桌。
在相同輸入下,人類繪制、原版Nano Banana與PaperBanana生成的論文插圖對比如下:
綜合評估顯示,PaperBanana在美觀性、簡潔性與邏輯清晰度上均全面優于原版。
![]()
而且它還能直接優化人工繪制的插圖,瞅瞅右邊,是不是高級感一下就上去了。
![]()
此外,由于PaperBanana還提供代碼出圖功能 (即利用Gemini-3-Pro自動生成并執行Python可視化代碼出圖),所以它還能用來生成需要數值100%精準的各種圖表。
![]()
好好好,既能拿捏高級感,又不忘精準度,應該沒有學術人不愛吧~
![]()
論文作者表示,PaperBanana為全自動生成可用于出版的插圖鋪平了道路。
- 我們希望這個框架能成為連接復雜科學概念與高效視覺敘事的橋梁,賦能每一位研究者,用專業級的視覺語言清晰呈現其發現。
而在看到其效果之后,一眾網友也紛紛感嘆“學術插圖”這個老大難總算是要被攻克了。
想想以前的日子,真真是要落淚了~
- 研究人員花費4個小時在Figma中繪制一張圖,簡直令人難以置信。
![]()
那么,學術版PaperBanana是如何煉造的呢?
一個不夠,那就5個!
用一個模型生圖怎么夠,現在都是多智能體齊上陣了。
沒錯,PaperBanana背后就是5個分工明確的智能體在起作用。
- Retriever Agent(檢索智能體):從頂會論文庫中,找到與你要畫的圖領域、結構最相似的參考案例。
- Planner Agent(規劃智能體):把論文文字描述,轉化為包含所有模塊、邏輯的詳細繪圖說明書。
- Stylist Agent(風格智能體):總結學術審美規范,給說明書加上配色、排版等“美顏”標準。
- Visualizer Agent(可視化智能體):根據說明書,直接畫圖或寫代碼出圖,產出初稿。
- Critic Agent(批判智能體):檢查圖的對錯與美觀度,提出修改意見,循環迭代3輪優化。
下面這張圖清晰展示了它們的工作流程:
劃重點,連這張圖也是PaperBanana自己生成的。
![]()
論文作者表示,這一過程參考了人類制作論文插圖的流程。
以制作一個模型架構圖為例,通常研究人員會先去看看頂會里類似工作的圖是怎么畫的,找找靈感和規范。
這一步就對應了檢索智能體的工作。
然后就需要根據參考來規劃自己的圖該怎么畫,“我的方法有幾個關鍵模塊?”、“數據流和邏輯順序是怎樣的?”,在想清所有關鍵問題后,腦子里大概就有一幅架構藍圖了。
而到這一步還不是真正動筆的時候,因為還需要結合自己的圖以及之前看過的“頂會審美”標準,來給藍圖加點設計感。
有了這兩樣東西(藍圖+審美),現在就可以真正出圖了。
并且出完之后,研究人員往往還需要檢查一番,以確保出圖正確無誤。
![]()
怎么樣?是不是一環扣一環、且全都一一對應上了。
而在了解完PaperBanana的工作方式后,接下來的問題在于:
怎么評估PaperBanana的生圖效果?
實驗方法及結果
對此,團隊還專門構建了一個PaperBananaBench。該基準內容源自NeurIPS 2025——
他們從5275篇論文中隨機采樣2000篇,經過濾、人工校驗后,得到584個有效樣本,然后將其均分為292個測試樣本和292個參考樣本。
這292個參考樣本,每一個都提取了完整的(S, C, I)三元組:
- S(源上下文):描述方法的文本,如論文方法論章節;
- C(傳達意圖):圖的標題/說明,如“我們的框架概述”;
- I(參考圖像):論文中實際使用的、高質量的對應圖表。
參考樣本集構成了一個高質量的“學術插圖數據庫”,主要供檢索智能體進行查詢和匹配。
而與之對應的292個測試樣本,在評估時則僅提供S、C作為輸入。其對應的I作為隱藏的標準答案,不參與生成過程,僅用于最終的質量比對與評分。
準備到這里,接下來就是具體生成和評估了。
裁判方面,他們采用了“VLM-as-a-Judge”(大模型當裁判)的評估范式——
讓強大的視覺語言模型(如Gemini-3-Pro)作為評委,將PaperBanana生成的圖與測試集中隱藏的標準答案I進行逐項對比。
對比的維度主要有四個:忠實性、簡潔性、可讀性、美觀性。
若PaperBanana表現優于標準圖得100分,劣于得0分,持平得50分,最終計算總分。
而實驗結果表明,PaperBanana在所有維度上全面超越了傳統的單模型直接生成(Vanilla)等基線方法。
![]()
- 整體性能碾壓:總分相對基線提升了17.0%。其中,簡潔性提升最為顯著,高達37.2%,說明它生成的圖邏輯更干凈、重點更突出;可讀性(+12.9%)和美觀性(+6.6%)也有大幅領先。
- 獲得人類盲測認可:在匿名的人類盲測中,研究員有72.7%的情況認為PaperBanana生成的圖比基線模型更好。
- 統計圖表表現優異:在需要高精度的統計圖表任務中,PaperBanana的“代碼生成模式”在數值忠實性上與人類水平相當,而簡潔性和美觀性甚至略勝一籌。
![]()
這里需要說明,在生成圖表方面,PaperBanana有兩種模式:
一種是代碼生成模式(默認)。讓Gemini-3-Pro這類模型自動寫Python可視化代碼(如Matplotlib),再運行代碼出圖。優點是可以保證數值絕對準確,適合需要嚴格精度的場景。
另一種是直接生圖模式(可選方式)。跳過代碼,讓圖像生成模型直接根據文本描述生成圖表。優點是視覺效果更頂,但數值容易出現幻覺問題。
左圖直接生圖模式下,紅框圈選出來的就是一些錯誤問題,而右側的代碼生圖模式明顯無誤,但美觀度略遜。
![]()
最后的消融實驗證明,檢索參考、風格優化、批判迭代這三個環節缺一不可,它們共同保證了最終圖像的“準確”與“好看”。
不過也需要提醒,PaperBanana目前仍有一些局限性,比如它作為生圖還無法編輯,同時在很多細節忠實度方面仍比不上人類手工作業。
所以,更保險的做法或許是,讓它幫你優化以前繪制過的圖。
在下面這套“手圖蛻變”流程下,很多圖都能變得更美觀、更高級……當然也更容易入頂會的眼(doge)。
![]()
谷歌x北大聯手打造
最后介紹下PaperBanana背后的團隊。
一共7人,可以清晰分成兩撥——
一撥來自北大,主要提供NLP與多模態理解的學術根基;另一撥來自Google Cloud AI Research,負責多模態系統與工業化視角。
![]()
署名第一的Dawei Zhu(兼通訊作者),本碩博均就讀于北大,現為北大四年級博士生。
他重點研究長上下文建模和多模態數據,之前在微軟亞洲研究院實習過,目前是Google Cloud AI Research學生研究員,PaperBanana也是他在谷歌期間參與的項目。
![]()
借著北大這條線,另外兩位來自北大的分別是Xiyu Wei和Sujian Li(兼通訊作者)。
Sujian Li目前是北大計算機學院長聘副教授,也是Dawei Zhu的博導,主要研究自然語言處理、信息抽取等。
而Xiyu Wei可能還是學生,目前只能看到TA和Dawei Zhu合作過一篇關于拓展上下文的論文。
![]()
而其他幾位來自Google Cloud AI Research的分別是:
負責人Tomas Pfister、高級研究科學家Yale Song、研究科學家Rui Meng和Jinsung Yoon(兼通訊作者)。
截至目前,PaperBanana已在開源社區GitHub攬獲上千star,感興趣可以繼續關注。
![]()
項目主頁:
https://dwzhu-pku.github.io/PaperBanana/
論文:
https://arxiv.org/abs/2601.23265
GitHub地址:
https://github.com/dwzhu-pku/PaperBanana
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.