![]()
新智元報道
編輯:傾傾
【新智元導讀】科研人的深夜噩夢,終于有人來終結了!剛剛,北大聯合Google CloudAI發布PaperBanana,直接把論文配圖變成了全自動流水線。5個智能體組團干活,生成的架構圖對標NeurIPS頂會標準。以后寫論文,你只管敲字,畫圖這事兒,AI包了。
你有沒有過這樣的經歷:論文寫好了,但架構圖卻讓你焦頭爛額。
不是配色太土,就是線歪了,要么就是模塊大小不協調,簡直比寫論文還要難。
別擔心,有這樣焦慮的人不止你一個!數據顯示,科研人員有45%的時間被浪費在了這種低級的繪圖調整上。
但就在今天,科研狗的繪圖之神——PaperBanana出現了。
![]()
5個智能體
治好了AI的「視覺精神病」
無論是Midjourney還是DALL-E3,在畫科研圖表時都像個人工智障。
讓GPT-Image-1.5直接讀取論文畫圖,它的綜合得分只有11.5分(滿分100)。
在「忠實度」這一項,甚至只有4.5分。
![]()
它畫出來的圖,看起來像那么回事,但該連的線連不上,該有的模塊給你瞎編。
PaperBanana敏銳地發現,既然單個模型會產生幻覺,那我一次性調用5個Agent協同工作,總不能5個一起產生幻覺吧。
![]()
1. Retriever(檢索):RAG的抄作業美學
拿到任務后,Retriever直接發動RAG技能,去頂會數據庫里打撈10張最相關的參考圖。
2. Planner(策劃師):把人話翻譯成「藍圖」
這是系統的「認知核心」。
它負責死磕論文里最晦澀的Methodology,把那些文字邏輯硬拆解成視覺藍圖。
搞清楚誰連誰,誰包含誰,絕不讓邏輯拓撲亂成一鍋粥。
3. Stylist(風格智能體):拿捏NeurIPS的「高級感」
為了解決「圖Low」的問題,Stylist會生成一份名為Aesthetic Guideline的最高優先級指令。
該指令會強制把Planner的指令修正為符合頂會標準,想用Excel默認藍?門都沒有!
4. Visualizer&Critic(閉環核心):3輪循環,甲方煉獄
PaperBanana能夠拿到60.2分的關鍵,秘密,全在這倆貨的互撕上:
Visualizer:調用Nano Banana Pro,渲染圖片。
Critic:這是整個架構的靈魂——專業找茬。
Critic會拿著原論文跟圖比對,一旦發現連線錯了、模塊少了,直接生成修正指令,打回去重畫。這個過程會暴力循環3次。
![]()
PaperBanana官方論文中的失敗案例
數據顯示,正是這3輪迭代,將圖表的忠實度從不可用的4.5提升到了45.8,在這一指標上直接逼近人類水平(50.0)。
審美降維打擊
AI總結的《NeurIPS 2025審美黑話》
在PaperBanana眼里,美感是一堆冷冰冰的參數。
Stylist Agent遍歷了NeurIPS 2025所有論文,搞了一次逆向工程,把審稿人潛意識里的視覺偏好扒了個底掉:
![]()
人類手繪原圖與StyleEnhanced(AI風格化后)的對比
AI發現,2025年的頂流審美是科技莫蘭迪色。
高飽和度的紅藍撞色(如Excel默認色),直接被定義為「業余」。
所以,正確方法是:背景要用Cream(#F5F5DC)或PaleBlue(#E6F3FF);功能模塊采用中等飽和度配色;高亮色僅限于報錯或最終結果。
![]()
審美增強案例。上邊是原始的粗糙框圖,下邊是AI根據Guidelines優化后的成品。
還有90%的人都會忽視的細節:混排(Font Mixing)。
系統標簽必須用無襯線體,顯得現代、干凈;凡是涉及數學公式的變量,必須強制切換為LaTeX風格襯線斜體。
這種字體的混排,是區分「草圖」和「出版級插圖」的關鍵信號。
PaperBanana甚至懂「圈層文化」
如果你寫的是Agent論文,Stylist會主動調用可愛風格的2D機器人圖標或對話氣泡,強調「交互感」;
如果是CV/3D論文,它會拒絕卡通元素,強調視錐、點云和熱力圖,配色偏向RGB通道邏輯;
要是純理論論文,則追求極致極簡。黑白灰為主,只保留一個高亮色給拓撲結構。
統計圖的「精準謀殺」
告別Matplotlib難度
為什么之前的AI總是畫不好統計圖?
因為,擴散模型是右腦思維的藝術家。它懂構圖,但它真的不識數。
如下圖所示,當讓模型直接「畫」一個雷達圖時,它生成了極具設計感的陰影和線條。但仔細一看——數據點0.4被畫到了0.8的刻度線上;甚至還憑空捏造了幾個重復的圖例標簽。
![]()
為了解決這個問題,PaperBanana做了一個天才般的架構切換。
當系統識別出你要畫的是BarChart或Heatmap時,它會瞬間收起畫筆,掏出鍵盤,從「美術生」切換為「程序員」。
Visualizer不再生成像素,而是直接生成Python Matplotlib代碼
Critic也不再看構圖,而是運行代碼,檢查報錯,比對數據。
這個邏輯繞過了圖像生成的隨機性,直接利用LLM強大的Coding能力。
以前為了調整一個坐標軸的傾斜角度,得去查半小時;現在,PaperBanana在后臺幾秒鐘內自己寫代碼、自己Debug、自己運行出圖。
對比數據非常直觀:
純圖像生成模式:好看,但瞎編。
代碼生成模式:精準,且完全可復現。
![]()
PaperBanana官方基準對比:Code模式(綠色)在忠實度和簡潔度碾壓純圖像生成(IMG,紅色),逼近人類水平
邏輯圖走藝術路線,數據圖走工程路線。這才是AI科學家該有的嚴謹。
全自動發表的最后一片拼圖
在此之前,Auto Figure等競品更多是將內容符號化,或者僅僅是簡單的圖表堆砌。
PaperBanana是第一個真正引入「設計思維」的智能體系統。
當AI開始理解「如何用布局引導讀者的視線」,從一個工具,變成一個擁有表達欲的共創者。
在PaperBanana Bench的測試中,AI在簡潔性上比現有基線模型提升了37.2%。
雖然論文的委婉地說是為了「民主化」高質量繪圖工具,但我們都懂:當技術的門檻降到0,原來的溢價就消失了。
北大與Google的野心很大。
他們不僅發了工具,還開源了PaperBanana Bench:292個涵蓋各領域的「地獄級」測試用例,擺明了是想做行業裁判。
雖然目前的版本生成的還是位圖,但作者也說了,下一步就是開發能操作Adobe Illustrator的GUI Agent。
等那個版本出來,設計師可能真的要關掉Photoshop去送外賣了。
工具進化的終極意義,從來不是為了讓我們變懶,而是為了讓大腦回歸純粹。
未來能活得滋潤的科研人,只有兩種:一種是極其硬核、能寫出AI無論如何也理解不了的頂級算法的大神;
另一種,是懂得指揮千軍萬馬的AI Agent,把自己的思想用最完美的視覺語言鋪陳在審稿人面前的「超級個體」。
別讓你的思想,死在畫不出的圖里。
參考資料:
https://PaperBanana.org/
https://arxiv.org/abs/2601.23265
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.