![]()
新智元報道
編輯:定慧
【新智元導讀】谷歌Google DeepMind剛剛推出新能力,用代碼賦予Gemini 3 Flash「法眼」。
沒想到吧,Google DeepMind剛剛為Gemini 3 Flash推出了一個重量級新能力:Agentic Vision(智能體視覺)。(難道是被DeepSeek-OCR2給刺激到了?)
可以看到,這項技術徹底改變了大語言模型理解世界的方式:
從過去的「猜」變成了如今的「深度調查」。
![]()
該能力由Google DeepMind團隊推出,核心產品經理Rohan Doshi表示,傳統的AI模型在處理圖片時,往往只是靜態地看一眼。
如果圖片里的細節太小,比如微處理芯片上的序列號或者遠處模糊的路牌,模型往往只能靠「猜」。
而Agentic Vision引入了一個「思考-行動-觀察」(Think-Act-Observe)的閉環:
模型不再是被動接收像素,而是會根據用戶的需求,主動編寫Python代碼來操縱圖像。
![]()
這一能力直接讓Gemini 3 Flash在各類視覺基準測試中實現了5%到10%的性能跨越。
![]()
Agentic Vision:智能體視覺新前沿
DeepMind探索的方法概括起來就是:利用代碼執行作為視覺推理的工具,將被動的視覺理解轉化為主動的智能體過程。
什么意思呢?我們知道,目前的SOTA模型通常是一次性處理圖像。
但Agentic Vision引入了一個循環:
1.思考(Think):模型分析用戶查詢和初始圖像,制定多步計劃。
2.行動(Act):模型生成并執行Python代碼來主動操縱圖像(如裁剪、旋轉、標注)或分析圖像(如運行計算、計數邊界框等)。
3.觀察(Observe):變換后的圖像被追加到模型的上下文窗口中。這允許模型在生成最終響應之前,以更好的上下文檢查新數據。
![]()
Agentic Vision實戰
通過在API中啟用代碼執行,開發者可以解鎖許多新行為。
Google AI Studio中的演示應用已經展示了這一點。
1. 縮放與檢查(Zooming and inspecting)
Gemini 3 Flash被訓練為在檢測到細粒度細節時進行隱式縮放。
PlanCheckSolver.com是一個AI驅動的建筑計劃驗證平臺,通過啟用Gemini 3 Flash的代碼執行功能來迭代檢查高分辨率輸入,將準確率提高了5%。
后臺日志視頻展示了這個智能體過程:Gemini 3 Flash生成Python代碼來裁剪和分析特定的補丁(例如屋頂邊緣或建筑部分)作為新圖像。
通過將這些裁剪圖追加回其上下文窗口,模型在視覺上確立其推理,以確認是否符合復雜的建筑規范。
![]()
2. 圖像標注(Image annotation)
Agentic Vision允許模型通過標注圖像與環境交互。
Gemini 3 Flash不僅僅是描述它看到的內容,還可以執行代碼直接在畫布上繪制以確立其推理。
在下面的例子中,模型被要求數Gemini應用中一只手上的數字。
為了避免計數錯誤,它使用Python在它識別的每個手指上繪制邊界框和數字標簽。
這種「視覺草稿紙」確保其最終答案是基于像素級的完美理解。
![]()
3. 視覺數學與繪圖(Visual math and plotting)
Agentic Vision可以解析高密度表格并執行Python代碼來可視化發現。
標準LLM在多步視覺算術中經常產生幻覺。
Gemini 3 Flash通過將計算放到到確定性的Python環境中來繞過這個問題。
在Google AI Studio的演示應用示例中,模型識別原始數據,編寫代碼將之前的SOTA歸一化為1.0,并生成專業的Matplotlib條形圖。這用可驗證的執行取代了概率性猜測。
![]()
如何上手
Agentic Vision今天已通過Google AI Studio和Vertex AI中的Gemini API提供。
它也開始在Gemini應用中推出(通過從模型下拉菜單中選擇Thinking訪問)。
![]()
以下是一個簡單的Python代碼示例,展示了如何調用這一能力:
print(response.text)未來展望
Google表示,Agentic Vision才剛剛開始。
目前,Gemini 3 Flash擅長隱式決定何時放大微小細節。雖然其他功能(如旋轉圖像或執行視覺數學)目前需要顯式的提示引導來觸發,但Google正在努力在未來的更新中使這些行為完全隱式化。
此外,Google還在探索如何為Gemini模型通過更多工具(包括網絡和反向圖像搜索)來進一步確立其對世界的理解,并計劃將此功能擴展到Flash以外的其他模型尺寸。
彩蛋:難道是因為DeepSeek?
這就很有意思了。
DeepSeek前腳剛開源了堪稱「OCR 2.0」的DeepSeek-OCR,谷歌后腳就發布了Gemini 3的Agentic Vision。
這真的是巧合嗎?
我們不妨大膽猜測,谷歌這次的「深夜炸場」,極有可能是被DeepSeek逼出來的。
理由有三:
1.時間點的驚人巧合
1月27日,DeepSeek剛剛發布了DeepSeek-OCR2,搭載核心黑科技DeepEncoder V2。它拋棄了傳統的機械掃描,讓AI學會了像人類一樣「按邏輯順序閱讀」,僅用幾百個Token就實現了對復雜排版和圖表的完美理解。
谷歌同一天立馬拿出Agentic Vision,仿佛在這場「視覺軍備競賽」中隔空喊話:「你們讓AI看懂邏輯,我們直接讓AI上手操作」。
2.技術路線的巔峰對決
DeepSeek-OCR2走的是「內功流」,通過DeepEncoder V2模擬人類的視覺注意力機制,動態重組圖像信息,把「看」這個動作做到了極致的輕量化和邏輯化。
而谷歌的Agentic Vision走的是「外設流」,也就是「不光要看清,還要能動手」。DeepSeek在教AI怎么「用心看」,谷歌在教AI怎么「用手算」。
3.爭奪視覺AI定義的終局
DeepSeek-OCR2證明了即便是3B的小模型,只要「視覺邏輯」對路,也能吊打大模型。谷歌則試圖用「代碼執行」來降維打擊:你視覺再好也是「看」,我能寫代碼驗證才是「真懂」。
這場仗,本質上是誰能重新定義「機器視覺」——是極致的感知,還是全能的交互?
不管是不是「應激反應」,這場神仙打架,最后爽的還是我們程序員。
參考資料:
https://blog.google/innovation-and-ai/technology/developers-tools/agentic-vision-gemini-3-flash/?linkId=43682412
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.