<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>

色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3

<pre id="2unsb"><strike id="2unsb"><input id="2unsb"></input></strike></pre>

<em id="2unsb"><rt id="2unsb"><noscript id="2unsb"></noscript></rt></em>

<blockquote id="2unsb"><p id="2unsb"></p></blockquote>

網易首頁

網易新聞
網易公開課
網易紅彩
網易嚴選
郵箱大師
網易云課堂

注冊免費郵箱

注冊VIP郵箱（特權郵箱，付費）
免費下載網易官方手機郵箱應用

移動端
網易公開課
網易嚴選
支付
郵箱

網易首頁 > 網易號 > 正文申請入駐

Gemini 3「開眼」像素級操控！谷歌回應DeepSeek-OCR2

2026-01-28 17:51:48　來源: 新智元

北京舉報

0

分享至

新智元報道

編輯：定慧

【新智元導讀】谷歌Google DeepMind剛剛推出新能力，用代碼賦予Gemini 3 Flash「法眼」。

沒想到吧，Google DeepMind剛剛為Gemini 3 Flash推出了一個重量級新能力：Agentic Vision（智能體視覺）。（難道是被DeepSeek-OCR2給刺激到了？）

可以看到，這項技術徹底改變了大語言模型理解世界的方式：

從過去的「猜」變成了如今的「深度調查」。

該能力由Google DeepMind團隊推出，核心產品經理Rohan Doshi表示，傳統的AI模型在處理圖片時，往往只是靜態地看一眼。

如果圖片里的細節太小，比如微處理芯片上的序列號或者遠處模糊的路牌，模型往往只能靠「猜」。

而Agentic Vision引入了一個「思考-行動-觀察」（Think-Act-Observe）的閉環：

模型不再是被動接收像素，而是會根據用戶的需求，主動編寫Python代碼來操縱圖像。

這一能力直接讓Gemini 3 Flash在各類視覺基準測試中實現了5%到10%的性能跨越。

Agentic Vision：智能體視覺新前沿

DeepMind探索的方法概括起來就是：利用代碼執行作為視覺推理的工具，將被動的視覺理解轉化為主動的智能體過程。

什么意思呢？我們知道，目前的SOTA模型通常是一次性處理圖像。

但Agentic Vision引入了一個循環：

1.思考（Think）：模型分析用戶查詢和初始圖像，制定多步計劃。

2.行動（Act）：模型生成并執行Python代碼來主動操縱圖像（如裁剪、旋轉、標注）或分析圖像（如運行計算、計數邊界框等）。

3.觀察（Observe）：變換后的圖像被追加到模型的上下文窗口中。這允許模型在生成最終響應之前，以更好的上下文檢查新數據。

Agentic Vision實戰

通過在API中啟用代碼執行，開發者可以解鎖許多新行為。

Google AI Studio中的演示應用已經展示了這一點。

1. 縮放與檢查（Zooming and inspecting）

Gemini 3 Flash被訓練為在檢測到細粒度細節時進行隱式縮放。

PlanCheckSolver.com是一個AI驅動的建筑計劃驗證平臺，通過啟用Gemini 3 Flash的代碼執行功能來迭代檢查高分辨率輸入，將準確率提高了5%。

后臺日志視頻展示了這個智能體過程：Gemini 3 Flash生成Python代碼來裁剪和分析特定的補丁（例如屋頂邊緣或建筑部分）作為新圖像。

通過將這些裁剪圖追加回其上下文窗口，模型在視覺上確立其推理，以確認是否符合復雜的建筑規范。

2. 圖像標注（Image annotation）

Agentic Vision允許模型通過標注圖像與環境交互。

Gemini 3 Flash不僅僅是描述它看到的內容，還可以執行代碼直接在畫布上繪制以確立其推理。

在下面的例子中，模型被要求數Gemini應用中一只手上的數字。

為了避免計數錯誤，它使用Python在它識別的每個手指上繪制邊界框和數字標簽。

這種「視覺草稿紙」確保其最終答案是基于像素級的完美理解。

3. 視覺數學與繪圖（Visual math and plotting）

Agentic Vision可以解析高密度表格并執行Python代碼來可視化發現。

標準LLM在多步視覺算術中經常產生幻覺。

Gemini 3 Flash通過將計算放到到確定性的Python環境中來繞過這個問題。

在Google AI Studio的演示應用示例中，模型識別原始數據，編寫代碼將之前的SOTA歸一化為1.0，并生成專業的Matplotlib條形圖。這用可驗證的執行取代了概率性猜測。

如何上手

Agentic Vision今天已通過Google AI Studio和Vertex AI中的Gemini API提供。

它也開始在Gemini應用中推出（通過從模型下拉菜單中選擇Thinking訪問）。

以下是一個簡單的Python代碼示例，展示了如何調用這一能力：

print(response.text)

未來展望

Google表示，Agentic Vision才剛剛開始。

目前，Gemini 3 Flash擅長隱式決定何時放大微小細節。雖然其他功能（如旋轉圖像或執行視覺數學）目前需要顯式的提示引導來觸發，但Google正在努力在未來的更新中使這些行為完全隱式化。

此外，Google還在探索如何為Gemini模型通過更多工具（包括網絡和反向圖像搜索）來進一步確立其對世界的理解，并計劃將此功能擴展到Flash以外的其他模型尺寸。

彩蛋：難道是因為DeepSeek？

這就很有意思了。

DeepSeek前腳剛開源了堪稱「OCR 2.0」的DeepSeek-OCR，谷歌后腳就發布了Gemini 3的Agentic Vision。

這真的是巧合嗎？

我們不妨大膽猜測，谷歌這次的「深夜炸場」，極有可能是被DeepSeek逼出來的。

理由有三：

1.時間點的驚人巧合

1月27日，DeepSeek剛剛發布了DeepSeek-OCR2，搭載核心黑科技DeepEncoder V2。它拋棄了傳統的機械掃描，讓AI學會了像人類一樣「按邏輯順序閱讀」，僅用幾百個Token就實現了對復雜排版和圖表的完美理解。

谷歌同一天立馬拿出Agentic Vision，仿佛在這場「視覺軍備競賽」中隔空喊話：「你們讓AI看懂邏輯，我們直接讓AI上手操作」。

2.技術路線的巔峰對決

DeepSeek-OCR2走的是「內功流」，通過DeepEncoder V2模擬人類的視覺注意力機制，動態重組圖像信息，把「看」這個動作做到了極致的輕量化和邏輯化。

而谷歌的Agentic Vision走的是「外設流」，也就是「不光要看清，還要能動手」。DeepSeek在教AI怎么「用心看」，谷歌在教AI怎么「用手算」。

3.爭奪視覺AI定義的終局

DeepSeek-OCR2證明了即便是3B的小模型，只要「視覺邏輯」對路，也能吊打大模型。谷歌則試圖用「代碼執行」來降維打擊：你視覺再好也是「看」，我能寫代碼驗證才是「真懂」。

這場仗，本質上是誰能重新定義「機器視覺」——是極致的感知，還是全能的交互？

不管是不是「應激反應」，這場神仙打架，最后爽的還是我們程序員。

參考資料：

https://blog.google/innovation-and-ai/technology/developers-tools/agentic-vision-gemini-3-flash/?linkId=43682412

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

谷歌用一堆不賺錢的AI小玩意，給科技圈上了一課

機器之心Pro 2026-01-26 14:47:02
2 跟貼 2
Transformer作者創辦日本最貴AI獨角獸，如今又被谷歌投資

DeepTech深科技 2026-01-26 16:48:19
10 跟貼 10

5年博士1年讀完，20分鐘干完48小時教授工作！這個工具在硅谷火了

新智元 2026-01-27 08:12:22
29 跟貼 29

與阿里、DeepSeek同臺競技，K2.5進化Agent集群，楊植麟為Kimi鎖定系統智能主賽道

每日經濟新聞 2026-01-28 14:11:08
1 跟貼 1
參加完百度世界大會，我終于理解了「內化 AI」的正確打開方式

愛范兒 2025-11-13 18:01:50
0 跟貼 0

中國創造一門新編程語言的黃金時代來了？

虎嗅APP 2025-12-23 03:54:05
0 跟貼 0

所有頂尖AI實驗室都失去了聯創，除了Anthropic！

新智元 2026-01-28 21:19:59
0 跟貼 0
10天隨手寫的AI，竟在GitHub狂飆7萬星！「它開口那一刻，我嚇懵了」

新智元 2026-01-28 13:08:59
3 跟貼 3

錄屏扒代碼、截圖改網頁！Kimi K2.5把「視覺x代碼」玩明白了

量子位 2026-01-28 08:28:15
2 跟貼 2
搜狗要用AI重做輸入法

華爾街見聞官方 2026-01-28 16:28:55
36 跟貼 36
高效智能體幕后推手是誰？一篇綜述帶你從記憶×工具學習×規劃看透

機器之心Pro 2026-01-27 15:24:36
0 跟貼 0
ReconVLA：具身智能研究首次獲得AI頂級會議最佳論文獎

機器之心Pro 2026-01-26 13:51:30
0 跟貼 0
VGGT4D：無需訓練，挖掘3D基礎模型潛力，實現4D動態場景重建

機器之心Pro 2025-12-17 17:46:42
0 跟貼 0
SOLO Coder 在現有項目基礎上繼續完善功能、修復問題

機器之心Pro 2025-11-13 14:18:40
0 跟貼 0
三維空間太難懂？2

機器之心Pro 2025-12-31 13:49:19
0 跟貼 0
萬物皆可參考是種什么體驗？Vidu Q2參考生Pro：特效、演技全都要

機器之心Pro 2026-01-28 14:46:49
0 跟貼 0
AI記憶革命爆發！Clawdbot如何像大腦般記住一切

新智元 2026-01-28 21:18:05
0 跟貼 0
Gemini地理覺醒：一夜看懂世界！

新智元 2025-10-21 13:54:16
0 跟貼 0
全球AI音樂之王易主？國產音樂大模型升級，綜合能力超Suno V5

智東西 2026-01-28 20:25:10
0 跟貼 0
大模型公司不搞瀏覽器搞Agent，實測找到原因了

量子位 2025-10-31 16:54:34
0 跟貼 0
但斌旗下美股基金持倉出爐谷歌取代英偉達成第一重倉股

財聯社 2026-01-28 15:25:06
0 跟貼 0
Deepseek V4的最后一塊拼圖來了？全新OCR架構超越視覺壓縮

DeepTech深科技 2026-01-27 18:34:56
6 跟貼 6
下一代谷歌頭顯，XREAL x Google 定義混合現實頭顯

愛范兒 2025-12-10 05:12:08
0 跟貼 0
“孫正義全力以赴！”軟銀擬再向OpenAI投資最高300億美元

華爾街見聞官方 2026-01-28 15:22:53
0 跟貼 0
國外網友逛谷歌地圖，意外發現中國“秘密”，背后真相很驚人

笑的牙癢癢 2026-01-28 14:03:21
1 跟貼 1
機器人進汽車廠，給波士頓動力，裝上谷歌最強大腦

機器之心Pro 2026-01-06 19:02:05
0 跟貼 0
DeepMind負責人：2036 AI意識覺醒？LeCun怒懟：LLM路線全錯！

新智元 2025-12-16 16:55:25
0 跟貼 0
收視破5，只是開始！于和偉辛柏青蔣欣，要掀起一波懸疑劇新高潮

春日在捕月 2026-01-28 14:45:59
3 跟貼 3
84%程序員用AI寫代碼，Node.js之父：手寫代碼已死 “人類編程時代已經結束了。”Node.j

量子位 2026-01-26 21:07:44
0 跟貼 0
DeepSeek開源全新OCR模型！棄用CLIP改用Qwen輕量小模型

量子位 2026-01-28 14:15:15
1 跟貼 1
美國國防報告稱中國是其面對最強大國家

北京日報 2026-01-28 01:07:33
8114 跟貼 8114
女子和男友生氣，直接給自己氣成模型了，男友差點笑進ICU

籃球搞笑 2026-01-26 16:36:58
1 跟貼 1
豆包編程模型來了2 (將 C++ 項目重構為 Python 項目)

機器之心Pro 2025-11-11 17:26:07
0 跟貼 0
樂道L90匝道剎車減速不明顯主持人：需原始數據才能分析（上）

拜托了老司機 2026-01-27 01:29:30
1 跟貼 1
VinciCoder：多模態統一代碼生成框架和視覺反饋強化學習

機器之心Pro 2025-11-17 14:12:38
0 跟貼 0
軟件ETF（515230）近20日凈流入近30億元，AI+編程商業前景廣闊，資金逢回調布局

每日經濟新聞 2026-01-28 14:55:09
0 跟貼 0
星巴克股價漲幅擴大，盤前最新漲近10%

每日經濟新聞 2026-01-28 21:07:04
0 跟貼 0
深圳市市長一天兩次代言

長安街知事 2026-01-28 18:39:14
6 跟貼 6
"四無公司"申領超100萬生育保險：15名員工中13人生育

澎湃新聞 2026-01-28 16:00:51
1599 跟貼 1599
犯人的一串代碼，竟揪出這么大的間諜

靚仔影視君 2026-01-27 09:05:30
1 跟貼 1

北大教授人口學家聲稱中國大學連印度孟加拉都不如！因為不用英語

北大教授人口學家聲稱中國大學連印度孟加拉都不如！因為不用英語

火山詩話

2026-01-27 14:40:23

牢A爆火后留學圈炸了！陪讀媽媽、女留學生成狩獵目標，家長必看

牢A爆火后留學圈炸了！陪讀媽媽、女留學生成狩獵目標，家長必看

烏娛子醬

2026-01-27 16:50:05

法國第一美人消失25年，被救時竟已淪為46斤人畜，親媽在閣樓里藏了整整25年的秘密終于曝光了

法國第一美人消失25年，被救時竟已淪為46斤人畜，親媽在閣樓里藏了整整25年的秘密終于曝光了

歷史回憶室

2026-01-02 19:54:11

就在剛剛！28號早上，CBA傳來北京男籃、趙繼偉和徐杰的最新消息

就在剛剛！28號早上，CBA傳來北京男籃、趙繼偉和徐杰的最新消息

多特體育說

2026-01-28 08:10:29

早已殺青卻播出無望的7部劇，部部可惜，尤其是最后一部

早已殺青卻播出無望的7部劇，部部可惜，尤其是最后一部

小Q侃電影

2026-01-25 13:16:28

斯諾克大冷門！老馬翻車，張安達雙重喜，羅伯遜4連鞭逆轉龐俊旭

斯諾克大冷門！老馬翻車，張安達雙重喜，羅伯遜4連鞭逆轉龐俊旭

劉姚堯的文字城堡

2026-01-28 20:39:44

王剛沒想到，離婚24年，成方圓會以這種方式，給自己上了生動一課

王剛沒想到，離婚24年，成方圓會以這種方式，給自己上了生動一課

林雁飛

2026-01-22 23:51:27

新官上任三把火，烏戈重用3人打臉楊鳴，最大引援被貶為替補

新官上任三把火，烏戈重用3人打臉楊鳴，最大引援被貶為替補

削桐作琴

2026-01-28 12:30:23

頂流巨星：已退圈，寧肯做農民

視覺志

2026-01-27 10:34:11

一個要求，震動東京：中國要求日本盡快歸還，清算終于開始了

一個要求，震動東京：中國要求日本盡快歸還，清算終于開始了

霽寒飄雪

2026-01-28 19:41:49

郭晶晶代言出事沒一周，讓人擔憂的事出現，霍啟剛的舉動讓人意外

郭晶晶代言出事沒一周，讓人擔憂的事出現，霍啟剛的舉動讓人意外

阿廢冷眼觀察所

2026-01-28 16:40:48

當76歲王馥荔和62歲何賽飛同框，科技臉對比下，才知自然老去多美

當76歲王馥荔和62歲何賽飛同框，科技臉對比下，才知自然老去多美

洲洲影視娛評

2026-01-28 14:02:25

原來他已去世10年！不抽煙不喝酒，每天堅持鍛煉，59歲卻驟然離世

原來他已去世10年！不抽煙不喝酒，每天堅持鍛煉，59歲卻驟然離世

寒士之言本尊

2026-01-10 12:54:57

塔圖姆：看到杜蘭特跟腱斷裂回歸后的表現，給了我巨大的信心

塔圖姆：看到杜蘭特跟腱斷裂回歸后的表現，給了我巨大的信心

懂球帝

2026-01-28 13:32:02

GDP首次突破14萬億元，江蘇公布2025年經濟成績單

GDP首次突破14萬億元，江蘇公布2025年經濟成績單

澎湃新聞

2026-01-28 11:47:04

聶衛平是誰？連勝日本一流高手，沒拿過世界冠軍，為何被稱為棋圣

聶衛平是誰？連勝日本一流高手，沒拿過世界冠軍，為何被稱為棋圣

千秋文化

2026-01-25 20:38:44

美國該冷靜下來了，伊朗一天多一樣先進武器：又從我國搞到新導彈

美國該冷靜下來了，伊朗一天多一樣先進武器：又從我國搞到新導彈

科普100克克

2026-01-19 15:18:58

赫爾松俄軍主動后撤，美國會對川普強吞格陵蘭發出彈劾通牒

赫爾松俄軍主動后撤，美國會對川普強吞格陵蘭發出彈劾通牒

史政先鋒

2026-01-27 19:58:21

壽命長短與喝酒有很大關系？北大調查51萬飲酒者，答案終于出來了

壽命長短與喝酒有很大關系？北大調查51萬飲酒者，答案終于出來了

墜入二次元的海洋

2026-01-28 17:26:26

當眾失憶？79歲特朗普正說著話突然卡殼，忘了病名還要幕僚救場？

當眾失憶？79歲特朗普正說著話突然卡殼，忘了病名還要幕僚救場？

阿傖說事

2026-01-28 15:23:56

AI產業主平臺領航智能+時代

14431文章數 66546關注度

往期回顧全部

科技要聞

它是神也是毒！Clawdbot改名卷入千萬詐騙

頭條要聞

單價6.5萬的新房小區出現1431條裂縫業主：邊補邊裂

頭條要聞

單價6.5萬的新房小區出現1431條裂縫業主：邊補邊裂

體育要聞

沒天賦的CBA第一小前鋒，秘訣只有一個字

娛樂要聞

王祖賢入駐某音：一條7秒視頻吸粉55萬

財經要聞

從萬科退休20天后，郁亮疑似失聯

汽車要聞

新手必看!冰雪路面不敢開?記住這4點關鍵時刻真能保命

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

教育

親子

旅游

手機

公開課

教育要聞

26考研調劑考生超70W？？？

親子要聞

孕婦吃冷藏蛋糕導致胎兒早產,嬰兒患李斯特菌敗血癥

旅游要聞

2026年泉州新春文旅盛宴啟幕千場活動燃動刺桐

手機要聞

小米17 Max配徠卡2億鏡頭無背屏Q2季度發布

公開課

李玫瑾：為什么性格比能力更重要？

白巖松談人口老齡化：社會要降低老年人門檻
為什么人類有不同的膚色？
中國最正宗的紋飾是什么？
李彥宏：百度離破產30天

© 1997-2026 網易公司版權所有 About NetEase | 公司簡介 | 聯系方法 | 招聘信息 | 客戶服務 | 隱私政策 | 不良信息舉報 Complaint Center | 廉正舉報 | 侵權投訴

無障礙瀏覽進入關懷版

<sub id="7gz3u"></sub>^{<blockquote id="7gz3u"></blockquote>}

<sub id="7gz3u"></sub><sub id="7gz3u"></sub>

<legend id="7gz3u"><li id="7gz3u"></li></legend>

<cite id="7gz3u"><nav id="7gz3u"></nav></cite><xmp id="7gz3u"></xmp><blockquote id="7gz3u"></blockquote>

<dfn id="7gz3u"><strike id="7gz3u"></strike></dfn>

<center id="7gz3u"></center>