<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      Gemini 3「開眼」像素級操控!谷歌回應DeepSeek-OCR2

      0
      分享至


      新智元報道

      編輯:定慧

      【新智元導讀】谷歌Google DeepMind剛剛推出新能力,用代碼賦予Gemini 3 Flash「法眼」。

      沒想到吧,Google DeepMind剛剛為Gemini 3 Flash推出了一個重量級新能力:Agentic Vision(智能體視覺)。(難道是被DeepSeek-OCR2給刺激到了?)

      可以看到,這項技術徹底改變了大語言模型理解世界的方式:

      從過去的「猜」變成了如今的「深度調查」。


      該能力由Google DeepMind團隊推出,核心產品經理Rohan Doshi表示,傳統的AI模型在處理圖片時,往往只是靜態地看一眼。

      如果圖片里的細節太小,比如微處理芯片上的序列號或者遠處模糊的路牌,模型往往只能靠「猜」。

      而Agentic Vision引入了一個「思考-行動-觀察」(Think-Act-Observe)的閉環:

      模型不再是被動接收像素,而是會根據用戶的需求,主動編寫Python代碼來操縱圖像。


      這一能力直接讓Gemini 3 Flash在各類視覺基準測試中實現了5%到10%的性能跨越。


      Agentic Vision:智能體視覺新前沿

      DeepMind探索的方法概括起來就是:利用代碼執行作為視覺推理的工具,將被動的視覺理解轉化為主動的智能體過程。

      什么意思呢?我們知道,目前的SOTA模型通常是一次性處理圖像。

      但Agentic Vision引入了一個循環:

      1.思考(Think):模型分析用戶查詢和初始圖像,制定多步計劃。

      2.行動(Act):模型生成并執行Python代碼來主動操縱圖像(如裁剪、旋轉、標注)或分析圖像(如運行計算、計數邊界框等)。

      3.觀察(Observe):變換后的圖像被追加到模型的上下文窗口中。這允許模型在生成最終響應之前,以更好的上下文檢查新數據。


      Agentic Vision實戰

      通過在API中啟用代碼執行,開發者可以解鎖許多新行為。

      Google AI Studio中的演示應用已經展示了這一點。

      1. 縮放與檢查(Zooming and inspecting)

      Gemini 3 Flash被訓練為在檢測到細粒度細節時進行隱式縮放。

      PlanCheckSolver.com是一個AI驅動的建筑計劃驗證平臺,通過啟用Gemini 3 Flash的代碼執行功能來迭代檢查高分辨率輸入,將準確率提高了5%。

      后臺日志視頻展示了這個智能體過程:Gemini 3 Flash生成Python代碼來裁剪和分析特定的補丁(例如屋頂邊緣或建筑部分)作為新圖像。

      通過將這些裁剪圖追加回其上下文窗口,模型在視覺上確立其推理,以確認是否符合復雜的建筑規范。


      2. 圖像標注(Image annotation)

      Agentic Vision允許模型通過標注圖像與環境交互。

      Gemini 3 Flash不僅僅是描述它看到的內容,還可以執行代碼直接在畫布上繪制以確立其推理。

      在下面的例子中,模型被要求數Gemini應用中一只手上的數字。

      為了避免計數錯誤,它使用Python在它識別的每個手指上繪制邊界框和數字標簽。

      這種「視覺草稿紙」確保其最終答案是基于像素級的完美理解。


      3. 視覺數學與繪圖(Visual math and plotting)

      Agentic Vision可以解析高密度表格并執行Python代碼來可視化發現。

      標準LLM在多步視覺算術中經常產生幻覺。

      Gemini 3 Flash通過將計算放到到確定性的Python環境中來繞過這個問題。

      在Google AI Studio的演示應用示例中,模型識別原始數據,編寫代碼將之前的SOTA歸一化為1.0,并生成專業的Matplotlib條形圖。這用可驗證的執行取代了概率性猜測。


      如何上手

      Agentic Vision今天已通過Google AI Studio和Vertex AI中的Gemini API提供。

      它也開始在Gemini應用中推出(通過從模型下拉菜單中選擇Thinking訪問)。


      以下是一個簡單的Python代碼示例,展示了如何調用這一能力:

      print(response.text)

      未來展望

      Google表示,Agentic Vision才剛剛開始。

      目前,Gemini 3 Flash擅長隱式決定何時放大微小細節。雖然其他功能(如旋轉圖像或執行視覺數學)目前需要顯式的提示引導來觸發,但Google正在努力在未來的更新中使這些行為完全隱式化。

      此外,Google還在探索如何為Gemini模型通過更多工具(包括網絡和反向圖像搜索)來進一步確立其對世界的理解,并計劃將此功能擴展到Flash以外的其他模型尺寸。

      彩蛋:難道是因為DeepSeek?

      這就很有意思了。

      DeepSeek前腳剛開源了堪稱「OCR 2.0」的DeepSeek-OCR,谷歌后腳就發布了Gemini 3的Agentic Vision。

      這真的是巧合嗎?

      我們不妨大膽猜測,谷歌這次的「深夜炸場」,極有可能是被DeepSeek逼出來的。

      理由有三:

      1.時間點的驚人巧合

      1月27日,DeepSeek剛剛發布了DeepSeek-OCR2,搭載核心黑科技DeepEncoder V2。它拋棄了傳統的機械掃描,讓AI學會了像人類一樣「按邏輯順序閱讀」,僅用幾百個Token就實現了對復雜排版和圖表的完美理解。

      谷歌同一天立馬拿出Agentic Vision,仿佛在這場「視覺軍備競賽」中隔空喊話:「你們讓AI看懂邏輯,我們直接讓AI上手操作」。

      2.技術路線的巔峰對決

      DeepSeek-OCR2走的是「內功流」,通過DeepEncoder V2模擬人類的視覺注意力機制,動態重組圖像信息,把「看」這個動作做到了極致的輕量化和邏輯化。

      而谷歌的Agentic Vision走的是「外設流」,也就是「不光要看清,還要能動手」。DeepSeek在教AI怎么「用心看」,谷歌在教AI怎么「用手算」。

      3.爭奪視覺AI定義的終局

      DeepSeek-OCR2證明了即便是3B的小模型,只要「視覺邏輯」對路,也能吊打大模型。谷歌則試圖用「代碼執行」來降維打擊:你視覺再好也是「看」,我能寫代碼驗證才是「真懂」。

      這場仗,本質上是誰能重新定義「機器視覺」——是極致的感知,還是全能的交互?

      不管是不是「應激反應」,這場神仙打架,最后爽的還是我們程序員。

      參考資料:

      https://blog.google/innovation-and-ai/technology/developers-tools/agentic-vision-gemini-3-flash/?linkId=43682412


      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      北大教授人口學家聲稱中國大學連印度孟加拉都不如!因為不用英語

      北大教授人口學家聲稱中國大學連印度孟加拉都不如!因為不用英語

      火山詩話
      2026-01-27 14:40:23
      牢A爆火后留學圈炸了!陪讀媽媽、女留學生成狩獵目標,家長必看

      牢A爆火后留學圈炸了!陪讀媽媽、女留學生成狩獵目標,家長必看

      烏娛子醬
      2026-01-27 16:50:05
      法國第一美人消失25年,被救時竟已淪為46斤人畜,親媽在閣樓里藏了整整25年的秘密終于曝光了

      法國第一美人消失25年,被救時竟已淪為46斤人畜,親媽在閣樓里藏了整整25年的秘密終于曝光了

      歷史回憶室
      2026-01-02 19:54:11
      就在剛剛!28號早上,CBA傳來北京男籃、趙繼偉和徐杰的最新消息

      就在剛剛!28號早上,CBA傳來北京男籃、趙繼偉和徐杰的最新消息

      多特體育說
      2026-01-28 08:10:29
      早已殺青卻播出無望的7部劇,部部可惜,尤其是最后一部

      早已殺青卻播出無望的7部劇,部部可惜,尤其是最后一部

      小Q侃電影
      2026-01-25 13:16:28
      斯諾克大冷門!老馬翻車,張安達雙重喜,羅伯遜4連鞭逆轉龐俊旭

      斯諾克大冷門!老馬翻車,張安達雙重喜,羅伯遜4連鞭逆轉龐俊旭

      劉姚堯的文字城堡
      2026-01-28 20:39:44
      王剛沒想到,離婚24年,成方圓會以這種方式,給自己上了生動一課

      王剛沒想到,離婚24年,成方圓會以這種方式,給自己上了生動一課

      林雁飛
      2026-01-22 23:51:27
      新官上任三把火,烏戈重用3人打臉楊鳴,最大引援被貶為替補

      新官上任三把火,烏戈重用3人打臉楊鳴,最大引援被貶為替補

      削桐作琴
      2026-01-28 12:30:23
      頂流巨星:已退圈,寧肯做農民

      頂流巨星:已退圈,寧肯做農民

      視覺志
      2026-01-27 10:34:11
      一個要求,震動東京:中國要求日本盡快歸還,清算終于開始了

      一個要求,震動東京:中國要求日本盡快歸還,清算終于開始了

      霽寒飄雪
      2026-01-28 19:41:49
      郭晶晶代言出事沒一周,讓人擔憂的事出現,霍啟剛的舉動讓人意外

      郭晶晶代言出事沒一周,讓人擔憂的事出現,霍啟剛的舉動讓人意外

      阿廢冷眼觀察所
      2026-01-28 16:40:48
      當76歲王馥荔和62歲何賽飛同框,科技臉對比下,才知自然老去多美

      當76歲王馥荔和62歲何賽飛同框,科技臉對比下,才知自然老去多美

      洲洲影視娛評
      2026-01-28 14:02:25
      原來他已去世10年!不抽煙不喝酒,每天堅持鍛煉,59歲卻驟然離世

      原來他已去世10年!不抽煙不喝酒,每天堅持鍛煉,59歲卻驟然離世

      寒士之言本尊
      2026-01-10 12:54:57
      塔圖姆:看到杜蘭特跟腱斷裂回歸后的表現,給了我巨大的信心

      塔圖姆:看到杜蘭特跟腱斷裂回歸后的表現,給了我巨大的信心

      懂球帝
      2026-01-28 13:32:02
      GDP首次突破14萬億元,江蘇公布2025年經濟成績單

      GDP首次突破14萬億元,江蘇公布2025年經濟成績單

      澎湃新聞
      2026-01-28 11:47:04
      聶衛平是誰?連勝日本一流高手,沒拿過世界冠軍,為何被稱為棋圣

      聶衛平是誰?連勝日本一流高手,沒拿過世界冠軍,為何被稱為棋圣

      千秋文化
      2026-01-25 20:38:44
      美國該冷靜下來了,伊朗一天多一樣先進武器:又從我國搞到新導彈

      美國該冷靜下來了,伊朗一天多一樣先進武器:又從我國搞到新導彈

      科普100克克
      2026-01-19 15:18:58
      赫爾松俄軍主動后撤,美國會對川普強吞格陵蘭發出彈劾通牒

      赫爾松俄軍主動后撤,美國會對川普強吞格陵蘭發出彈劾通牒

      史政先鋒
      2026-01-27 19:58:21
      壽命長短與喝酒有很大關系?北大調查51萬飲酒者,答案終于出來了

      壽命長短與喝酒有很大關系?北大調查51萬飲酒者,答案終于出來了

      墜入二次元的海洋
      2026-01-28 17:26:26
      當眾失憶?79歲特朗普正說著話突然卡殼,忘了病名還要幕僚救場?

      當眾失憶?79歲特朗普正說著話突然卡殼,忘了病名還要幕僚救場?

      阿傖說事
      2026-01-28 15:23:56
      2026-01-28 21:39:00
      新智元 incentive-icons
      新智元
      AI產業主平臺領航智能+時代
      14431文章數 66546關注度
      往期回顧 全部

      科技要聞

      它是神也是毒!Clawdbot改名卷入千萬詐騙

      頭條要聞

      單價6.5萬的新房小區出現1431條裂縫 業主:邊補邊裂

      頭條要聞

      單價6.5萬的新房小區出現1431條裂縫 業主:邊補邊裂

      體育要聞

      沒天賦的CBA第一小前鋒,秘訣只有一個字

      娛樂要聞

      王祖賢入駐某音:一條7秒視頻吸粉55萬

      財經要聞

      從萬科退休20天后,郁亮疑似失聯

      汽車要聞

      新手必看!冰雪路面不敢開?記住這4點 關鍵時刻真能保命

      態度原創

      教育
      親子
      旅游
      手機
      公開課

      教育要聞

      26考研調劑考生超70W???

      親子要聞

      孕婦吃冷藏蛋糕導致胎兒早產,嬰兒患李斯特菌敗血癥

      旅游要聞

      2026年泉州新春文旅盛宴啟幕 千場活動燃動刺桐

      手機要聞

      小米17 Max配徠卡2億鏡頭 無背屏Q2季度發布

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版