<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      Gemini 3「開眼」像素級操控!谷歌回應DeepSeek-OCR2

      0
      分享至


      新智元報道

      編輯:定慧

      【新智元導讀】谷歌Google DeepMind剛剛推出新能力,用代碼賦予Gemini 3 Flash「法眼」。

      沒想到吧,Google DeepMind剛剛為Gemini 3 Flash推出了一個重量級新能力:Agentic Vision(智能體視覺)。(難道是被DeepSeek-OCR2給刺激到了?)

      可以看到,這項技術徹底改變了大語言模型理解世界的方式:

      從過去的「猜」變成了如今的「深度調查」。


      該能力由Google DeepMind團隊推出,核心產品經理Rohan Doshi表示,傳統的AI模型在處理圖片時,往往只是靜態地看一眼。

      如果圖片里的細節太小,比如微處理芯片上的序列號或者遠處模糊的路牌,模型往往只能靠「猜」。

      而Agentic Vision引入了一個「思考-行動-觀察」(Think-Act-Observe)的閉環:

      模型不再是被動接收像素,而是會根據用戶的需求,主動編寫Python代碼來操縱圖像。


      這一能力直接讓Gemini 3 Flash在各類視覺基準測試中實現了5%到10%的性能跨越。


      Agentic Vision:智能體視覺新前沿

      DeepMind探索的方法概括起來就是:利用代碼執行作為視覺推理的工具,將被動的視覺理解轉化為主動的智能體過程。

      什么意思呢?我們知道,目前的SOTA模型通常是一次性處理圖像。

      但Agentic Vision引入了一個循環:

      1.思考(Think):模型分析用戶查詢和初始圖像,制定多步計劃。

      2.行動(Act):模型生成并執行Python代碼來主動操縱圖像(如裁剪、旋轉、標注)或分析圖像(如運行計算、計數邊界框等)。

      3.觀察(Observe):變換后的圖像被追加到模型的上下文窗口中。這允許模型在生成最終響應之前,以更好的上下文檢查新數據。


      Agentic Vision實戰

      通過在API中啟用代碼執行,開發者可以解鎖許多新行為。

      Google AI Studio中的演示應用已經展示了這一點。

      1. 縮放與檢查(Zooming and inspecting)

      Gemini 3 Flash被訓練為在檢測到細粒度細節時進行隱式縮放。

      PlanCheckSolver.com是一個AI驅動的建筑計劃驗證平臺,通過啟用Gemini 3 Flash的代碼執行功能來迭代檢查高分辨率輸入,將準確率提高了5%。

      后臺日志視頻展示了這個智能體過程:Gemini 3 Flash生成Python代碼來裁剪和分析特定的補丁(例如屋頂邊緣或建筑部分)作為新圖像。

      通過將這些裁剪圖追加回其上下文窗口,模型在視覺上確立其推理,以確認是否符合復雜的建筑規范。


      2. 圖像標注(Image annotation)

      Agentic Vision允許模型通過標注圖像與環境交互。

      Gemini 3 Flash不僅僅是描述它看到的內容,還可以執行代碼直接在畫布上繪制以確立其推理。

      在下面的例子中,模型被要求數Gemini應用中一只手上的數字。

      為了避免計數錯誤,它使用Python在它識別的每個手指上繪制邊界框和數字標簽。

      這種「視覺草稿紙」確保其最終答案是基于像素級的完美理解。


      3. 視覺數學與繪圖(Visual math and plotting)

      Agentic Vision可以解析高密度表格并執行Python代碼來可視化發現。

      標準LLM在多步視覺算術中經常產生幻覺。

      Gemini 3 Flash通過將計算放到到確定性的Python環境中來繞過這個問題。

      在Google AI Studio的演示應用示例中,模型識別原始數據,編寫代碼將之前的SOTA歸一化為1.0,并生成專業的Matplotlib條形圖。這用可驗證的執行取代了概率性猜測。


      如何上手

      Agentic Vision今天已通過Google AI Studio和Vertex AI中的Gemini API提供。

      它也開始在Gemini應用中推出(通過從模型下拉菜單中選擇Thinking訪問)。


      以下是一個簡單的Python代碼示例,展示了如何調用這一能力:

      print(response.text)

      未來展望

      Google表示,Agentic Vision才剛剛開始。

      目前,Gemini 3 Flash擅長隱式決定何時放大微小細節。雖然其他功能(如旋轉圖像或執行視覺數學)目前需要顯式的提示引導來觸發,但Google正在努力在未來的更新中使這些行為完全隱式化。

      此外,Google還在探索如何為Gemini模型通過更多工具(包括網絡和反向圖像搜索)來進一步確立其對世界的理解,并計劃將此功能擴展到Flash以外的其他模型尺寸。

      彩蛋:難道是因為DeepSeek?

      這就很有意思了。

      DeepSeek前腳剛開源了堪稱「OCR 2.0」的DeepSeek-OCR,谷歌后腳就發布了Gemini 3的Agentic Vision。

      這真的是巧合嗎?

      我們不妨大膽猜測,谷歌這次的「深夜炸場」,極有可能是被DeepSeek逼出來的。

      理由有三:

      1.時間點的驚人巧合

      1月27日,DeepSeek剛剛發布了DeepSeek-OCR2,搭載核心黑科技DeepEncoder V2。它拋棄了傳統的機械掃描,讓AI學會了像人類一樣「按邏輯順序閱讀」,僅用幾百個Token就實現了對復雜排版和圖表的完美理解。

      谷歌同一天立馬拿出Agentic Vision,仿佛在這場「視覺軍備競賽」中隔空喊話:「你們讓AI看懂邏輯,我們直接讓AI上手操作」。

      2.技術路線的巔峰對決

      DeepSeek-OCR2走的是「內功流」,通過DeepEncoder V2模擬人類的視覺注意力機制,動態重組圖像信息,把「看」這個動作做到了極致的輕量化和邏輯化。

      而谷歌的Agentic Vision走的是「外設流」,也就是「不光要看清,還要能動手」。DeepSeek在教AI怎么「用心看」,谷歌在教AI怎么「用手算」。

      3.爭奪視覺AI定義的終局

      DeepSeek-OCR2證明了即便是3B的小模型,只要「視覺邏輯」對路,也能吊打大模型。谷歌則試圖用「代碼執行」來降維打擊:你視覺再好也是「看」,我能寫代碼驗證才是「真懂」。

      這場仗,本質上是誰能重新定義「機器視覺」——是極致的感知,還是全能的交互?

      不管是不是「應激反應」,這場神仙打架,最后爽的還是我們程序員。

      參考資料:

      https://blog.google/innovation-and-ai/technology/developers-tools/agentic-vision-gemini-3-flash/?linkId=43682412


      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      深圳水貝一貴金屬平臺“爆倉” 投資人稱或涉上百億元資金

      深圳水貝一貴金屬平臺“爆倉” 投資人稱或涉上百億元資金

      經濟觀察報
      2026-01-28 15:08:08
      1976 年籌建毛主席紀念堂,專家主坐北朝南,谷牧定調震眾人

      1976 年籌建毛主席紀念堂,專家主坐北朝南,谷牧定調震眾人

      嘮叨說歷史
      2026-01-29 19:19:35
      烏外長:澤連斯基愿與普京會面!俄方回應:可以邀請他來莫斯科,并保障其安全

      烏外長:澤連斯基愿與普京會面!俄方回應:可以邀請他來莫斯科,并保障其安全

      每日經濟新聞
      2026-01-28 22:11:06
      你聽過最勁爆的瓜是啥?網友:被大八歲的補習班老師表白了

      你聽過最勁爆的瓜是啥?網友:被大八歲的補習班老師表白了

      帶你感受人間冷暖
      2025-11-26 00:10:06
      43歲香港過氣艷星官宣生子!嫁威海農村小伙,出生便是香港戶口

      43歲香港過氣艷星官宣生子!嫁威海農村小伙,出生便是香港戶口

      裕豐娛間說
      2026-01-28 19:54:43
      全明星待遇!楊瀚森文班亞馬聯動+NBA裁判不再吹偏哨,小楊熬出頭

      全明星待遇!楊瀚森文班亞馬聯動+NBA裁判不再吹偏哨,小楊熬出頭

      籃球看比賽
      2026-01-29 18:03:20
      五五分流為什么分不下去了?背后的真相

      五五分流為什么分不下去了?背后的真相

      楓冷慕詩
      2026-01-24 13:09:19
      誰還敢得罪中國?全球不再瘋搶芯片,而是中國20萬一臺的變壓器

      誰還敢得罪中國?全球不再瘋搶芯片,而是中國20萬一臺的變壓器

      王新喜
      2026-01-29 07:36:48
      美國最近給咱們的殲-20算了筆賬,結果讓不少人驚掉了下巴

      美國最近給咱們的殲-20算了筆賬,結果讓不少人驚掉了下巴

      安安說
      2026-01-27 11:32:25
      上海炒股冠軍肺腑之言:如果接下來迎來牛市,不妨死啃這兩根均線

      上海炒股冠軍肺腑之言:如果接下來迎來牛市,不妨死啃這兩根均線

      股經縱橫談
      2026-01-24 17:15:39
      上海外灘某銀行地下金庫,存了80年從不清點,央行:凍結所有賬戶

      上海外灘某銀行地下金庫,存了80年從不清點,央行:凍結所有賬戶

      小哥很OK
      2026-01-28 19:15:53
      美國學者:如果不是毛主席當年那個決定,中國早已重蹈蘇聯覆轍

      美國學者:如果不是毛主席當年那個決定,中國早已重蹈蘇聯覆轍

      每一次點擊
      2026-01-03 17:03:47
      錢再多有什么用?79歲身家525億的特朗普,給全部中老年人提了醒

      錢再多有什么用?79歲身家525億的特朗普,給全部中老年人提了醒

      阿器談史
      2026-01-19 19:33:57
      身價百億,坐擁北京一條街,出門私人飛機,京圈頂級富婆天團來了

      身價百億,坐擁北京一條街,出門私人飛機,京圈頂級富婆天團來了

      不寫散文詩
      2026-01-26 23:24:02
      哪些酷刑是人類意志不能承受的?網友:人彘就是早期的感官剝奪!

      哪些酷刑是人類意志不能承受的?網友:人彘就是早期的感官剝奪!

      解讀熱點事件
      2025-11-19 00:05:05
      楊鳴承認在等下家!告別遼籃有3選擇,有望聯手周琦,1個難題無解

      楊鳴承認在等下家!告別遼籃有3選擇,有望聯手周琦,1個難題無解

      體壇大事記
      2026-01-29 11:42:16
      深夜利好!86股業績大超預期,商業航天龍頭暴增498%

      深夜利好!86股業績大超預期,商業航天龍頭暴增498%

      風風順
      2026-01-29 02:00:03
      我媽來住11天丈夫甩臉11天,婆婆來住,我連夜收拾行李說了1句話

      我媽來住11天丈夫甩臉11天,婆婆來住,我連夜收拾行李說了1句話

      程哥講堂
      2026-01-27 16:34:54
      中成藥退出市場!7月1日起,這些藥將徹底消失,將有什么影響?

      中成藥退出市場!7月1日起,這些藥將徹底消失,將有什么影響?

      牛鍋巴小釩
      2026-01-29 17:34:05
      當眾失憶?79歲特朗普正說著話突然卡殼,忘了病名還要幕僚救場?

      當眾失憶?79歲特朗普正說著話突然卡殼,忘了病名還要幕僚救場?

      阿傖說事
      2026-01-28 15:23:56
      2026-01-29 21:52:49
      新智元 incentive-icons
      新智元
      AI產業主平臺領航智能+時代
      14438文章數 66547關注度
      往期回顧 全部

      科技要聞

      周亞輝的AI新賭局:國內太卷 出海另起爐灶

      頭條要聞

      正部級孫紹騁被查 去年卸任內蒙古自治區黨委書記

      頭條要聞

      正部級孫紹騁被查 去年卸任內蒙古自治區黨委書記

      體育要聞

      詹姆斯哭了!騎士視頻致敬41歲超巨

      娛樂要聞

      曝金晨涉嫌交通肇事逃逸 本人尚未回應

      財經要聞

      崔東樹:中國汽車未來年銷或達5000萬輛

      汽車要聞

      車長超5米還帶后輪轉向 比亞迪海豹08/海獅08將亮相

      態度原創

      數碼
      家居
      健康
      手機
      公開課

      數碼要聞

      機械革命無界14X輕薄本32G / 1T預售,首發價4199元僅一天

      家居要聞

      極簡輕奢 家的無限可能

      耳石癥分類型,癥狀大不同

      手機要聞

      鴻蒙的智感握姿,服了

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版