<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      Gemini 3 來了:忘掉聊天,一句話生成一個世界 (附與Gemini 團隊溝通實錄)

      0
      分享至


      Gemini3太強了。

      11月18日,在所有人的期待中,Google的最新AI模型Gemini3正式發布。這次,一切都回到了Google的節奏。

      徹底屠榜

      這是一個幾乎“屠榜”了所有評測集的模型,而且,請注意,是一個通用模型在細分評測上碾壓了諸多“推理模型”、“多模態模型”等細分領域模型。


      根據Google的介紹,Gemini 3 是一個有原生多模態、強大推理和Agent能力的模型。在硅星人參加的發布前小范圍溝通會上,Gemini的團隊強調這個模型的這些能力“不是分開的,是都在一處,都在一個模型里,你可以同時用這些能力”。

      今天用來評測模型各種能力的榜單,被Gemini3刷到了離譜的新高。

      在多模態能力上,它的理解和推理都達到新高度:

      Gemini 3 Pro以81%的MMMU-Pro分數和87.6%的Video-MMMU分數直接刷新了這個多模態推理的記錄。


      案例介紹:Gemini 3.0的視覺能力融入了推理,能主動解決不一致符號帶來的歧義問題,對手寫舊表格的 OCR 識別能力甚至優于受過訓練的學生。

      可能Gemini 3才真正第一次稱得上是一個有多模態推理能力的模型。

      Google展示了一個很有趣的用法:做一個等離子體流在托卡馬克里的可視化展現,同時用一首詩來捕捉核聚變的美。

      在推理能力上:

      它以突破性的1501分登頂LMArena排行榜。

      它還在SimpleQA Verified上取得了72.1%的最新最優成績,在事實準確性方面顯示出巨大進步。這意味著Gemini 3 Pro在科學和數學等廣泛主題上解決復雜問題時具有高度的可靠性。

      它在"人類最后考試"上也展示了博士級推理能力(在不使用任何工具的情況下得分37.5%),在GPQA Diamond上獲得91.9%的高分。它還在數學領域為前沿模型設立了新標準,在MathArena Apex上達到了23.4%的最新最優成績。

      一個Prompt生成復古任天堂模擬器,自帶游戲且無需外部素材,一分鐘就能完成輸出。

      這還不算完,在深度推理模式Deep Think下,也就是讓模型增加推理的token消耗和用更多時間去處理一些問題時,它在"人類最后考試"里,在不使用工具的情況下得分41.0%,在GPQA Diamond 得分93.8%。而在ARC-AGI上,它還取得了前所未有的45.1%的成績(使用代碼執行)。而已經很強的Gemini 2.5,這一項的得分只有:

      4.9%。

      在人人喊scaling law撞墻的今天,又搞出了十倍的提升。

      而在Agent能力上:

      Gemini 3以1487 ELO分的成績登頂WebDev Arena排行榜。它在Terminal-Bench 2.0上得分54.2%,該測試衡量模型通過終端操作計算機的工具使用能力,并且在SWE-bench Verified(76.2%)上大幅超越2.5 Pro,該基準衡量編碼智能體的能力。

      另外,Gemini的長上下文和推理的結合也有提升,在一個讓AI模擬運營一個自動售貨機,來考察它在agent場景的記憶能力的榜單Vending-Bench 2上,它也同樣登頂——Gemini 3 Pro在完整的模擬一年的運營中保持了持續的工具使用和決策能力,在不偏離任務的情況下獲得更高回報。


      Google官方也展示了一個案例,當你要求它:

      "根據我郵件中的詳細信息,幫我搜索并預訂一輛下周旅行用的中型SUV,租金需控制在每天80美元以內。"

      它在獲得你充分的Google全家桶授權后,真的就完美幫你找到了這樣一個服務,并放到你面前,你只需確認即可。

      此次Gemini還推出了Agent模式,就是為了這樣的場景,當你給他充分授權后,你能讓AI把你一切的Google系產品都可以調用起來,完成復雜任務。

      看了這些榜單的情況,只剩下SWE-Bench Verified上,Claude Sonnet 4.5領先它1分,其他全部被它占了第一。

      有人評論道:OpenAI and Anthropic are so over。

      強大到開始全量鋪開生成式UI

      在Google自己看來,這些全面提升的能力有多強?

      它已經足夠強大到,讓Google認為Gemini這個app必須更改自己的交互形態了。

      Google這次給Gemini做了界面大更新。除了改變了頁面設計,增加了更方便調用個人數據庫的"我的資料"文件夾功能、“徹底改進了購物體驗”,可以直接從Google購物圖譜帶來商品列表、比較表格和價格,該圖譜包含超過500億條商品列表等。最主要的,就是對輸入輸出的交互做了徹底改變。

      什么“ChatGPT”式的一問一答,那是上個時代的做法,現在Gemini要直接給你全模態的可交互結果:

      “Gemini 3將突破界面設計的邊界。它的推理和多模態能力已經解鎖了一項我們稱為生成式UI的新功能。

      我們介紹一種新穎的生成式UI,它動態創建沉浸式視覺體驗和交互式界面——如網頁、游戲、工具和應用程序——而且這些界面自動設計并完全定制以響應任何問題、指令或提示。

      這些提示可以簡單到一個單詞,或根據需要長而詳細的指令。這些新型界面與AI模型通常渲染內容的靜態、預定義界面明顯不同。”

      說的更直接一點,哪怕一個詞,也能給你一個app。

      比如,當你詢問關于物理學里的三體問題(three body problem),你能得到一個可以交互的模擬界面,讓你直接改變變量來觀察結果。

      而這整個答案更像是一個有文字有圖片還有3D可交互網頁的獨立web app。你甚至可以繼續用自然語言開發下去最終把它變成你的一個項目。

      目前,Gemini先提供了兩個“實驗性”功能選項——視覺布局(Visual layout)和動態視圖(Dynamic View)。不過Google也表示,為了幫助了解這些實驗,用戶最初可能只看到其中之一。

      而且這個新的交互方式也會在Google的搜索里上線。在搜索的AI mode里提問,也會給出類似一個可交互app的搜索答案。

      新的Dynamic View展示,當你只是問了一下梵高,就能得到一個完整可交互的界面供你探索

      Google還為此發布了一篇論文。這意思似乎是向所有人喊話:

      你們也跟上啊。


      此次發布里,還有一個非常值得重視的舉動是,這一次Gemini 3在第一時間就部署到了Google搜索上,而且包括這個還被稱為實驗性的生成式UI,也直接進入搜索的AI mode。

      這說明什么?

      說明這是一個在Google看來已經訓練到十分穩定,可以直接放入主營業務產品,而不用擔心有反噬的模型,而且,它還是一個遙遙領先,沒有人再能隨便狙擊的模型,一個完全按Google自己節奏訓練和應用的模型。

      當如此謹慎的Google都在Gemini的介紹里大量的使用“any”,強調這個模型可以讓任何想法變成產品時,你品,你細細品,它對這模型到底有多自信。

      One more thing: 徹底讓Agent來開發軟件的“IDE”平臺 Antigravity

      而對于Google來說,似乎這些還不夠,Google當天還順帶發了一個自己的全新“類IDE”Vibe coding產品,一個讓Agent來主導軟件開發全流程的平臺——Antigravity 。

      Google也不免俗的介紹了一句話開發的案例。

      你輸入一個Prompt,就能得到一個完整的飛行追蹤應用。但實現的過程正是不同所在,Antigravity是一個讓Agent主導一切的環境,它為多個Agent做好了多個它們可以使用的工具和環境,包括編輯器、瀏覽器、終端等。

      “Google Antigravity將AI助手從開發者工具箱中的工具轉變為主動合作伙伴。雖然Google Antigravity的核心是熟悉的AI IDE體驗,但其Agent已提升到一個專用界面,并可直接訪問編輯器、終端和瀏覽器。現在,Agent可以在驗證自身代碼的同時,自主地為您同時規劃和執行復雜的端到端軟件任務。”

      Antigravity也集合了Google各個強大模型:“除了Gemini 3 Pro,Google Antigravity還與我們最新的Gemini 2.5計算機使用模型緊密耦合,用于瀏覽器控制,以及我們頂級的圖像編輯模型Nano Banana(Gemini 2.5圖像)。”

      而且,Google又給這個產品帶來一個瘋狂的新能力:它會在和你的配合中,學習你的coding風格, 和你搭建框架的喜好,最終越來越像你...或者說,像一個更全能全棧工程師版的你...

      如此高預期的模型,不僅沒有讓人失望,還帶著驚喜一起到來。Google真的是強。

      而且,Google勢頭也正猛。在硅星人參加的小范圍提前溝通會上,Google也順帶公布了最新的用戶數據:

      從上一季度的4.5億用戶,猛增到了這季度6.5億用戶。1300萬開發者在用Gemini等Google的模型開發,而本季度的日常調用也同比翻了3倍。


      據Gemini團隊透露,過去一季度的增長很大程度歸功于Nano Banana。

      要知道,Nano Banana 2 也在傳聞中,排隊等待Google的發布......不得不感慨Google的工具箱里,武器實在太多了。

      在此次發布前,我們也有機會與Google Gemini團隊交流,以下為溝通實錄:

      硅星人:能否分享一下在訓練這個新模型過程中的一些"Aha moments"?

      Gemini團隊:這是個有趣的問題,因為我認為在使用這個模型時,有很多時刻你能真正感受到它的推理能力,也能感受到它在多模態能力上的強大。我想指出幾個時刻。第一個是我第一次用它進行氛圍編碼(vibe coding)的時候。令人驚艷的是,它僅憑非常簡單的提示就能創造出各種游戲。能夠在那個環境中創建3D可視化并玩一個真正的游戲,我覺得太棒了。

      實際上,我們的一位工程師一直在用它來創建游戲,這些游戲明天就會在YouTube上發布,因為你可以用這些游戲創造出如此豐富、高保真的體驗,我覺得這太棒了。另一個我認為我們不常談到的"頓悟時刻"是該模型在多語言性能上的強大。

      對我來說,特別有趣的一點是,拿一首用古吉拉特語寫的詩——我父母從小說的語言——不僅進行翻譯,還在此基礎上進行創作。你能看到模型的細微差別、創造力和寫作風格。我認為那也是另一個讓我感嘆"這個模型非常聰明,能夠將多個要素融合在一起"的時刻。我覺得真正酷的是,當你找到這些時刻,你可以將多模態輸入、復雜的推理問題,以及你希望看到的輸出格式結合起來。我認為這時你才能真正看到Gemini 3的魔力顯現。

      問:你會如何描述AntiGravity在當前生態系統中的定位?

      Gemini團隊:這是個好問題。先提醒一下,我認為AntiGravity會非常令人興奮。大語言模型和AI確實改變了我們的編碼方式,使我們軟件工程師能夠保持在一個非常高的層次上,借助智能體的幫助處理真正復雜的任務,這樣你就可以專注于最終目標,并更快地達成。

      所以AntiGravity真正構建在此基礎上,構建在模型的能力之上。這是一個新的IDE。市場上也有其他IDE,需要明確的是,我們的模型在多個IDE中以及通過API供開發者繼續使用。但AntiGravity將給我們提供另一種與開發者接觸的方式,了解他們的用例,了解那些真實世界任務和挑戰,然后幫助我們改進模型,通過成為這種以智能體為中心的IDE,為他們提供最佳體驗。我認為這將對軟件開發帶來一點全新的思路。

      問:對于消費者來說,你期望Gemini智能體有哪些使用場景?

      Gemini團隊:我們希望幫助人們應對生活中遇到的更復雜的任務。我個人在幾件事上正在使用它:首先,如果我要找演唱會門票之類的,不用再自己去搜索所有不同選項,為帶兩個孩子的家庭找到合適的套票,我可以讓智能體去完成,它會找到合適的配置,并帶我到達可以購買的那一步,然后我只需點擊一個按鈕就能繼續完成購買。

      另一件我覺得很酷的事是使用智能體模式來幫你分類處理郵件收件箱。我開始每天早上這么做:我醒來有50封郵件,要花很長時間逐一查看并決定怎么處理。我可以使用智能體模式來幫我處理這些,它會告訴我:這里有你需要完成的任務、這里有你需要回復的郵件、這些是可以歸檔的。這真的為我節省了大量時間,我非常興奮能讓更多人使用到這個功能。

      問:隨著Pro版本發布,我們能期待Flash和Flashlight很快推出嗎?

      Gemini團隊:是的,我的意思是,我們確實希望構建Gemini 3模型家族。這是我們首要考慮的。

      我們感到興奮的是,看看對Gemini 3 Pro的反饋如何?人們用它做什么?我們在哪里看到機會?然后當我們思考完整的模型家族,思考Flash和Flashlight時,我們首要考慮的是如何構建這個主力模型?合適的成本和延遲應該是怎樣的?我們如何思考正確的使用場景?所以我們會繼續利用Pro版本的反饋來確保我們能夠持續構建。你們很快就會看到我們推出更多產品。

      問:Gemini應用最近用戶增長顯著,團隊在此期間做了什么來如此快速地加速采用?

      Gemini團隊:一個主要因素是我們在Nano Banana上看到的病毒式傳播,特別是在泰國、印度尼西亞、印度等國家。顯然,這是一個極其成功的產品,很多人都想玩一玩。如果你看到那些手辦潮流和許多其他人們真正想參與并分享給朋友的東西。

      我們也對我們與GEO的合作以及我們為學生提供的優惠感到非常興奮。我們看到學生群體中有很多使用熱情,他們真的很想用Gemini來幫助完成作業和課堂學習材料。

      最后我想說的是,模型質量真的非常重要。我們在2.5 Pro上看到了這一點,我們也很期待看到人們將如何使用Gemini 3。

      問:你們是否在用AntiGravity與Cursor等工具競爭?這是企業最大的使用場景之一嗎?

      Gemini團隊:非常感謝。這是個好問題。我不會這樣看待它。這次發布中,我們實際上正在與Cursor進行非常緊密的合作。我們在許多不同行業都有許多合作伙伴,并與他們密切合作。對我們來說,在用戶所在的地方觸達并連接用戶非常重要。

      AI開發以及AI如何影響不同領域和行業也還處于非常早期的階段。我認為這對我們來說能夠進行實驗也很重要。我相信會有其他人也在實驗,每個產品本身也會不斷發展,對吧?我們將通過我們的模型和許多其他想法繼續與Cursor保持緊密合作。除此之外,我想我們對AntiGravity將創造的接觸點也感到興奮。

      問:AI行業有聲音稱迭代速度已放緩,擴展定律已失效。但Google的大模型似乎取得了顯著進展。到目前為止,你對大模型的迭代速度以及技術是否還能做到這一點有什么看法?

      Gemini團隊:這是個好問題。當然,關于這方面的討論有很多。我認為,當我觀察AI領域時,我看到了很多進展,而且進展速度非常快。我認為最好的觀察方式是AI領域總體上對許多不同行業產生的影響。你可以看到這一點在越來越多的不同職業中發生。人們正在使用AI模型來幫助他們的工作。學生正在使用AI模型來幫助他們的作業。

      或者我們在日常生活中使用這些模型來了解事物,了解我們好奇的事物,想了解更多的東西。所有這些方面,模型在我們的日常生活中變得越來越有影響力。所以我認為進展非常快。當我觀察我們自己模型能力的進展時,我認為我們看到非常令人興奮的進展正在發生。

      我認為有時候,并不總是全新的能力出現,而是模型所使能的能力。你能做什么新事物?從模型開發的角度來看,當我們觀察預訓練、后訓練時,我們看到各方面都有相當令人振奮的發展。我認為隨著我們了解更多,隨著我們與用戶進行更多互動,這將繼續一段時間,這對我們來說非常重要,能夠通過我們的產品進行這個開發周期,觸達我們的用戶。我們將更多了解他們的需求在哪里,他們對什么感興趣,他們想學什么,這將引導我們引入新能力并構建技術。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      重磅警告!埃爾多安再不收手,土耳其或遭以色列突襲,下場會更慘

      重磅警告!埃爾多安再不收手,土耳其或遭以色列突襲,下場會更慘

      民間胡扯老哥
      2026-04-25 13:22:07
      麻六記進軍日本市場 首店落戶東京新宿

      麻六記進軍日本市場 首店落戶東京新宿

      東京在線
      2026-04-25 20:24:42
      事態升級,中方開打第二波反擊,高市或突然辭職,石破茂已扛旗

      事態升級,中方開打第二波反擊,高市或突然辭職,石破茂已扛旗

      易昂楊
      2026-04-25 09:43:06
      張凌赫被喊話赴臺,本人發聲

      張凌赫被喊話赴臺,本人發聲

      新民周刊
      2026-04-25 18:57:43
      一天4大瓜!出軌、插足、塌房,陳曉反擊陳妍希,一個比一個離譜

      一天4大瓜!出軌、插足、塌房,陳曉反擊陳妍希,一個比一個離譜

      好賢觀史記
      2026-04-24 11:18:26
      創紀錄!伊朗斷網54天:拔掉8500萬人網線,是在防誰?

      創紀錄!伊朗斷網54天:拔掉8500萬人網線,是在防誰?

      花顏蘊韻
      2026-04-24 12:35:40
      1979年打越南,高層其實吵翻了天?葉劍英粟裕為何反對出兵?

      1979年打越南,高層其實吵翻了天?葉劍英粟裕為何反對出兵?

      鶴羽說個事
      2026-04-22 22:36:00
      快訊!美國傳來新消息!

      快訊!美國傳來新消息!

      達文西看世界
      2026-04-25 13:38:56
      連院子里的樹都被貼了封條,山東臨沂納稅狀元變“黑老大”

      連院子里的樹都被貼了封條,山東臨沂納稅狀元變“黑老大”

      有戲
      2026-04-16 18:23:20
      4-0 4-2中超悲喜夜!蓉城海港大勝,津門虎力克國安,積分榜更新

      4-0 4-2中超悲喜夜!蓉城海港大勝,津門虎力克國安,積分榜更新

      阿晞體育
      2026-04-25 22:35:27
      火箭0-3觸發百分百出局定律:本季加時賽9戰8敗 三少83分仍輸球

      火箭0-3觸發百分百出局定律:本季加時賽9戰8敗 三少83分仍輸球

      醉臥浮生
      2026-04-25 11:04:57
      河北偷狗女子社會性死亡:人被拘了,名聲臭了,更惡心的還在后面

      河北偷狗女子社會性死亡:人被拘了,名聲臭了,更惡心的還在后面

      社會日日鮮
      2026-04-25 19:02:51
      妻子升副局長跟我離婚,半年后我去開會,見她在門口等我2小時

      妻子升副局長跟我離婚,半年后我去開會,見她在門口等我2小時

      千秋文化
      2026-03-25 21:49:57
      張天愛太大膽了穿這么敢去沙灘玩

      張天愛太大膽了穿這么敢去沙灘玩

      阿廢冷眼觀察所
      2026-04-14 12:42:56
      全線跳水,近10萬人爆倉!

      全線跳水,近10萬人爆倉!

      每日經濟新聞
      2026-04-25 21:57:11
      深圳女子公交站臺勸滅煙時起沖突,當事人:涉事男子已道歉,事發地點是禁煙場所

      深圳女子公交站臺勸滅煙時起沖突,當事人:涉事男子已道歉,事發地點是禁煙場所

      封面新聞
      2026-04-25 18:52:13
      爺爺是萬里,前男友是李云迪,赴美卻只能擠地下室,名媛萬寶寶的人生究竟有多生猛?

      爺爺是萬里,前男友是李云迪,赴美卻只能擠地下室,名媛萬寶寶的人生究竟有多生猛?

      史海孤雁
      2026-04-24 22:24:12
      1999年,69歲禹作敏獄中難耐孤寂,死前曾向李瑞環提出:我想回家

      1999年,69歲禹作敏獄中難耐孤寂,死前曾向李瑞環提出:我想回家

      華人星光
      2026-04-20 09:59:15
      瞞不住!大S死因曝光,赴日行程是妹妹發起,老公約妹后小S坦白了

      瞞不住!大S死因曝光,赴日行程是妹妹發起,老公約妹后小S坦白了

      娛樂團長
      2026-04-22 21:15:30
      中國減持美債加速,美聯儲拋售3000億,中國接盤引質疑

      中國減持美債加速,美聯儲拋售3000億,中國接盤引質疑

      舊窗老街
      2026-04-25 22:15:45
      2026-04-25 22:56:49
      硅星GenAI incentive-icons
      硅星GenAI
      比一部分人更先進入GenAl。
      274文章數 38關注度
      往期回顧 全部

      科技要聞

      DeepSeek V4發布!黃仁勛預言的"災難"降臨

      頭條要聞

      臺媒:毛里求斯表態戳破臺當局謊言

      頭條要聞

      臺媒:毛里求斯表態戳破臺當局謊言

      體育要聞

      那一刻開始,兩支球隊的命運悄然改變了

      娛樂要聞

      《我們的爸爸2》第一季完美爸爸翻車了

      財經要聞

      90%訂單消失,中東旺季沒了

      汽車要聞

      2026款樂道L90亮相北京車展 樂道L80正式官宣

      態度原創

      房產
      親子
      教育
      公開課
      軍事航空

      房產要聞

      新一輪教育大爆發來了!海口,開始瘋狂建學校!

      親子要聞

      媽媽曝瑤一瑤有多動癥!5歲女兒坐不住愛亂摸,做挑釁表情不禮貌

      教育要聞

      吳欣歆:整本書閱讀的五種基本策略

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      美防長:戰事不會“沒完沒了”

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 中国熟妇浓毛hdsex| 亚洲国产欧美日本视频| 一本无码久本草在线中文字幕dvd| 国产成人无码a区精油按摩| 青青青青国产免费线在线观看| 国产精品毛片av999999| 中文字幕一二区| 亚洲AV电影网| 日日插插| 亚洲制服中文字幕一区二区| 亚洲中文字幕久久久一区 | 久艹AV| 修水县| 国产精品00校花H视频| 国产91特黄特色A级毛片| 亚洲精品一二三四| 麻豆国产尤物av尤物在线观看| 99国产欧美另类久久久精品| 成人国产精品免费视频| 欧美a在线| 91网在线| 国产chinesehdxxxx老太婆| 亚洲最大福利视频网| 国产精品欧美亚洲韩国日本久久| 精品久久久久久国产| 中国xxx农村性视频| 日韩乱码人妻无码中文字幕| 欧美成人无码大胆A片软件蜜臀| 五十路熟妇| 亚洲国产色一区二区三区| 粉嫩高中生无码视频在线观看| 色老板精品视频在线观看| 中文字幕有码无码av| 毛片无遮挡高清免费| 99久久婷婷国产综合精品青草五月| 久草视频网| 中文字幕亚洲精品第一页| 5d肉蒲团之性战奶水| 欧美性受xxxx白人性爽| 成人综合婷婷国产精品久久| 久久国产免费直播|