![]()
新智元報道
編輯:KingHZ
【新智元導(dǎo)讀】谷歌AI的集體勝利:Gemini 3發(fā)布,參與人數(shù)媲美NASA登月!從芯片到算法的全棧專家合力,Koray與Logan剖析工程協(xié)作的魅力。
伴隨Gemini?3的發(fā)布,谷歌一舉問鼎AI王座!
曾經(jīng)被認(rèn)為處于「落后」?fàn)顟B(tài)的谷歌,如今正憑借一系列技術(shù)、戰(zhàn)略與資源優(yōu)勢,試圖奪回在生成式AI時代的主導(dǎo)地位。
近期,谷歌DeepMind的CTO Koray Kavukcuoglu與谷歌AI Studio產(chǎn)品Logan Kilpatrick負(fù)責(zé)人深度剖析Gemini 3發(fā)布盛況、AI前沿創(chuàng)新及AGI征途。
![]()
全程45分鐘,聚焦模型優(yōu)化、工程協(xié)作與生成媒體崛起,揭示了谷歌AI戰(zhàn)略藍(lán)圖。
這一輪升級,不只是「又多了一個大模型」,而是谷歌在公開宣告——
我們要和全球用戶一起,共建下一代智能系統(tǒng)。
與用戶共創(chuàng),一切才剛剛開始
Gemini 3發(fā)布,AI界進(jìn)入「共建AGI」新階段。
「我對現(xiàn)在的進(jìn)展非常激動。」在現(xiàn)場,Koray Kavukcuoglu難掩興奮,
我們確實在多個維度上推進(jìn)了技術(shù)邊界。這就是我們構(gòu)建AGI的方式:腳踏實地、全情投入。
這并不是一次閉門造車的科研成果,而是一次面向全球用戶的「共建實驗」。
![]()
「我們正和用戶一起,協(xié)同打造AGI。世界已經(jīng)變了,新技術(shù)正在重塑人們的期待。」
他微笑著補(bǔ)充:「突然之間,更多人都能成為創(chuàng)造者。讓任何事物成真。」我們正處在一個激動人心的時代。
Koray表示,很多人對AGI的想象,還是停留在實驗室里的「象牙塔」模式。但現(xiàn)實恰恰相反——
「我們并不是關(guān)起門來搞研究,而是在與整個世界共同構(gòu)建AGI。」
他指出,AGI是可靠的系統(tǒng)工程。要構(gòu)建一套穩(wěn)定、安全、可靠的系統(tǒng),就必須從最底層開始打基礎(chǔ)。
谷歌采用工程師的思維方式,事先就要考慮這些因素。
他介紹道,在Gemini的訓(xùn)練過程中,安全團(tuán)隊、安全技術(shù)、乃至每一位模型研發(fā)成員,都直接參與了模型訓(xùn)練的后期過程。「我們不會等到模型做完才來檢測安全性,而是把安全性當(dāng)作核心目標(biāo),與模型能力的迭代同步進(jìn)行。」
Gemini 3的發(fā)布不僅是一次模型迭代,更是一場涵蓋谷歌各大團(tuán)隊的集體行動。Logan說:「這可能是Google歷史上參與人數(shù)最多的一次技術(shù)發(fā)布,僅次于NASA登月。」對此,Koray點頭稱是。
從2.5到3.0:Gemini不斷加速
主持人Logan Kilpatrick是DeepMind團(tuán)隊成員。上次兩人坐在一起,還是Gemini 2.5發(fā)布時,他們在I/O大會上聽Dennis和Sergey談AI。
當(dāng)時,Logan就覺得進(jìn)展非常快——現(xiàn)在看來,根本沒慢下來。
Koray對研究的進(jìn)展非常興奮。他表示,不管是數(shù)據(jù)處理、預(yù)訓(xùn)練還是后訓(xùn)練,一切都離不開創(chuàng)新:
越是貼近真實世界,模型的接觸面越廣,反饋信號越豐富,從中誕生的想法就越多。
我們面臨的問題會越來越復(fù)雜,而正是這些挑戰(zhàn)推動我們一步步走向智能的本質(zhì)。
在某些基準(zhǔn)測試上,AI已經(jīng)接近飽和。
![]()
很多人擔(dān)心,這是不是意味著進(jìn)展停滯?
Koray并不認(rèn)同這種看法——
測試集本來就是當(dāng)初技術(shù)尚未突破時設(shè)定的,所以過一段時間自然會「被攻克」。
要提升模型能力,就需要不斷設(shè)立新的基準(zhǔn)。這是機(jī)器學(xué)習(xí)的常態(tài):基準(zhǔn)推動模型發(fā)展,而新模型又促使我們重新定義基準(zhǔn)。
技術(shù)進(jìn)步不靠「擠壓分?jǐn)?shù)」,而靠重新定義邊界。
以GPQA、人類最后的考試等高難度測試為例,最初模型幾乎拿不到分,但現(xiàn)在能達(dá)到40%以上,這說明模型確實在進(jìn)步。雖然「每次只提高1%」,但這些1%往往意味著突破了極其復(fù)雜的問題。
![]()
在Koray看來,最重要的進(jìn)步衡量標(biāo)準(zhǔn)是——
用戶真的在用:
科學(xué)家、學(xué)生、律師、工程師都在用Gemini模型來寫作、編程、創(chuàng)作內(nèi)容……
在真實世界中,AI模型能持續(xù)創(chuàng)造價值,這才是真正的進(jìn)步。
落地才是AGI的關(guān)鍵
如今,AI基準(zhǔn)測試種類繁多。到底要怎么決定要在哪些方面持續(xù)發(fā)力?
谷歌一直重點關(guān)注以下這兩大領(lǐng)域。
指令遵循(instruction following)——模型必須能理解用戶請求,并按要求回應(yīng)。
國際化。「谷歌是全球化公司,我們必須確保模型適用于全球用戶。」
談到更技術(shù)性的領(lǐng)域,Koray特別提到幾個關(guān)鍵詞:
函數(shù)調(diào)用、工具調(diào)用、智能體行為、編程能力……
他解釋說:「AI模型不僅能自然調(diào)用各種工具和函數(shù),更能自己寫出這些工具。某種意義上,模型本身就是一種工具。」
這不僅為模型提供了推理能力,也拓展了其實際應(yīng)用場景。
而代碼能力的重要性,不僅因為「大家都是程序員」,更因為代碼是數(shù)字世界的底層語言——只要你會寫代碼,就可以創(chuàng)造任何東西。
這意味著,谷歌讓更多人擁有了「構(gòu)建的能力」。
Logan提到這次Gemini 3的發(fā)布,還同時上線了谷歌新平臺Anti-gravity,一個AI驅(qū)動的編程智能體平臺。他好奇這種產(chǎn)品層面的「共建」對模型訓(xùn)練是否真的有幫助。
![]()
Koray毫不猶豫地回答:「非常重要。」
在他看來,Anti-gravity不僅是一款產(chǎn)品,它讓模型直接面對用戶,尤其是開發(fā)者。谷歌可以從中獲取第一手的使用反饋,了解模型在哪些地方需要改進(jìn)。他舉例說:
不僅是Anti-gravity,AI Studio、Gemini App、搜索的AI摘要功能——我們通過這些產(chǎn)品獲得了大量反饋。
正是這種與產(chǎn)品的深度整合,幫助我們了解用戶真正的需求。
他強(qiáng)調(diào)道:「AI模型要真正有用,必須在真實場景中落地。這才是關(guān)鍵。」
Gemini 3很強(qiáng),但還遠(yuǎn)未「滿分」
Gemini 3刷新了多項基準(zhǔn)測試,但谷歌清楚知道他們還有很長的路要走。
![]()
他們很清楚——
寫作、編程不夠完美。
特別是「智能體行為」和「工具使用」這塊,Gemini還有很多提升空間。
Koray坦言:「并不是有意忽視智能體與工具調(diào)用,我覺得主要原因是——我們當(dāng)時離真實世界的應(yīng)用場景還不夠近。」
他說,Gemini項目一開始更多是在研究環(huán)境中展開,但隨著項目逐步轉(zhuǎn)向產(chǎn)品化,它的「開發(fā)環(huán)境」也越來越貼近實際需求。越貼近用戶,越能理解真實的技術(shù)難題。
五年前, Gemini研究人員還在寫論文、做研究。而現(xiàn)在,每六個月Gemini迭代一次,每月或每六周更新一次。
過去是25人署名論文,現(xiàn)在是2500人參與Gemini 3項目。
回首往事,真是令人感慨!
他認(rèn)為,這是谷歌的巨大優(yōu)勢之一——從芯片、數(shù)據(jù)中心、網(wǎng)絡(luò)、工程到模型算法,每一層都有世界級專家,而Gemini正是在這種「全棧協(xié)作」的基礎(chǔ)上誕生的。
「這就是為什么需要幾千人合作。這不是障礙,這是力量。」
統(tǒng)一架構(gòu):我們正在靠近「萬能模型」
談到多模態(tài)發(fā)展時,Logan提到Gemini V3、Nano Banana模型等圖像與視頻生成模型的進(jìn)展,并好奇:「視頻模型真的是構(gòu)建AGI的一部分嗎?」
Koray回顧了過去十幾年的發(fā)展:
最早的生成模型集中在圖像,是因為圖像更容易觀察和理解世界中的物理規(guī)律。
過去,大家以為文本進(jìn)展會慢,但事實證明文本是最容易突破的領(lǐng)域。
現(xiàn)在,圖像、視頻、音頻等多模態(tài)模型的能力正在回歸,它們和文本模型的架構(gòu)也正在趨同。
他舉例說,Nano Banana模型是首次讓用戶能與圖像生成模型進(jìn)行對話式交互,「文本模型帶來的世界理解能力,和圖像模型帶來的感知能力,一旦結(jié)合,就會產(chǎn)生極大的協(xié)同效應(yīng)。」
他還解釋道:
現(xiàn)在模型架構(gòu)確實越來越統(tǒng)一了,過去圖像模型和文本模型的架構(gòu)差異很大,但現(xiàn)在它們正在自然融合,因為大家都在追求更高的效率與表現(xiàn)力。
盡管趨勢在向統(tǒng)一架構(gòu)邁進(jìn),但Koray指出:圖像生成仍然是一個難度極大的方向。
因為AI模型的學(xué)習(xí)信號主要來自輸出空間,而現(xiàn)在的學(xué)習(xí)信號以代碼和文本為主,圖像則更難。
「圖像不僅要像素級完美,還要概念上連貫。它每一個像素的存在都要契合整張圖的主題。這種雙重要求,訓(xùn)練起來特別難。」
不過Koray也很樂觀:「我們會繼續(xù)尋找適合的模型創(chuàng)新,讓統(tǒng)一模型真正成為現(xiàn)實。」
當(dāng)Gemini模型能把大段復(fù)雜文本的核心概念,用一張圖表達(dá)出來,那感覺就是魔法時刻。
![]()
他認(rèn)為,這正是多模態(tài)模型的價值所在——AI模型不僅能理解抽象,還能用最直觀的方式表達(dá)出來。
誠實面對落后,是唯一的出路
加入谷歌的初期,Logan有種「谷歌是AI界的挑戰(zhàn)者」的感覺。雖然有技術(shù)底子,但外界并不看好。
Koray點頭回應(yīng):「我當(dāng)時也有一樣的感覺。說實話,在大語言模型(LLM)剛崛起的階段,我們并不在最前線。」
這也是一次深刻的教訓(xùn)——永遠(yuǎn)不要忽視新方向的重要性。
啟動Gemini項目時,谷歌非常明確形勢:「我們落后了,我們需要迎頭趕上,我們還沒有掌握關(guān)鍵能力。」
初期,Gemini團(tuán)隊必須快速學(xué)習(xí)別人的做法,同時找到自己的創(chuàng)新路徑——無論是模型結(jié)構(gòu)、訓(xùn)練流程、數(shù)據(jù)使用還是協(xié)作方式,都做了非常深度的調(diào)整。
如今,他們找到了獨屬于谷歌、屬于Gemini的系統(tǒng)打法。
外界常說,谷歌太大、太慢、不夠靈活。但Koray有不同看法——
規(guī)模不是阻礙,是獨特的力量源泉。
谷歌下一階段怎么超越自己?
Koray的回答一如既往地冷靜清晰:
我們一定會繼續(xù)進(jìn)步,每一個方向都有改進(jìn)空間。
我們的目標(biāo)一直很清晰——構(gòu)建真正的智能。我們會把全部的心思、創(chuàng)新力和資源投入到這條路上,行穩(wěn)致遠(yuǎn)。
Gemini下一階段永遠(yuǎn)在前線,也永遠(yuǎn)準(zhǔn)備好革新。
參考資料:
https://www.youtube.com/watch?v=iFqDyWFuw1c&t=1s
https://fortune.com/2025/11/25/google-sleeping-giant-dark-horse-ai-race-gemini/
秒追ASI
?點贊、轉(zhuǎn)發(fā)、在看一鍵三連?
點亮星標(biāo),鎖定新智元極速推送!
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.