![]()
新智元報(bào)道
編輯:定慧
【新智元導(dǎo)讀】谷歌和OpenAI現(xiàn)在是針尖對(duì)麥芒!現(xiàn)在兩家公司是用各種新產(chǎn)品互相炮轟對(duì)方。
而在GPT-5.2發(fā)布前一個(gè)多小時(shí),谷歌就率先推出全新版Gemini Deep Research Agent。
![]()
谷歌對(duì)Gemini深度研究進(jìn)行了重新構(gòu)想,使其比以往任何時(shí)候都更加強(qiáng)大。
新版Deep Research Agent基于Gemini 3 Pro構(gòu)建;
通過多步強(qiáng)化學(xué)習(xí)訓(xùn)練,提高準(zhǔn)確性并減少幻覺;
它能夠處理海量上下文,并提供引用來源驗(yàn)證提出的每一個(gè)觀點(diǎn)。
![]()
除了Deep Research Agent功能更新,還放出了另外兩項(xiàng)全新能力:
開源新網(wǎng)絡(luò)研究Agent基準(zhǔn)DeepSearchQA,驗(yàn)證智能體在網(wǎng)絡(luò)研究任務(wù)中的全面性;
推出全新交互API(Interactions API)。
雖然GPT-5.2剛剛發(fā)布無(wú)法對(duì)比,但谷歌DeepMind產(chǎn)品經(jīng)理路Lukas Haas在社交平臺(tái)X上透露:
![]()
最新版Gemini Deep Research Agent在谷歌新基準(zhǔn)測(cè)試上得分46.4%,在BrowseComp上與GPT-5 Pro相當(dāng),價(jià)格卻低了一個(gè)數(shù)量級(jí)。
![]()
深度研究,更「深度」了
Gemini Deep Research是一款專為長(zhǎng)時(shí)間上下文收集與綜合任務(wù)優(yōu)化的智能體。
該智能體的推理核心采用迄今為止最具事實(shí)準(zhǔn)確性的Gemini 3 Pro模型,并經(jīng)過專門訓(xùn)練,以在復(fù)雜任務(wù)中減少幻覺生成并最大化報(bào)告質(zhì)量。
通過擴(kuò)展多步強(qiáng)化學(xué)習(xí)在搜索中的應(yīng)用,該智能體能夠以高精度自主駕馭復(fù)雜的信息環(huán)境。
![]()
Gemini Deep Research在完整Humanity's Last Exam(HLE)測(cè)試集中達(dá)到46.4%的領(lǐng)先水平,在DeepSearchQA上取得66.1%的優(yōu)異成績(jī),并在BrowseComp測(cè)試中獲得59.2%的高分表現(xiàn)。
DeepResearch采用迭代式研究規(guī)劃?rùn)C(jī)制——它會(huì)制定查詢、閱讀結(jié)果、識(shí)別知識(shí)缺口并再次搜索。
本次版本大幅改進(jìn)了網(wǎng)絡(luò)搜索功能,使其能夠深入網(wǎng)站獲取特定數(shù)據(jù)。
該智能體經(jīng)過優(yōu)化,能夠以更低成本生成經(jīng)過充分研究的報(bào)告。
不同于傳統(tǒng)的聊天機(jī)器人(Chatbot),Deep Research被設(shè)計(jì)為一個(gè)長(zhǎng)時(shí)程運(yùn)行的系統(tǒng),其核心競(jìng)爭(zhēng)力在于處理「非即時(shí)性」的復(fù)雜任務(wù)。
簡(jiǎn)單聊聊深度研究
深度研究,算是日常使用AI工具中,最高頻的功能了。
畢竟每個(gè)月20美元,就能享受到多次「博士級(jí)」的服務(wù),何樂而不為。
我的觀點(diǎn)就是,深度研究是普通人最能降維打擊知識(shí)服務(wù)的AI工具。
![]()
Deep Research,這一類深度研究的智能并非源于單一模型的暴力計(jì)算,而是源于其復(fù)雜的智能體工作流(Agentic Workflow)。
該工作流模擬了人類專家在面對(duì)陌生領(lǐng)域時(shí)的認(rèn)知行為,主要包含規(guī)劃、執(zhí)行、推理與報(bào)告四個(gè)閉環(huán)階段。
![]()
當(dāng)用戶提交一個(gè)模糊的宏觀指令(例如「分析2030年量子傳感器的商業(yè)化路徑」)時(shí),DeepResearch首先啟動(dòng)的是其規(guī)劃模塊。
基于Gemini 3 Pro強(qiáng)大的推理能力,系統(tǒng)不會(huì)立即進(jìn)行搜索,而是通過「后退一步提示」技術(shù),將這一宏觀問題拆解為多個(gè)子維度的研究路徑,如技術(shù)成熟度、供應(yīng)鏈瓶頸、政策監(jiān)管環(huán)境及主要競(jìng)爭(zhēng)對(duì)手分析。
這一規(guī)劃過程是動(dòng)態(tài)的。在傳統(tǒng)的鏈?zhǔn)剿季S中,路徑往往是線性的;而在DeepResearch中,規(guī)劃樹是可擴(kuò)展的。
如果在初步搜索中發(fā)現(xiàn)了未預(yù)見的新概念,系統(tǒng)會(huì)實(shí)時(shí)修改研究計(jì)劃,增加新的分支進(jìn)行深入挖掘。
DeepSearchQA:深度研究智能體的基準(zhǔn)測(cè)試
在上面的基準(zhǔn)測(cè)試中,你應(yīng)該注意到一個(gè)叫做DeepSearchQA。
這就是谷歌專門針對(duì)深度研究智能體開發(fā)的測(cè)試基準(zhǔn),一個(gè)用于評(píng)估智能體在復(fù)雜多步驟信息檢索任務(wù)表現(xiàn)的全新基準(zhǔn)。
DeepSearchQA包含涵蓋17個(gè)領(lǐng)域的900項(xiàng)人工設(shè)計(jì)的因果鏈任務(wù),其中每個(gè)步驟都依賴于先前的分析。
與傳統(tǒng)基于事實(shí)的測(cè)試不同,DeepSearchQA通過要求智能體生成詳盡答案集來評(píng)估研究完整性,同時(shí)檢驗(yàn)研究精確度與信息召回能力。
DeepSearchQA還可作為思考時(shí)間效益的診斷工具。
在內(nèi)部評(píng)估中,谷歌發(fā)現(xiàn)當(dāng)允許智能體執(zhí)行更多搜索和推理步驟時(shí),其性能獲得顯著提升。
![]()
對(duì)比pass@8與pass@1的結(jié)果,證明了讓智能體通過并行探索多條軌跡進(jìn)行答案驗(yàn)證的價(jià)值。
這些結(jié)果基于DeepSearchQA的200個(gè)提示子集計(jì)算得出。
交互API:專為Agent應(yīng)用開發(fā)設(shè)計(jì)
![]()
交互API原生集成了一套專屬接口,該接口專為Agent應(yīng)用開發(fā)場(chǎng)景設(shè)計(jì),可高效處理交錯(cuò)式消息、思維鏈、工具調(diào)用及其狀態(tài)信息的復(fù)雜上下文管理工作。
除Gemini模型套件外,交互API還提供其首個(gè)內(nèi)置Gemini Deep Research Agent。
下一步,谷歌將擴(kuò)展其內(nèi)置Agent,并提供構(gòu)建和引入其他Agent的功能,這將使開發(fā)者能夠通過一個(gè)API連接Gemini模型、谷歌內(nèi)置Agent和開發(fā)者的定制Agent。
交互API提供了一個(gè)單一的RESTful端點(diǎn),用于與模型和Agent交互。
Interactions API擴(kuò)展了generateContent的核心功能,為現(xiàn)代智能體應(yīng)用提供所需特性,包括:
可選服務(wù)器端狀態(tài):將歷史記錄管理卸載到服務(wù)器的能力。這簡(jiǎn)化了客戶端代碼,減少上下文管理錯(cuò)誤,并可能通過提高緩存命中率來降低成本。
可解釋且可組合的數(shù)據(jù)模型:專為復(fù)雜智能體歷史記錄設(shè)計(jì)的清晰架構(gòu)。您可以對(duì)交錯(cuò)排列的消息、思考過程、工具及其結(jié)果進(jìn)行調(diào)試、操作、流式處理和邏輯推理。
后臺(tái)執(zhí)行:無(wú)需維持客戶端連接,即可將長(zhǎng)時(shí)間運(yùn)行的推理循環(huán)卸載到服務(wù)器端的能力。
遠(yuǎn)程MCP工具支持:模型可直接調(diào)用模型上下文協(xié)議(MCP)服務(wù)器作為工具。
隨著InteractionsAPI的推出,Google試圖重新定義開發(fā)者構(gòu)建AI應(yīng)用的方式,從「無(wú)狀態(tài)的請(qǐng)求-響應(yīng)」模式轉(zhuǎn)向「有狀態(tài)的智能體交互」模式。
目前的LLM API大多是無(wú)狀態(tài)的。開發(fā)者必須在客戶端維護(hù)整個(gè)對(duì)話歷史,并在每次請(qǐng)求時(shí)將數(shù)萬(wàn)token的上下文發(fā)送回服務(wù)器。
這不僅增加了延遲和帶寬成本,還使得構(gòu)建復(fù)雜的、多步驟的Agent變得異常繁瑣。
Interactions API引入了服務(wù)器端狀態(tài)管理。
開發(fā)者只需通過/interactions端點(diǎn)創(chuàng)建一個(gè)會(huì)話,Google的服務(wù)器就會(huì)自動(dòng)維護(hù)該會(huì)話的所有上下文、工具調(diào)用結(jié)果以及Agent的內(nèi)部思維狀態(tài)。
這才是我認(rèn)為谷歌這個(gè)最新API恐怖的地方。
Interactions API最革命性的特性在于它允許開發(fā)者直接調(diào)用谷歌預(yù)訓(xùn)練的高級(jí)Agent,而不僅僅是基礎(chǔ)模型。
比如開發(fā)者可以通過簡(jiǎn)單的API調(diào)用(指定agent=deep-research-pro-preview-12-2025)將Google最頂尖的研究能力嵌入到自己的ERP、CRM或科研軟件中。
考慮到DeepResearch一次任務(wù)可能消耗數(shù)十萬(wàn)token的閱讀量和生成量,單次深度研究的成本可能達(dá)到數(shù)美元。
然而,與其替代的人類初級(jí)分析師數(shù)小時(shí)甚至數(shù)天的工作成本相比,這一價(jià)格仍具有極高的投資回報(bào)率。
DeepMind與英國(guó)政府達(dá)成合作
最后,還有一個(gè)消息值得注意。
在谷歌和OpenAI打生打死意外,谷歌DeepMIind已經(jīng)在國(guó)家層面,展開合作。
DeepMind作為誕生于倫敦的AI巨頭,正在通過DeepResearch及其底層技術(shù),與英國(guó)政府展開一場(chǎng)規(guī)模空前的「AI治國(guó)」實(shí)驗(yàn)。
![]()
這一合作不僅涉及科學(xué)探索,更深入到公共行政的毛細(xì)血管,特別是在解決英國(guó)長(zhǎng)期存在的住房危機(jī)和規(guī)劃效率低下問題上取得了突破性進(jìn)展。
Project Extract:破解城市規(guī)劃的「數(shù)據(jù)孤島」
英國(guó)的城市規(guī)劃系統(tǒng)(Planning System)長(zhǎng)期以來被視為阻礙經(jīng)濟(jì)增長(zhǎng)和住房建設(shè)的瓶頸。
每年,地方議會(huì)需要處理約35萬(wàn)份規(guī)劃申請(qǐng),而大量的歷史規(guī)劃?rùn)n案仍以紙質(zhì)、掃描PDF或手繪地圖的形式存在。
規(guī)劃師往往需要花費(fèi)數(shù)小時(shí)在一個(gè)布滿灰塵的檔案中尋找?guī)资昵皠澏ǖ牡叵鹿芫€或保護(hù)區(qū)邊界。
![]()
為了解決這一痛點(diǎn),DeepMind與英國(guó)政府AI孵化器(i.AI)合作開發(fā)了Extract工具。
這不是一個(gè)簡(jiǎn)單的OCR軟件,而是一個(gè)基于Gemini多模態(tài)推理能力的復(fù)雜地理空間智能系統(tǒng)。
- 非結(jié)構(gòu)化信息理解:
Extract首先利用Gemini的視覺語(yǔ)言能力讀取低質(zhì)量的掃描文檔。它不僅能識(shí)別文字,還能理解手寫注釋的語(yǔ)義(例如,識(shí)別旁注中的「批準(zhǔn)日期」而非「申請(qǐng)日期」),其日期識(shí)別準(zhǔn)確率達(dá)到了94%。
- 視覺推理與多邊形提取:
這是最核心的技術(shù)突破。Gemini能夠理解地圖上的視覺符號(hào)語(yǔ)言,例如區(qū)分「紅色實(shí)線」代表的產(chǎn)權(quán)邊界和「藍(lán)色虛線」代表的排水渠。一旦識(shí)別出目標(biāo)區(qū)域,系統(tǒng)會(huì)調(diào)用OpenCV和SAM等計(jì)算機(jī)視覺工具,像數(shù)字手術(shù)刀一樣精確地從像素圖像中提取出地理多邊形,其形狀匹配度(IoU)達(dá)到了90%。
- 時(shí)空特征匹配:
歷史地圖的比例尺和參照系往往與現(xiàn)代衛(wèi)星地圖不同。Extract利用LoFTR算法,能夠在舊地圖和現(xiàn)代地圖之間找到共同的特征點(diǎn)(如古老的教堂、路口),計(jì)算出精確的變換矩陣,將幾十年前的手繪紅線精確映射到今天的數(shù)字地圖坐標(biāo)系中。
- 全流程自動(dòng)化:
通過這一流程,Extract將一份復(fù)雜規(guī)劃文檔的處理時(shí)間從平均2小時(shí)壓縮至40秒到3分鐘。這意味著一個(gè)地方議會(huì)每天可以數(shù)字化處理上百份積壓檔案,效率提升了百倍。
目前,Extract已在威斯敏斯特(Westminster)、希靈登(Hillingdon)等四個(gè)地區(qū)進(jìn)行試點(diǎn)。
英國(guó)政府計(jì)劃在2026年春季將其推廣至全國(guó)所有地方議會(huì)。
這不僅將釋放數(shù)千小時(shí)的行政人力,更重要的是,它將構(gòu)建一個(gè)全國(guó)統(tǒng)一的數(shù)字規(guī)劃數(shù)據(jù)庫(kù),為英國(guó)政府承諾的「建設(shè)150萬(wàn)套新住房」計(jì)劃提供數(shù)據(jù)底座。
這是DeepResearch技術(shù)在垂直領(lǐng)域應(yīng)用的最佳范例——將通用的多模態(tài)推理能力轉(zhuǎn)化為具體的行政生產(chǎn)力。
科學(xué)新基建:從AlphaFold到自動(dòng)化材料實(shí)驗(yàn)室
在基礎(chǔ)科學(xué)領(lǐng)域,DeepMind與英國(guó)政府的合作旨在通過AI加速科學(xué)發(fā)現(xiàn)的飛輪效應(yīng)。
DeepMind宣布將于2026年在英國(guó)建立其首個(gè)自動(dòng)化AI科學(xué)實(shí)驗(yàn)室。
閉環(huán)發(fā)現(xiàn)系統(tǒng):實(shí)驗(yàn)室將運(yùn)行一個(gè)由Gemini和GNoME(Graph Networks for Materials Exploration)驅(qū)動(dòng)的閉環(huán)系統(tǒng)。AI負(fù)責(zé)基于量子化學(xué)原理設(shè)計(jì)新的晶體結(jié)構(gòu),預(yù)測(cè)其穩(wěn)定性。
機(jī)器人合成:這些設(shè)計(jì)指令直接發(fā)送給全自動(dòng)化的機(jī)器人平臺(tái),機(jī)器人負(fù)責(zé)配料、合成、燒結(jié)和測(cè)試。
數(shù)據(jù)反饋:實(shí)驗(yàn)結(jié)果實(shí)時(shí)反饋給AI,用于修正下一輪的預(yù)測(cè)。目標(biāo)是將新材料(如室溫超導(dǎo)體、高效電池電解質(zhì))的發(fā)現(xiàn)周期從數(shù)十年縮短至數(shù)月甚至數(shù)天。這一舉措直接服務(wù)于英國(guó)的凈零排放(NetZero)戰(zhàn)略和能源安全。
除了硬件實(shí)驗(yàn)室,DeepMind還向英國(guó)科學(xué)家開放了一系列前沿AI模型:
國(guó)家安全與數(shù)字免疫系統(tǒng)
在安全領(lǐng)域,合作重點(diǎn)從「進(jìn)攻性能力」轉(zhuǎn)向了「防御性韌性」。
DeepMind與英國(guó)AI安全研究所(UKAI Security Institute)合作,部署了基于DeepResearch技術(shù)的網(wǎng)絡(luò)防御工具。
BigSleep(原Project Naptime):這是一個(gè)利用LLM在大規(guī)模代碼庫(kù)中尋找潛伏漏洞的智能體。它曾成功在SQLite等核心開源基礎(chǔ)設(shè)施中發(fā)現(xiàn)了人類專家未能察覺的內(nèi)存安全漏洞。
Code Mender:與BigSleep配合,不僅發(fā)現(xiàn)漏洞,還能自動(dòng)生成修復(fù)代碼補(bǔ)丁。這一套「發(fā)現(xiàn)-修復(fù)」的自動(dòng)化閉環(huán),旨在為英國(guó)的國(guó)家關(guān)鍵信息基礎(chǔ)設(shè)施(CII)構(gòu)建一套實(shí)時(shí)的「數(shù)字免疫系統(tǒng)」,抵御日益復(fù)雜的網(wǎng)絡(luò)攻擊。
以上就是谷歌這次針對(duì)GPT 5.2的更新內(nèi)容。
個(gè)人認(rèn)為谷歌目前還是最強(qiáng)的。
雖然昨夜GPT 5.2閃擊Gemini 3成功,但是在多模態(tài)能力依然還是稍微落后的,或者在年底會(huì)有一個(gè)對(duì)標(biāo)Nano Banana Pro的產(chǎn)品出現(xiàn)。
而且從最新的深度研究智能體來看,以及DeepMind在英國(guó)的深度戰(zhàn)略布局,谷歌更加領(lǐng)先一步。
這種領(lǐng)先性向我們展示了AI技術(shù)發(fā)展的一個(gè)清晰圖景:
通用人工智能(AGI)的雛形正在從對(duì)話框中走出,演變?yōu)槟軌蚋兄⒁?guī)劃并改變物理與數(shù)字世界的智能體。
參考資料:
https://blog.google/technology/developers/deep-research-agent-gemini-api/
https://x.com/GoogleDeepMind/status/1999165701811015990
https://deepmind.google/blog/strengthening-our-partnership-with-the-uk-government-to-support-prosperity-and-security-in-the-ai-era/
秒追ASI
?點(diǎn)贊、轉(zhuǎn)發(fā)、在看一鍵三連?
點(diǎn)亮星標(biāo),鎖定新智元極速推送!
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.