網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

谷歌最新版「深度研究」反擊GPT-5.2

2025-12-12 10:15:41　來源: 新智元

北京舉報(bào)

分享至

新智元報(bào)道

編輯：定慧

【新智元導(dǎo)讀】谷歌和OpenAI現(xiàn)在是針尖對(duì)麥芒！現(xiàn)在兩家公司是用各種新產(chǎn)品互相炮轟對(duì)方。

而在GPT-5.2發(fā)布前一個(gè)多小時(shí)，谷歌就率先推出全新版Gemini Deep Research Agent。

谷歌對(duì)Gemini深度研究進(jìn)行了重新構(gòu)想，使其比以往任何時(shí)候都更加強(qiáng)大。

新版Deep Research Agent基于Gemini 3 Pro構(gòu)建；
通過多步強(qiáng)化學(xué)習(xí)訓(xùn)練，提高準(zhǔn)確性并減少幻覺；
它能夠處理海量上下文，并提供引用來源驗(yàn)證提出的每一個(gè)觀點(diǎn)。

除了Deep Research Agent功能更新，還放出了另外兩項(xiàng)全新能力：

開源新網(wǎng)絡(luò)研究Agent基準(zhǔn)DeepSearchQA，驗(yàn)證智能體在網(wǎng)絡(luò)研究任務(wù)中的全面性；
推出全新交互API（Interactions API）。

雖然GPT-5.2剛剛發(fā)布無(wú)法對(duì)比，但谷歌DeepMind產(chǎn)品經(jīng)理路Lukas Haas在社交平臺(tái)X上透露：

最新版Gemini Deep Research Agent在谷歌新基準(zhǔn)測(cè)試上得分46.4%，在BrowseComp上與GPT-5 Pro相當(dāng)，價(jià)格卻低了一個(gè)數(shù)量級(jí)。

深度研究，更「深度」了

Gemini Deep Research是一款專為長(zhǎng)時(shí)間上下文收集與綜合任務(wù)優(yōu)化的智能體。

該智能體的推理核心采用迄今為止最具事實(shí)準(zhǔn)確性的Gemini 3 Pro模型，并經(jīng)過專門訓(xùn)練，以在復(fù)雜任務(wù)中減少幻覺生成并最大化報(bào)告質(zhì)量。

通過擴(kuò)展多步強(qiáng)化學(xué)習(xí)在搜索中的應(yīng)用，該智能體能夠以高精度自主駕馭復(fù)雜的信息環(huán)境。

Gemini Deep Research在完整Humanity's Last Exam(HLE)測(cè)試集中達(dá)到46.4%的領(lǐng)先水平，在DeepSearchQA上取得66.1%的優(yōu)異成績(jī)，并在BrowseComp測(cè)試中獲得59.2%的高分表現(xiàn)。

DeepResearch采用迭代式研究規(guī)劃?rùn)C(jī)制——它會(huì)制定查詢、閱讀結(jié)果、識(shí)別知識(shí)缺口并再次搜索。

本次版本大幅改進(jìn)了網(wǎng)絡(luò)搜索功能，使其能夠深入網(wǎng)站獲取特定數(shù)據(jù)。

該智能體經(jīng)過優(yōu)化，能夠以更低成本生成經(jīng)過充分研究的報(bào)告。

不同于傳統(tǒng)的聊天機(jī)器人（Chatbot），Deep Research被設(shè)計(jì)為一個(gè)長(zhǎng)時(shí)程運(yùn)行的系統(tǒng)，其核心競(jìng)爭(zhēng)力在于處理「非即時(shí)性」的復(fù)雜任務(wù)。

簡(jiǎn)單聊聊深度研究

深度研究，算是日常使用AI工具中，最高頻的功能了。

畢竟每個(gè)月20美元，就能享受到多次「博士級(jí)」的服務(wù)，何樂而不為。

我的觀點(diǎn)就是，深度研究是普通人最能降維打擊知識(shí)服務(wù)的AI工具。

Deep Research，這一類深度研究的智能并非源于單一模型的暴力計(jì)算，而是源于其復(fù)雜的智能體工作流（Agentic Workflow）。

該工作流模擬了人類專家在面對(duì)陌生領(lǐng)域時(shí)的認(rèn)知行為，主要包含規(guī)劃、執(zhí)行、推理與報(bào)告四個(gè)閉環(huán)階段。

當(dāng)用戶提交一個(gè)模糊的宏觀指令（例如「分析2030年量子傳感器的商業(yè)化路徑」）時(shí)，DeepResearch首先啟動(dòng)的是其規(guī)劃模塊。

基于Gemini 3 Pro強(qiáng)大的推理能力，系統(tǒng)不會(huì)立即進(jìn)行搜索，而是通過「后退一步提示」技術(shù)，將這一宏觀問題拆解為多個(gè)子維度的研究路徑，如技術(shù)成熟度、供應(yīng)鏈瓶頸、政策監(jiān)管環(huán)境及主要競(jìng)爭(zhēng)對(duì)手分析。

這一規(guī)劃過程是動(dòng)態(tài)的。在傳統(tǒng)的鏈?zhǔn)剿季S中，路徑往往是線性的；而在DeepResearch中，規(guī)劃樹是可擴(kuò)展的。

如果在初步搜索中發(fā)現(xiàn)了未預(yù)見的新概念，系統(tǒng)會(huì)實(shí)時(shí)修改研究計(jì)劃，增加新的分支進(jìn)行深入挖掘。

DeepSearchQA：深度研究智能體的基準(zhǔn)測(cè)試

在上面的基準(zhǔn)測(cè)試中，你應(yīng)該注意到一個(gè)叫做DeepSearchQA。

這就是谷歌專門針對(duì)深度研究智能體開發(fā)的測(cè)試基準(zhǔn)，一個(gè)用于評(píng)估智能體在復(fù)雜多步驟信息檢索任務(wù)表現(xiàn)的全新基準(zhǔn)。

DeepSearchQA包含涵蓋17個(gè)領(lǐng)域的900項(xiàng)人工設(shè)計(jì)的因果鏈任務(wù)，其中每個(gè)步驟都依賴于先前的分析。

與傳統(tǒng)基于事實(shí)的測(cè)試不同，DeepSearchQA通過要求智能體生成詳盡答案集來評(píng)估研究完整性，同時(shí)檢驗(yàn)研究精確度與信息召回能力。

DeepSearchQA還可作為思考時(shí)間效益的診斷工具。

在內(nèi)部評(píng)估中，谷歌發(fā)現(xiàn)當(dāng)允許智能體執(zhí)行更多搜索和推理步驟時(shí)，其性能獲得顯著提升。

對(duì)比pass@8與pass@1的結(jié)果，證明了讓智能體通過并行探索多條軌跡進(jìn)行答案驗(yàn)證的價(jià)值。

這些結(jié)果基于DeepSearchQA的200個(gè)提示子集計(jì)算得出。

交互API：專為Agent應(yīng)用開發(fā)設(shè)計(jì)

交互API原生集成了一套專屬接口，該接口專為Agent應(yīng)用開發(fā)場(chǎng)景設(shè)計(jì)，可高效處理交錯(cuò)式消息、思維鏈、工具調(diào)用及其狀態(tài)信息的復(fù)雜上下文管理工作。

除Gemini模型套件外，交互API還提供其首個(gè)內(nèi)置Gemini Deep Research Agent。

下一步，谷歌將擴(kuò)展其內(nèi)置Agent，并提供構(gòu)建和引入其他Agent的功能，這將使開發(fā)者能夠通過一個(gè)API連接Gemini模型、谷歌內(nèi)置Agent和開發(fā)者的定制Agent。

交互API提供了一個(gè)單一的RESTful端點(diǎn)，用于與模型和Agent交互。

Interactions API擴(kuò)展了generateContent的核心功能，為現(xiàn)代智能體應(yīng)用提供所需特性，包括：

可選服務(wù)器端狀態(tài)：將歷史記錄管理卸載到服務(wù)器的能力。這簡(jiǎn)化了客戶端代碼，減少上下文管理錯(cuò)誤，并可能通過提高緩存命中率來降低成本。
可解釋且可組合的數(shù)據(jù)模型：專為復(fù)雜智能體歷史記錄設(shè)計(jì)的清晰架構(gòu)。您可以對(duì)交錯(cuò)排列的消息、思考過程、工具及其結(jié)果進(jìn)行調(diào)試、操作、流式處理和邏輯推理。
后臺(tái)執(zhí)行：無(wú)需維持客戶端連接，即可將長(zhǎng)時(shí)間運(yùn)行的推理循環(huán)卸載到服務(wù)器端的能力。
遠(yuǎn)程MCP工具支持：模型可直接調(diào)用模型上下文協(xié)議（MCP）服務(wù)器作為工具。

隨著InteractionsAPI的推出，Google試圖重新定義開發(fā)者構(gòu)建AI應(yīng)用的方式，從「無(wú)狀態(tài)的請(qǐng)求-響應(yīng)」模式轉(zhuǎn)向「有狀態(tài)的智能體交互」模式。

目前的LLM API大多是無(wú)狀態(tài)的。開發(fā)者必須在客戶端維護(hù)整個(gè)對(duì)話歷史，并在每次請(qǐng)求時(shí)將數(shù)萬(wàn)token的上下文發(fā)送回服務(wù)器。

這不僅增加了延遲和帶寬成本，還使得構(gòu)建復(fù)雜的、多步驟的Agent變得異常繁瑣。

Interactions API引入了服務(wù)器端狀態(tài)管理。

開發(fā)者只需通過/interactions端點(diǎn)創(chuàng)建一個(gè)會(huì)話，Google的服務(wù)器就會(huì)自動(dòng)維護(hù)該會(huì)話的所有上下文、工具調(diào)用結(jié)果以及Agent的內(nèi)部思維狀態(tài)。

這才是我認(rèn)為谷歌這個(gè)最新API恐怖的地方。

Interactions API最革命性的特性在于它允許開發(fā)者直接調(diào)用谷歌預(yù)訓(xùn)練的高級(jí)Agent，而不僅僅是基礎(chǔ)模型。

比如開發(fā)者可以通過簡(jiǎn)單的API調(diào)用（指定agent=deep-research-pro-preview-12-2025）將Google最頂尖的研究能力嵌入到自己的ERP、CRM或科研軟件中。

考慮到DeepResearch一次任務(wù)可能消耗數(shù)十萬(wàn)token的閱讀量和生成量，單次深度研究的成本可能達(dá)到數(shù)美元。

然而，與其替代的人類初級(jí)分析師數(shù)小時(shí)甚至數(shù)天的工作成本相比，這一價(jià)格仍具有極高的投資回報(bào)率。

DeepMind與英國(guó)政府達(dá)成合作

最后，還有一個(gè)消息值得注意。

在谷歌和OpenAI打生打死意外，谷歌DeepMIind已經(jīng)在國(guó)家層面，展開合作。

DeepMind作為誕生于倫敦的AI巨頭，正在通過DeepResearch及其底層技術(shù)，與英國(guó)政府展開一場(chǎng)規(guī)模空前的「AI治國(guó)」實(shí)驗(yàn)。

這一合作不僅涉及科學(xué)探索，更深入到公共行政的毛細(xì)血管，特別是在解決英國(guó)長(zhǎng)期存在的住房危機(jī)和規(guī)劃效率低下問題上取得了突破性進(jìn)展。

Project Extract：破解城市規(guī)劃的「數(shù)據(jù)孤島」

英國(guó)的城市規(guī)劃系統(tǒng)（Planning System）長(zhǎng)期以來被視為阻礙經(jīng)濟(jì)增長(zhǎng)和住房建設(shè)的瓶頸。

每年，地方議會(huì)需要處理約35萬(wàn)份規(guī)劃申請(qǐng)，而大量的歷史規(guī)劃?rùn)n案仍以紙質(zhì)、掃描PDF或手繪地圖的形式存在。

規(guī)劃師往往需要花費(fèi)數(shù)小時(shí)在一個(gè)布滿灰塵的檔案中尋找?guī)资昵皠澏ǖ牡叵鹿芫€或保護(hù)區(qū)邊界。

為了解決這一痛點(diǎn)，DeepMind與英國(guó)政府AI孵化器（i.AI）合作開發(fā)了Extract工具。

這不是一個(gè)簡(jiǎn)單的OCR軟件，而是一個(gè)基于Gemini多模態(tài)推理能力的復(fù)雜地理空間智能系統(tǒng)。

非結(jié)構(gòu)化信息理解：
Extract首先利用Gemini的視覺語(yǔ)言能力讀取低質(zhì)量的掃描文檔。它不僅能識(shí)別文字，還能理解手寫注釋的語(yǔ)義（例如，識(shí)別旁注中的「批準(zhǔn)日期」而非「申請(qǐng)日期」），其日期識(shí)別準(zhǔn)確率達(dá)到了94%。
視覺推理與多邊形提取：
這是最核心的技術(shù)突破。Gemini能夠理解地圖上的視覺符號(hào)語(yǔ)言，例如區(qū)分「紅色實(shí)線」代表的產(chǎn)權(quán)邊界和「藍(lán)色虛線」代表的排水渠。一旦識(shí)別出目標(biāo)區(qū)域，系統(tǒng)會(huì)調(diào)用OpenCV和SAM等計(jì)算機(jī)視覺工具，像數(shù)字手術(shù)刀一樣精確地從像素圖像中提取出地理多邊形，其形狀匹配度（IoU）達(dá)到了90%。
時(shí)空特征匹配：
歷史地圖的比例尺和參照系往往與現(xiàn)代衛(wèi)星地圖不同。Extract利用LoFTR算法，能夠在舊地圖和現(xiàn)代地圖之間找到共同的特征點(diǎn)（如古老的教堂、路口），計(jì)算出精確的變換矩陣，將幾十年前的手繪紅線精確映射到今天的數(shù)字地圖坐標(biāo)系中。
全流程自動(dòng)化：
通過這一流程，Extract將一份復(fù)雜規(guī)劃文檔的處理時(shí)間從平均2小時(shí)壓縮至40秒到3分鐘。這意味著一個(gè)地方議會(huì)每天可以數(shù)字化處理上百份積壓檔案，效率提升了百倍。

目前，Extract已在威斯敏斯特（Westminster）、希靈登（Hillingdon）等四個(gè)地區(qū)進(jìn)行試點(diǎn)。

英國(guó)政府計(jì)劃在2026年春季將其推廣至全國(guó)所有地方議會(huì)。

這不僅將釋放數(shù)千小時(shí)的行政人力，更重要的是，它將構(gòu)建一個(gè)全國(guó)統(tǒng)一的數(shù)字規(guī)劃數(shù)據(jù)庫(kù)，為英國(guó)政府承諾的「建設(shè)150萬(wàn)套新住房」計(jì)劃提供數(shù)據(jù)底座。

這是DeepResearch技術(shù)在垂直領(lǐng)域應(yīng)用的最佳范例——將通用的多模態(tài)推理能力轉(zhuǎn)化為具體的行政生產(chǎn)力。

科學(xué)新基建：從AlphaFold到自動(dòng)化材料實(shí)驗(yàn)室

在基礎(chǔ)科學(xué)領(lǐng)域，DeepMind與英國(guó)政府的合作旨在通過AI加速科學(xué)發(fā)現(xiàn)的飛輪效應(yīng)。

DeepMind宣布將于2026年在英國(guó)建立其首個(gè)自動(dòng)化AI科學(xué)實(shí)驗(yàn)室。

閉環(huán)發(fā)現(xiàn)系統(tǒng)：實(shí)驗(yàn)室將運(yùn)行一個(gè)由Gemini和GNoME（Graph Networks for Materials Exploration）驅(qū)動(dòng)的閉環(huán)系統(tǒng)。AI負(fù)責(zé)基于量子化學(xué)原理設(shè)計(jì)新的晶體結(jié)構(gòu)，預(yù)測(cè)其穩(wěn)定性。
機(jī)器人合成：這些設(shè)計(jì)指令直接發(fā)送給全自動(dòng)化的機(jī)器人平臺(tái)，機(jī)器人負(fù)責(zé)配料、合成、燒結(jié)和測(cè)試。
數(shù)據(jù)反饋：實(shí)驗(yàn)結(jié)果實(shí)時(shí)反饋給AI，用于修正下一輪的預(yù)測(cè)。目標(biāo)是將新材料（如室溫超導(dǎo)體、高效電池電解質(zhì)）的發(fā)現(xiàn)周期從數(shù)十年縮短至數(shù)月甚至數(shù)天。這一舉措直接服務(wù)于英國(guó)的凈零排放（NetZero）戰(zhàn)略和能源安全。

除了硬件實(shí)驗(yàn)室，DeepMind還向英國(guó)科學(xué)家開放了一系列前沿AI模型：

國(guó)家安全與數(shù)字免疫系統(tǒng)

在安全領(lǐng)域，合作重點(diǎn)從「進(jìn)攻性能力」轉(zhuǎn)向了「防御性韌性」。

DeepMind與英國(guó)AI安全研究所（UKAI Security Institute）合作，部署了基于DeepResearch技術(shù)的網(wǎng)絡(luò)防御工具。

BigSleep(原Project Naptime)：這是一個(gè)利用LLM在大規(guī)模代碼庫(kù)中尋找潛伏漏洞的智能體。它曾成功在SQLite等核心開源基礎(chǔ)設(shè)施中發(fā)現(xiàn)了人類專家未能察覺的內(nèi)存安全漏洞。
Code Mender：與BigSleep配合，不僅發(fā)現(xiàn)漏洞，還能自動(dòng)生成修復(fù)代碼補(bǔ)丁。這一套「發(fā)現(xiàn)-修復(fù)」的自動(dòng)化閉環(huán)，旨在為英國(guó)的國(guó)家關(guān)鍵信息基礎(chǔ)設(shè)施（CII）構(gòu)建一套實(shí)時(shí)的「數(shù)字免疫系統(tǒng)」，抵御日益復(fù)雜的網(wǎng)絡(luò)攻擊。

以上就是谷歌這次針對(duì)GPT 5.2的更新內(nèi)容。

個(gè)人認(rèn)為谷歌目前還是最強(qiáng)的。

雖然昨夜GPT 5.2閃擊Gemini 3成功，但是在多模態(tài)能力依然還是稍微落后的，或者在年底會(huì)有一個(gè)對(duì)標(biāo)Nano Banana Pro的產(chǎn)品出現(xiàn)。

而且從最新的深度研究智能體來看，以及DeepMind在英國(guó)的深度戰(zhàn)略布局，谷歌更加領(lǐng)先一步。

這種領(lǐng)先性向我們展示了AI技術(shù)發(fā)展的一個(gè)清晰圖景：

通用人工智能（AGI）的雛形正在從對(duì)話框中走出，演變?yōu)槟軌蚋兄⒁?guī)劃并改變物理與數(shù)字世界的智能體。

參考資料：

https://blog.google/technology/developers/deep-research-agent-gemini-api/

https://x.com/GoogleDeepMind/status/1999165701811015990

https://deepmind.google/blog/strengthening-our-partnership-with-the-uk-government-to-support-prosperity-and-security-in-the-ai-era/

秒追ASI

?點(diǎn)贊、轉(zhuǎn)發(fā)、在看一鍵三連?

點(diǎn)亮星標(biāo)，鎖定新智元極速推送！

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.