文 | 字母AI
谷歌真是急了。
前腳剛傳來消息,稱谷歌聯(lián)合創(chuàng)始人謝爾蓋·布林重啟“創(chuàng)始人模式”,親自督戰(zhàn)并組建精英“突擊隊(duì)”,全力提升Gemini在AI編程和自主智能體等關(guān)鍵能力上追趕Anthropic等對手。
后腳谷歌就深夜宣布重大更新,推出了兩款基于Gemini 3.1 Pro模型構(gòu)建的新一代自主研究智能體:Deep Research和Deep Research Max。
不僅在模型底層加強(qiáng)推理能力,還大力推動自主研究智能體向企業(yè)級、開發(fā)者平臺方向演進(jìn),通過API開放、支持私有數(shù)據(jù)、后臺異步任務(wù)等方式,試圖在“AI研究/分析工具”這個高價(jià)值場景中搶占先機(jī),應(yīng)對來自O(shè)penAI(Hermes)、Perplexity等對手的競爭。
![]()
這兩款智能體首次允許開發(fā)者通過單次API調(diào)用,將開放網(wǎng)絡(luò)數(shù)據(jù)與企業(yè)專有信息進(jìn)行融合,并在研究報(bào)告中原生生成圖表和信息圖,同時還可通過Model Context Protocol(MCP)連接任意第三方數(shù)據(jù)源。
兩款智能體即日起通過Gemini API的付費(fèi)套餐以公開預(yù)覽版形式開放,可通過谷歌于2025年12月首次推出的Interactions API進(jìn)行訪問。
沒錯,這些新代理目前只能通過API使用,普通用戶在Gemini的App里是享受不到的,就算付費(fèi)訂閱了也不行。看到更新的消息卻發(fā)現(xiàn)自己用不到,有用戶幽怨表示:“谷歌不知何故,持續(xù)懲罰著我們這些Gemini App的Pro訂閱用戶……”
![]()
谷歌首席執(zhí)行官桑達(dá)爾·皮查伊(Sundar Pichai)也親自下場在X上吆喝:“當(dāng)你需要速度和效率時,請使用Deep Research;當(dāng)你追求最高質(zhì)量的上下文收集與綜合時,請使用Max版本——它通過擴(kuò)展測試時計(jì)算,達(dá)到了DeepSearchQA 93.3%和HLE 54.6%的成績。”
![]()
18個月前,谷歌Deep Research的目標(biāo)還是要幫助研究生避免被海量瀏覽器標(biāo)簽頁淹沒。如今,谷歌卻希望它能夠取代投資銀行初級分析師的基礎(chǔ)研究工作。
這兩個目標(biāo)之間的差距——以及這項(xiàng)技術(shù)能否真正彌合這一差距——將決定自主研究代理究竟會成為企業(yè)軟件領(lǐng)域的變革性產(chǎn)品,還是僅僅成為又一個在基準(zhǔn)測試中光鮮亮麗卻在會議上令人失望的人工智能演示。
兩種版本,適配不同工作負(fù)載
標(biāo)準(zhǔn)版Deep Research有更低的延遲和更低的成本,適合拼速度的場景。
Deep Research Max則優(yōu)先考慮深度而非速度。該智能體通過擴(kuò)展測試時計(jì)算(extended test-time compute),進(jìn)行深入推理、搜索和迭代,最終生成報(bào)告。
谷歌指出,異步后臺工作流是其理想使用場景,例如通過定時任務(wù)(cron job)在夜間運(yùn)行,第二天早上就能為分析師團(tuán)隊(duì)交付一份完整的盡職調(diào)查報(bào)告。
在谷歌自己的基準(zhǔn)測試中,Deep Research Max在檢索和推理任務(wù)上取得了顯著進(jìn)步。該智能體能夠從比之前版本更多的來源中獲取信息,并捕捉到舊模型容易忽略的細(xì)微差別。
![]()
谷歌也給出了與競對的橫比。
不過,與OpenAI的GPT-5.4和Anthropic的Opus 4.6進(jìn)行比較并不完全公平。GPT-5.4在自主網(wǎng)絡(luò)搜索方面表現(xiàn)優(yōu)秀,但并未針對深度研究進(jìn)行專門優(yōu)化。為此,OpenAI提供了自己的DR智能體,該智能體在2月更新后切換到了GPT-5.2,而非GPT-5.4。OpenAI最強(qiáng)的搜索模型實(shí)際上是GPT-5.4 Pro,但谷歌顯然未將其納入對比范圍。
![]()
根據(jù)OpenAI的數(shù)據(jù),GPT-5.4 Pro在智能體搜索基準(zhǔn)測試BrowseComp上的得分最高可達(dá)89.3%,而GPT-5.4的得分為82.7%。
基于Anthropic自己的報(bào)告,Opus 4.6在BrowseComp上的得分高于谷歌所展示的數(shù)值,具體為84%。該得分是在關(guān)閉推理功能的情況下取得的,模型的表現(xiàn)反而優(yōu)于谷歌在API基準(zhǔn)測試中所使用的高強(qiáng)度推理設(shè)置。
這些差距很可能源于測試方法的不同——模型是通過原始API進(jìn)行評估,還是被封裝在各實(shí)驗(yàn)室自己的工具鏈中。谷歌的數(shù)據(jù)未必錯誤,但值得謹(jǐn)慎解讀。無論如何,其呈現(xiàn)方式缺乏足夠的透明度。
MCP支持
本次發(fā)布中最具影響力的功能,或許是新增了對Model Context Protocol(MCP)的支持。這一功能將Deep Research從一個強(qiáng)大的網(wǎng)絡(luò)研究工具,轉(zhuǎn)變?yōu)楦咏巴ㄓ脭?shù)據(jù)分析師”的存在。
MCP是一種新興的開放標(biāo)準(zhǔn),用于將AI模型連接到外部數(shù)據(jù)源。它讓Deep Research能夠安全地查詢私有數(shù)據(jù)庫、內(nèi)部文檔庫以及專業(yè)的第三方數(shù)據(jù)服務(wù)——整個過程中,敏感信息無需離開其原始環(huán)境。
實(shí)際應(yīng)用中,這意味著一家對沖基金可以同時將Deep Research指向其內(nèi)部交易流數(shù)據(jù)庫和金融數(shù)據(jù)終端,然后要求智能體將兩者與來自網(wǎng)絡(luò)的公開信息相結(jié)合,綜合生成洞見。
谷歌透露,目前正與FactSet、標(biāo)普(S&P)和PitchBook等公司積極合作,共同設(shè)計(jì)其MCP服務(wù)端,這清晰地表明谷歌正在尋求與華爾街及更廣泛金融服務(wù)行業(yè)日常依賴的數(shù)據(jù)提供商進(jìn)行深度整合。
根據(jù)谷歌DeepMind產(chǎn)品經(jīng)理Lukas Haas和Srinivas Tadepalli撰寫的博客文章,其目標(biāo)是“讓共同客戶能夠?qū)⒔鹑跀?shù)據(jù)產(chǎn)品集成到由Deep Research驅(qū)動的工作流中,并通過利用其海量數(shù)據(jù)宇宙,以閃電般的速度收集上下文,從而實(shí)現(xiàn)生產(chǎn)力的飛躍。”
這一功能直接解決了企業(yè)采用AI時最頑固的痛點(diǎn)之一:模型在開放互聯(lián)網(wǎng)上能找到的信息,與組織實(shí)際決策所需的信息之間存在巨大差距。此前,彌合這一差距需要大量定制化工程工作。
而MCP支持結(jié)合Deep Research的自主瀏覽和推理能力,將大部分復(fù)雜性簡化為一次配置即可完成。開發(fā)者現(xiàn)在可以讓Deep Research同時使用谷歌搜索、遠(yuǎn)程MCP服務(wù)端、URL Context、代碼執(zhí)行和文件搜索——或者完全關(guān)閉網(wǎng)絡(luò)訪問,僅在自定義數(shù)據(jù)上進(jìn)行搜索。
系統(tǒng)還支持多模態(tài)輸入,包括PDF、CSV、圖像、音頻和視頻,作為grounding(grounding上下文)使用。
原生圖表
第二個重磅功能是原生圖表和信息圖生成。
之前的Deep Research版本只能生成純文本報(bào)告。如果用戶需要可視化,就必須將數(shù)據(jù)導(dǎo)出并自行制作圖表。這個短板大大削弱了“端到端自動化”的定位。
現(xiàn)在,新一代智能體能夠在報(bào)告中原生內(nèi)嵌高質(zhì)量圖表和信息圖,以HTML或谷歌的Nano Banana格式動態(tài)渲染復(fù)雜數(shù)據(jù)集,使其直接成為分析敘事的一部分。
對于企業(yè)用戶——尤其是金融和咨詢行業(yè)中需要產(chǎn)出可直接交付給利益相關(guān)者的成果的用戶而言——這一功能將Deep Research從一個“加速研究階段”的工具,轉(zhuǎn)變?yōu)槟軌蛏山咏罱K分析產(chǎn)品的工具。
![]()
此外,結(jié)合新增的協(xié)作式規(guī)劃功能(允許用戶在執(zhí)行前審查、指導(dǎo)和優(yōu)化智能體的研究計(jì)劃),以及實(shí)時流式輸出中間推理步驟,新系統(tǒng)讓開發(fā)者能夠?qū)φ{(diào)查范圍進(jìn)行細(xì)粒度控制,同時保持監(jiān)管行業(yè)所要求的高度透明度。
Deep Research正在變成谷歌提供給企業(yè)的“基礎(chǔ)設(shè)施”的一部分
谷歌的官方博客文章明確指出,當(dāng)開發(fā)者使用Deep Research智能體進(jìn)行構(gòu)建時,他們所調(diào)用的是“為谷歌旗下多款熱門產(chǎn)品(如Gemini App、NotebookLM、Google Search和Google Finance)提供研究能力的同一套自主研究基礎(chǔ)設(shè)施”。這表明,通過API提供的智能體并非谷歌內(nèi)部版本的簡化版,而是同一套系統(tǒng),以平臺規(guī)模對外提供服務(wù)。
這一演進(jìn)過程進(jìn)展極為迅速。
谷歌于2024年12月首次在Gemini App中推出Deep Research,作為C端功能,當(dāng)時由Gemini 1.5 Pro驅(qū)動。谷歌將其描述為個人AI研究助手,能夠在幾分鐘內(nèi)綜合網(wǎng)絡(luò)信息,幫助用戶節(jié)省數(shù)小時工作時間。
2025年3月,谷歌使用Gemini 2.0 Flash Thinking Experimental對Deep Research進(jìn)行了升級,并向所有人開放試用。隨后升級至Gemini 2.5 Pro Experimental,谷歌報(bào)告稱,評測者對它的報(bào)告偏好度超過競爭對手的2比1。
2025年12月是重要的轉(zhuǎn)折點(diǎn),谷歌推出了Interactions API,首次以編程方式提供Deep Research,由Gemini 3 Pro驅(qū)動,并同步發(fā)布了開源的DeepSearchQA基準(zhǔn)測試。
驅(qū)動本次改進(jìn)的底層模型是Gemini 3.1 Pro,該模型于2026年2月19日發(fā)布。它在核心推理能力上實(shí)現(xiàn)了重大飛躍:在評估模型解決新型邏輯模式的ARC-AGI-2基準(zhǔn)測試中,3.1 Pro的得分達(dá)到77.1%,是Gemini 3 Pro的兩倍多。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.