谷歌真急了，深夜更新Deep Research智能體，支持MCP、原生圖表

2026-04-22 10:27:08　來源: 鈦媒體APP

北京舉報(bào)

分享至

文 | 字母AI

谷歌真是急了。

前腳剛傳來消息，稱谷歌聯(lián)合創(chuàng)始人謝爾蓋·布林重啟“創(chuàng)始人模式”，親自督戰(zhàn)并組建精英“突擊隊(duì)”，全力提升Gemini在AI編程和自主智能體等關(guān)鍵能力上追趕Anthropic等對手。

后腳谷歌就深夜宣布重大更新，推出了兩款基于Gemini 3.1 Pro模型構(gòu)建的新一代自主研究智能體：Deep Research和Deep Research Max。

不僅在模型底層加強(qiáng)推理能力，還大力推動自主研究智能體向企業(yè)級、開發(fā)者平臺方向演進(jìn)，通過API開放、支持私有數(shù)據(jù)、后臺異步任務(wù)等方式，試圖在“AI研究/分析工具”這個高價(jià)值場景中搶占先機(jī)，應(yīng)對來自O(shè)penAI（Hermes）、Perplexity等對手的競爭。

這兩款智能體首次允許開發(fā)者通過單次API調(diào)用，將開放網(wǎng)絡(luò)數(shù)據(jù)與企業(yè)專有信息進(jìn)行融合，并在研究報(bào)告中原生生成圖表和信息圖，同時還可通過Model Context Protocol（MCP）連接任意第三方數(shù)據(jù)源。

兩款智能體即日起通過Gemini API的付費(fèi)套餐以公開預(yù)覽版形式開放，可通過谷歌于2025年12月首次推出的Interactions API進(jìn)行訪問。

沒錯，這些新代理目前只能通過API使用，普通用戶在Gemini的App里是享受不到的，就算付費(fèi)訂閱了也不行。看到更新的消息卻發(fā)現(xiàn)自己用不到，有用戶幽怨表示：“谷歌不知何故，持續(xù)懲罰著我們這些Gemini App的Pro訂閱用戶……”

谷歌首席執(zhí)行官桑達(dá)爾·皮查伊（Sundar Pichai）也親自下場在X上吆喝：“當(dāng)你需要速度和效率時，請使用Deep Research；當(dāng)你追求最高質(zhì)量的上下文收集與綜合時，請使用Max版本——它通過擴(kuò)展測試時計(jì)算，達(dá)到了DeepSearchQA 93.3%和HLE 54.6%的成績。”

18個月前，谷歌Deep Research的目標(biāo)還是要幫助研究生避免被海量瀏覽器標(biāo)簽頁淹沒。如今，谷歌卻希望它能夠取代投資銀行初級分析師的基礎(chǔ)研究工作。

這兩個目標(biāo)之間的差距——以及這項(xiàng)技術(shù)能否真正彌合這一差距——將決定自主研究代理究竟會成為企業(yè)軟件領(lǐng)域的變革性產(chǎn)品，還是僅僅成為又一個在基準(zhǔn)測試中光鮮亮麗卻在會議上令人失望的人工智能演示。

兩種版本，適配不同工作負(fù)載

標(biāo)準(zhǔn)版Deep Research有更低的延遲和更低的成本，適合拼速度的場景。

Deep Research Max則優(yōu)先考慮深度而非速度。該智能體通過擴(kuò)展測試時計(jì)算（extended test-time compute），進(jìn)行深入推理、搜索和迭代，最終生成報(bào)告。

谷歌指出，異步后臺工作流是其理想使用場景，例如通過定時任務(wù)（cron job）在夜間運(yùn)行，第二天早上就能為分析師團(tuán)隊(duì)交付一份完整的盡職調(diào)查報(bào)告。

在谷歌自己的基準(zhǔn)測試中，Deep Research Max在檢索和推理任務(wù)上取得了顯著進(jìn)步。該智能體能夠從比之前版本更多的來源中獲取信息，并捕捉到舊模型容易忽略的細(xì)微差別。

谷歌也給出了與競對的橫比。

不過，與OpenAI的GPT-5.4和Anthropic的Opus 4.6進(jìn)行比較并不完全公平。GPT-5.4在自主網(wǎng)絡(luò)搜索方面表現(xiàn)優(yōu)秀，但并未針對深度研究進(jìn)行專門優(yōu)化。為此，OpenAI提供了自己的DR智能體，該智能體在2月更新后切換到了GPT-5.2，而非GPT-5.4。OpenAI最強(qiáng)的搜索模型實(shí)際上是GPT-5.4 Pro，但谷歌顯然未將其納入對比范圍。

根據(jù)OpenAI的數(shù)據(jù)，GPT-5.4 Pro在智能體搜索基準(zhǔn)測試BrowseComp上的得分最高可達(dá)89.3%，而GPT-5.4的得分為82.7%。

基于Anthropic自己的報(bào)告，Opus 4.6在BrowseComp上的得分高于谷歌所展示的數(shù)值，具體為84%。該得分是在關(guān)閉推理功能的情況下取得的，模型的表現(xiàn)反而優(yōu)于谷歌在API基準(zhǔn)測試中所使用的高強(qiáng)度推理設(shè)置。

這些差距很可能源于測試方法的不同——模型是通過原始API進(jìn)行評估，還是被封裝在各實(shí)驗(yàn)室自己的工具鏈中。谷歌的數(shù)據(jù)未必錯誤，但值得謹(jǐn)慎解讀。無論如何，其呈現(xiàn)方式缺乏足夠的透明度。

MCP支持

本次發(fā)布中最具影響力的功能，或許是新增了對Model Context Protocol（MCP）的支持。這一功能將Deep Research從一個強(qiáng)大的網(wǎng)絡(luò)研究工具，轉(zhuǎn)變?yōu)楦咏巴ㄓ脭?shù)據(jù)分析師”的存在。

MCP是一種新興的開放標(biāo)準(zhǔn)，用于將AI模型連接到外部數(shù)據(jù)源。它讓Deep Research能夠安全地查詢私有數(shù)據(jù)庫、內(nèi)部文檔庫以及專業(yè)的第三方數(shù)據(jù)服務(wù)——整個過程中，敏感信息無需離開其原始環(huán)境。

實(shí)際應(yīng)用中，這意味著一家對沖基金可以同時將Deep Research指向其內(nèi)部交易流數(shù)據(jù)庫和金融數(shù)據(jù)終端，然后要求智能體將兩者與來自網(wǎng)絡(luò)的公開信息相結(jié)合，綜合生成洞見。

谷歌透露，目前正與FactSet、標(biāo)普（S&P）和PitchBook等公司積極合作，共同設(shè)計(jì)其MCP服務(wù)端，這清晰地表明谷歌正在尋求與華爾街及更廣泛金融服務(wù)行業(yè)日常依賴的數(shù)據(jù)提供商進(jìn)行深度整合。

根據(jù)谷歌DeepMind產(chǎn)品經(jīng)理Lukas Haas和Srinivas Tadepalli撰寫的博客文章，其目標(biāo)是“讓共同客戶能夠?qū)⒔鹑跀?shù)據(jù)產(chǎn)品集成到由Deep Research驅(qū)動的工作流中，并通過利用其海量數(shù)據(jù)宇宙，以閃電般的速度收集上下文，從而實(shí)現(xiàn)生產(chǎn)力的飛躍。”

這一功能直接解決了企業(yè)采用AI時最頑固的痛點(diǎn)之一：模型在開放互聯(lián)網(wǎng)上能找到的信息，與組織實(shí)際決策所需的信息之間存在巨大差距。此前，彌合這一差距需要大量定制化工程工作。

而MCP支持結(jié)合Deep Research的自主瀏覽和推理能力，將大部分復(fù)雜性簡化為一次配置即可完成。開發(fā)者現(xiàn)在可以讓Deep Research同時使用谷歌搜索、遠(yuǎn)程MCP服務(wù)端、URL Context、代碼執(zhí)行和文件搜索——或者完全關(guān)閉網(wǎng)絡(luò)訪問，僅在自定義數(shù)據(jù)上進(jìn)行搜索。

系統(tǒng)還支持多模態(tài)輸入，包括PDF、CSV、圖像、音頻和視頻，作為grounding（grounding上下文）使用。

原生圖表

第二個重磅功能是原生圖表和信息圖生成。

之前的Deep Research版本只能生成純文本報(bào)告。如果用戶需要可視化，就必須將數(shù)據(jù)導(dǎo)出并自行制作圖表。這個短板大大削弱了“端到端自動化”的定位。

現(xiàn)在，新一代智能體能夠在報(bào)告中原生內(nèi)嵌高質(zhì)量圖表和信息圖，以HTML或谷歌的Nano Banana格式動態(tài)渲染復(fù)雜數(shù)據(jù)集，使其直接成為分析敘事的一部分。

對于企業(yè)用戶——尤其是金融和咨詢行業(yè)中需要產(chǎn)出可直接交付給利益相關(guān)者的成果的用戶而言——這一功能將Deep Research從一個“加速研究階段”的工具，轉(zhuǎn)變?yōu)槟軌蛏山咏罱K分析產(chǎn)品的工具。

此外，結(jié)合新增的協(xié)作式規(guī)劃功能（允許用戶在執(zhí)行前審查、指導(dǎo)和優(yōu)化智能體的研究計(jì)劃），以及實(shí)時流式輸出中間推理步驟，新系統(tǒng)讓開發(fā)者能夠?qū)φ{(diào)查范圍進(jìn)行細(xì)粒度控制，同時保持監(jiān)管行業(yè)所要求的高度透明度。

Deep Research正在變成谷歌提供給企業(yè)的“基礎(chǔ)設(shè)施”的一部分

谷歌的官方博客文章明確指出，當(dāng)開發(fā)者使用Deep Research智能體進(jìn)行構(gòu)建時，他們所調(diào)用的是“為谷歌旗下多款熱門產(chǎn)品（如Gemini App、NotebookLM、Google Search和Google Finance）提供研究能力的同一套自主研究基礎(chǔ)設(shè)施”。這表明，通過API提供的智能體并非谷歌內(nèi)部版本的簡化版，而是同一套系統(tǒng)，以平臺規(guī)模對外提供服務(wù)。

這一演進(jìn)過程進(jìn)展極為迅速。

谷歌于2024年12月首次在Gemini App中推出Deep Research，作為C端功能，當(dāng)時由Gemini 1.5 Pro驅(qū)動。谷歌將其描述為個人AI研究助手，能夠在幾分鐘內(nèi)綜合網(wǎng)絡(luò)信息，幫助用戶節(jié)省數(shù)小時工作時間。

2025年3月，谷歌使用Gemini 2.0 Flash Thinking Experimental對Deep Research進(jìn)行了升級，并向所有人開放試用。隨后升級至Gemini 2.5 Pro Experimental，谷歌報(bào)告稱，評測者對它的報(bào)告偏好度超過競爭對手的2比1。

2025年12月是重要的轉(zhuǎn)折點(diǎn)，谷歌推出了Interactions API，首次以編程方式提供Deep Research，由Gemini 3 Pro驅(qū)動，并同步發(fā)布了開源的DeepSearchQA基準(zhǔn)測試。

驅(qū)動本次改進(jìn)的底層模型是Gemini 3.1 Pro，該模型于2026年2月19日發(fā)布。它在核心推理能力上實(shí)現(xiàn)了重大飛躍：在評估模型解決新型邏輯模式的ARC-AGI-2基準(zhǔn)測試中，3.1 Pro的得分達(dá)到77.1%，是Gemini 3 Pro的兩倍多。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.