1 月 15 日,谷歌宣布 Gemini 上線名為“Personal Intelligence”(個人智能)的新功能。這項新功能允許 Gemini 接入用戶的 Gmail 郵箱、Google Photos 相冊、YouTube 觀看歷史以及搜索記錄,根據(jù)問題需要調(diào)取相應(yīng)的記憶,以提供更具針對性的回答。
![]()
(來源:X)
該功能目前以測試版形式向美國地區(qū)的付費訂閱用戶開放,計劃在未來幾周內(nèi)逐步擴展到免費用戶及更多國家。
在這個功能上,谷歌顯然擁有自己的系統(tǒng)生態(tài)優(yōu)勢。與 OpenAI 的 ChatGPT 或 Anthropic 的 Claude 等獨立模型不同,谷歌掌控著 Gmail、YouTube、照片等覆蓋數(shù)億用戶的消費級平臺。“Personal Intelligence”正是將這種平臺覆蓋面轉(zhuǎn)化為差異化價值的嘗試。
此前的谷歌 AI 也有類似的應(yīng)用連接功能。早在 2023 年,當(dāng)時的 Gemini 還叫做 Bard,它就支持用戶通過 “@Gmail” 等標(biāo)簽從特定應(yīng)用中檢索信息。但那種交互方式更像是顯式的數(shù)據(jù)調(diào)用——用戶必須明確告訴助手去哪里找什么。
而此次升級的核心在于“跨應(yīng)用推理”能力:Gemini 不再需要用戶指定數(shù)據(jù)源,而是能夠主動在多個應(yīng)用間建立關(guān)聯(lián),綜合分析后給出答案。
Gemini 應(yīng)用副總裁 Josh Woodward 在社交媒體上演示了一個具體場景:他需要更換輪胎,但不知道輪胎尺寸。此時他向 Gemini 提問,結(jié)果 Gemini 不僅記得用戶的車型并找到標(biāo)準(zhǔn)輪胎規(guī)格,還會參考 Google Photos 中的家庭公路旅行照片,推薦適合日常駕駛和全天候路況的不同選項,并附上評分和價格對比。
當(dāng)需要車牌號碼時,Gemini 會從 Photos 中的某張照片里提取出七位數(shù)字,同時通過搜索 Gmail 確認(rèn)車輛的具體配置型號。整個過程中,用戶并未告訴它去翻閱郵件或相冊。
此外,Google Photos 創(chuàng)始人 David Lieb 也在社交媒體上展示了 Gemini 如何根據(jù) Gmail 記錄幫他記得上次理發(fā)的時間,并且還會進(jìn)一步提問他是否需要進(jìn)行預(yù)約。
![]()
(來源:X)
谷歌官方還演示了當(dāng)用戶想去一些有趣的地方旅行時,Gemini 會如何聯(lián)動你郵件里的旅行日期,和相冊里的自然風(fēng)光偏好,為你推薦適合的旅行目的地。
從某種意義上來說,擁有了 Personal Intelligence 的Gemini 已不再僅僅是一個大語言模型,它正經(jīng)歷從“對話工具”向“個人智能體(AI Agent)”的跨越。
通過深度應(yīng)用 AI Agent 記憶機制(Agent Memory),它將超長上下文的處理能力、多模態(tài)感知的深度與私有數(shù)據(jù)的語義索引無縫集成。
在今天共同發(fā)布的技術(shù)白皮書中,谷歌詳細(xì)闡述了這套系統(tǒng)的架構(gòu)設(shè)計和技術(shù)路線。
整個架構(gòu)分為三個層級。最上層是產(chǎn)品接入層,目前以 Gemini 應(yīng)用為主,即將接入搜索中的 AI Mode。中間層是模型使能層,以 Gemini 3 系列模型為核心,提供深度語義理解、復(fù)雜邏輯推理及多模態(tài)處理能力。
最關(guān)鍵的是底層新構(gòu)建的 Personal Intelligence 引擎——這是一個全新的中間件,負(fù)責(zé)連接模型與用戶的私有數(shù)據(jù)源,包括 Gmail、Google Photos、YouTube 和搜索歷史等。
它像是一個智能的記憶調(diào)度系統(tǒng),面對用戶多年積累的海量郵件、照片和搜索記錄,它知道當(dāng)前任務(wù)需要哪些信息,并精準(zhǔn)地將它們放到傳送帶上進(jìn)行輸出。
![]()
(來源:谷歌技術(shù)白皮書)
具體來說,這一目標(biāo)的實現(xiàn)依賴三大支柱。
首先是 Gemini 3 的推理能力。相比之前的模型,Gemini 3 能夠更好地理解復(fù)雜的個人語境,比如映射家族關(guān)系或識別用戶特定的審美偏好——當(dāng)用戶提到“我的車”時,它需要理解這不僅是一個名詞,還關(guān)聯(lián)著購車合同、保養(yǎng)記錄、駕駛習(xí)慣等一系列個人數(shù)據(jù)。
其次是工具調(diào)用能力的強化。這是從被動檢索到主動推理的關(guān)鍵躍升。白皮書強調(diào),模型現(xiàn)在能夠“智能地”(Agentically)理解用戶目標(biāo),并主動生成指令從 Personal Intelligence 引擎中檢索與用戶偏好相關(guān)的信息。這種檢索建立在谷歌多年搜索和密集檢索研究的基礎(chǔ)上,包括 Gemini Embeddings 等技術(shù)。
當(dāng)用戶詢問“為我即將到來的旅行計劃一份靠近酒店的餐廳清單”時,模型會將這個任務(wù)拆解成多個細(xì)節(jié):酒店預(yù)訂信息、航班抵達(dá)時間、過往用餐歷史以及收藏的餐廳。系統(tǒng)會在后臺執(zhí)行智能檢索,不僅查找最近的郵件行程,還會關(guān)聯(lián)過往的餐廳預(yù)訂記錄、搜索查詢、YouTube 觀看歷史和過去的對話記錄,最終給出貼合用戶住宿地點的個性化推薦。
第三個也是最核心的技術(shù)支柱,是超長上下文處理與“上下文打包”技術(shù)的結(jié)合。Gemini 3 擁有 100 萬 token 的上下文窗口,理論上可以處理相當(dāng)于 1 小時視頻、11 小時音頻、3 萬行代碼或 70 萬個單詞的信息量。但谷歌在白皮書中坦承,真正有用的個性化需要處理遠(yuǎn)超這一窗口的數(shù)據(jù)規(guī)模——僅用戶積累的郵件和照片往往就以數(shù)量級超出這個限制。
這正是上下文打包技術(shù)的關(guān)鍵所在。該技術(shù)通過動態(tài)識別并合成最適當(dāng)?shù)男畔⑵危瑢⑺鼈兎湃肽P偷摹肮ぷ饔洃洝保╓orking Memory)中,而非簡單地將所有數(shù)據(jù)塞進(jìn)上下文窗口。
此外,Personal Intelligence 采用的是 RAG(檢索增強生成,Retrieval-Augmented Generation)的進(jìn)化版,不再只是從公網(wǎng)檢索知識,而是通過語義索引對用戶的 Gmail、相冊、搜索歷史進(jìn)行實時向量化。
這對應(yīng)了 Agent 架構(gòu)中的外部記憶(External Memory):模型本身不存儲這些隱私數(shù)據(jù),而是在推理時根據(jù)用戶的提示詞生成檢索指令,從用戶的“私有知識庫”中提取切片,放入上下文窗口中。
整個系統(tǒng)的工作流程體現(xiàn)了“智能代理式”的特征。當(dāng)接收到復(fù)雜指令時,系統(tǒng)會進(jìn)行任務(wù)拆解(Task Decomposition):調(diào)用 Gmail API 查找訂單,調(diào)用 Photos API 分析圖片特征,調(diào)用 YouTube API 匹配相關(guān)內(nèi)容。
更重要的是,架構(gòu)的核心在于將個人信息視為一種“持續(xù)流式語境”(Continuous Stream of Context)——用戶一旦授權(quán),Gemini 便可將某些類型的個人信息作為連續(xù)的上下文來源,實時告知模型的每一次交互,從而提供定制化服務(wù)。
然而,當(dāng)前階段的實際效果還存在需要完善的地方。Google Labs與 Gemini 應(yīng)用副總裁 Josh Woodward 在明確提醒:盡管團(tuán)隊已進(jìn)行廣泛測試以"最小化錯誤",用戶仍可能遇到"不準(zhǔn)確的響應(yīng)"或"過度個性化"。
即模型在不相關(guān)的話題之間建立錯誤聯(lián)系。在涉及時機或細(xì)微差別的場景中,例如關(guān)系變化(如用戶與伴侶離婚、分手的情況)或用戶的多元興趣,Gemini 可能難以準(zhǔn)確把握。
![]()
(來源:X)
對于跨應(yīng)用調(diào)取信息來說,隱私保護(hù)是一個繞不開的話題。在這方面,谷歌強調(diào) Personal Intelligence 是默認(rèn)關(guān)閉的,用戶需主動開啟并選擇連接哪些應(yīng)用。在數(shù)據(jù)在傳輸和存儲過程中也會采用加密保護(hù)。
關(guān)于訓(xùn)練數(shù)據(jù)使用,谷歌澄清不會直接在用戶的郵箱或相冊上訓(xùn)練模型,但會使用"特定提示詞和模型響應(yīng)"以及"摘要、摘錄和推斷"來改進(jìn)功能——這意味著雖然你的原始照片不會被用于訓(xùn)練,但你的提問及 Gemini 的回答可能會被納入訓(xùn)練數(shù)據(jù)。這種區(qū)分對普通用戶而言并不直觀,也留下了數(shù)據(jù)使用邊界的灰色地帶。
值得注意的是,谷歌此舉恰巧發(fā)生在其計劃在人工智能購物工具中引入個性化廣告的幾天后。廣告主可以通過谷歌搜索中的AI模式(由Gemini模型驅(qū)動)向準(zhǔn)備購買商品的顧客提供獨家優(yōu)惠。
屆時,Gemini 究竟是最得力的 AI 助手,還是藏得最深的“超級導(dǎo)購”?我們?nèi)孕璁嬕粋€問號。
谷歌在白皮書結(jié)尾寫道,Personal Intelligence 是"邁向真正個人化 AI 的一步",并強調(diào)這仍是"技術(shù)的早期階段"。這份文件表明,Gemini 已從"通用知識問答"轉(zhuǎn)向以 Agent 為中心、以工作記憶動態(tài)管理為手段的技術(shù)方向。
只是隨著 Personal Intelligence 逐步擴展至免費用戶、與搜索深度整合,甚至可能接入更多第三方服務(wù),如何界定隱私的邊界、確保用戶知情同意的充分性,以及監(jiān)管框架能否跟上技術(shù)演進(jìn)的速度,是需要持續(xù)關(guān)注的問題。
1.https://www.ft.com/content/9bbdf59e-ce46-4176-aab9-b45a3f49fc4e
2.https://www.theverge.com/news/861576/google-gemini-ai-personal-intelligence-gmail-search-youtube-photos
運營/排版:何晨龍
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.