1 月 15 日,谷歌宣布 Gemini 上線名為“Personal Intelligence”(個人智能)的新功能。這項新功能允許 Gemini 接入用戶的 Gmail 郵箱、Google Photos 相冊、YouTube 觀看歷史以及搜索記錄,根據問題需要調取相應的記憶,以提供更具針對性的回答。
![]()
(來源:X)
該功能目前以測試版形式向美國地區的付費訂閱用戶開放,計劃在未來幾周內逐步擴展到免費用戶及更多國家。
在這個功能上,谷歌顯然擁有自己的系統生態優勢。與 OpenAI 的 ChatGPT 或 Anthropic 的 Claude 等獨立模型不同,谷歌掌控著 Gmail、YouTube、照片等覆蓋數億用戶的消費級平臺。“Personal Intelligence”正是將這種平臺覆蓋面轉化為差異化價值的嘗試。
此前的谷歌 AI 也有類似的應用連接功能。早在 2023 年,當時的 Gemini 還叫做 Bard,它就支持用戶通過 “@Gmail” 等標簽從特定應用中檢索信息。但那種交互方式更像是顯式的數據調用——用戶必須明確告訴助手去哪里找什么。
而此次升級的核心在于“跨應用推理”能力:Gemini 不再需要用戶指定數據源,而是能夠主動在多個應用間建立關聯,綜合分析后給出答案。
Gemini 應用副總裁 Josh Woodward 在社交媒體上演示了一個具體場景:他需要更換輪胎,但不知道輪胎尺寸。此時他向 Gemini 提問,結果 Gemini 不僅記得用戶的車型并找到標準輪胎規格,還會參考 Google Photos 中的家庭公路旅行照片,推薦適合日常駕駛和全天候路況的不同選項,并附上評分和價格對比。
當需要車牌號碼時,Gemini 會從 Photos 中的某張照片里提取出七位數字,同時通過搜索 Gmail 確認車輛的具體配置型號。整個過程中,用戶并未告訴它去翻閱郵件或相冊。
此外,Google Photos 創始人 David Lieb 也在社交媒體上展示了 Gemini 如何根據 Gmail 記錄幫他記得上次理發的時間,并且還會進一步提問他是否需要進行預約。
![]()
(來源:X)
谷歌官方還演示了當用戶想去一些有趣的地方旅行時,Gemini 會如何聯動你郵件里的旅行日期,和相冊里的自然風光偏好,為你推薦適合的旅行目的地。
從某種意義上來說,擁有了 Personal Intelligence 的Gemini 已不再僅僅是一個大語言模型,它正經歷從“對話工具”向“個人智能體(AI Agent)”的跨越。
通過深度應用 AI Agent 記憶機制(Agent Memory),它將超長上下文的處理能力、多模態感知的深度與私有數據的語義索引無縫集成。
在今天共同發布的技術白皮書中,谷歌詳細闡述了這套系統的架構設計和技術路線。
整個架構分為三個層級。最上層是產品接入層,目前以 Gemini 應用為主,即將接入搜索中的 AI Mode。中間層是模型使能層,以 Gemini 3 系列模型為核心,提供深度語義理解、復雜邏輯推理及多模態處理能力。
最關鍵的是底層新構建的 Personal Intelligence 引擎——這是一個全新的中間件,負責連接模型與用戶的私有數據源,包括 Gmail、Google Photos、YouTube 和搜索歷史等。
它像是一個智能的記憶調度系統,面對用戶多年積累的海量郵件、照片和搜索記錄,它知道當前任務需要哪些信息,并精準地將它們放到傳送帶上進行輸出。
![]()
(來源:谷歌技術白皮書)
具體來說,這一目標的實現依賴三大支柱。
首先是 Gemini 3 的推理能力。相比之前的模型,Gemini 3 能夠更好地理解復雜的個人語境,比如映射家族關系或識別用戶特定的審美偏好——當用戶提到“我的車”時,它需要理解這不僅是一個名詞,還關聯著購車合同、保養記錄、駕駛習慣等一系列個人數據。
其次是工具調用能力的強化。這是從被動檢索到主動推理的關鍵躍升。白皮書強調,模型現在能夠“智能地”(Agentically)理解用戶目標,并主動生成指令從 Personal Intelligence 引擎中檢索與用戶偏好相關的信息。這種檢索建立在谷歌多年搜索和密集檢索研究的基礎上,包括 Gemini Embeddings 等技術。
當用戶詢問“為我即將到來的旅行計劃一份靠近酒店的餐廳清單”時,模型會將這個任務拆解成多個細節:酒店預訂信息、航班抵達時間、過往用餐歷史以及收藏的餐廳。系統會在后臺執行智能檢索,不僅查找最近的郵件行程,還會關聯過往的餐廳預訂記錄、搜索查詢、YouTube 觀看歷史和過去的對話記錄,最終給出貼合用戶住宿地點的個性化推薦。
第三個也是最核心的技術支柱,是超長上下文處理與“上下文打包”技術的結合。Gemini 3 擁有 100 萬 token 的上下文窗口,理論上可以處理相當于 1 小時視頻、11 小時音頻、3 萬行代碼或 70 萬個單詞的信息量。但谷歌在白皮書中坦承,真正有用的個性化需要處理遠超這一窗口的數據規模——僅用戶積累的郵件和照片往往就以數量級超出這個限制。
這正是上下文打包技術的關鍵所在。該技術通過動態識別并合成最適當的信息片段,將它們放入模型的“工作記憶”(Working Memory)中,而非簡單地將所有數據塞進上下文窗口。
此外,Personal Intelligence 采用的是 RAG(檢索增強生成,Retrieval-Augmented Generation)的進化版,不再只是從公網檢索知識,而是通過語義索引對用戶的 Gmail、相冊、搜索歷史進行實時向量化。
這對應了 Agent 架構中的外部記憶(External Memory):模型本身不存儲這些隱私數據,而是在推理時根據用戶的提示詞生成檢索指令,從用戶的“私有知識庫”中提取切片,放入上下文窗口中。
整個系統的工作流程體現了“智能代理式”的特征。當接收到復雜指令時,系統會進行任務拆解(Task Decomposition):調用 Gmail API 查找訂單,調用 Photos API 分析圖片特征,調用 YouTube API 匹配相關內容。
更重要的是,架構的核心在于將個人信息視為一種“持續流式語境”(Continuous Stream of Context)——用戶一旦授權,Gemini 便可將某些類型的個人信息作為連續的上下文來源,實時告知模型的每一次交互,從而提供定制化服務。
然而,當前階段的實際效果還存在需要完善的地方。Google Labs與 Gemini 應用副總裁 Josh Woodward 在明確提醒:盡管團隊已進行廣泛測試以"最小化錯誤",用戶仍可能遇到"不準確的響應"或"過度個性化"。
即模型在不相關的話題之間建立錯誤聯系。在涉及時機或細微差別的場景中,例如關系變化(如用戶與伴侶離婚、分手的情況)或用戶的多元興趣,Gemini 可能難以準確把握。
![]()
(來源:X)
對于跨應用調取信息來說,隱私保護是一個繞不開的話題。在這方面,谷歌強調 Personal Intelligence 是默認關閉的,用戶需主動開啟并選擇連接哪些應用。在數據在傳輸和存儲過程中也會采用加密保護。
關于訓練數據使用,谷歌澄清不會直接在用戶的郵箱或相冊上訓練模型,但會使用"特定提示詞和模型響應"以及"摘要、摘錄和推斷"來改進功能——這意味著雖然你的原始照片不會被用于訓練,但你的提問及 Gemini 的回答可能會被納入訓練數據。這種區分對普通用戶而言并不直觀,也留下了數據使用邊界的灰色地帶。
值得注意的是,谷歌此舉恰巧發生在其計劃在人工智能購物工具中引入個性化廣告的幾天后。廣告主可以通過谷歌搜索中的AI模式(由Gemini模型驅動)向準備購買商品的顧客提供獨家優惠。
屆時,Gemini 究竟是最得力的 AI 助手,還是藏得最深的“超級導購”?我們仍需畫一個問號。
谷歌在白皮書結尾寫道,Personal Intelligence 是"邁向真正個人化 AI 的一步",并強調這仍是"技術的早期階段"。這份文件表明,Gemini 已從"通用知識問答"轉向以 Agent 為中心、以工作記憶動態管理為手段的技術方向。
只是隨著 Personal Intelligence 逐步擴展至免費用戶、與搜索深度整合,甚至可能接入更多第三方服務,如何界定隱私的邊界、確保用戶知情同意的充分性,以及監管框架能否跟上技術演進的速度,是需要持續關注的問題。
1.https://www.ft.com/content/9bbdf59e-ce46-4176-aab9-b45a3f49fc4e
2.https://www.theverge.com/news/861576/google-gemini-ai-personal-intelligence-gmail-search-youtube-photos
運營/排版:何晨龍
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.