品玩3月11日訊,據 Neowin 報道,Google正式推出Gemini Embedding 2,這是其首款原生多模態嵌入模型,可將文本、圖像、視頻、音頻及文檔映射至統一的向量空間,實現跨模態語義理解。該模型支持100種語言,適用于語義搜索、分類、聚類及檢索增強生成(RAG)等下游任務。
與僅處理文本的初代模型不同,Gemini Embedding 2單次請求最多可處理8192個文本token、6張PNG/JPEG圖片、120秒MP4/MOV格式視頻、未轉錄的原始音頻,以及最多6頁的PDF文檔。Google表示,該模型能簡化復雜數據處理流程,并在法律電子取證等場景中顯著提升圖像、視頻與文本的檢索精度與召回率。
目前,Gemini Embedding 2(型號gemini-embedding-2-preview)已通過Gemini API和Vertex AI開放公測,面向開發者提供多模態能力支持。原有的文本專用模型gemini-embedding-001仍繼續可用。
此舉標志著Google在構建統一多模態AI基礎設施方面邁出關鍵一步,為企業級智能應用提供更高效的語義理解底座。
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.