文 | 霞光AI實驗室,作者|渡川
就在昨晚,谷歌發了首個原生多模態嵌入模型Gemini Embedding 2。
跟以往的純文本基礎模型不同,Gemini Embedding 2的核心突破在于將文本、圖像、視頻、音頻和PDF文檔等五種模態,全部映射到同一個向量空間里。
在這種情況下,模型可原生支持混合模態輸入,例如同時傳入圖片+文字、視頻+音頻等復雜組合,而且系統也能夠理解不同媒體之間的語義關聯。這意味著,你用一段文字去搜索相關的圖片,或者用一張圖片找到含義相似的音頻片段,都可以實現。
但這種嵌入模型并不是面向普通大眾使用的,而是面向AI應用開發者、算法工程師以及擁有海量非結構化數據的企業,幫助他們大幅簡化了復雜的多模態數據處理流程,提升檢索增強生成(RAG)、語義搜索等多模態下游任務的表現,這也將為多模態智能應用鋪平了道路。
![]()
通常大家說的大模型(LLM / 基礎大模型),指的是能理解、推理、生成長文本的底座模型,表現出來是能夠與人對話、思考、創作、寫代碼;而Embedding模型屬于向量表征模型,它只做一件事——把文本 / 圖像 / 音頻轉成向量(一串讓機器讀懂的數字),而不生成內容、不推理、不對話。
以前的機器在搜索/檢索時有個問題:文本有文本的 Embedding 模型,圖片有圖片的 Embedding 模型,音頻有音頻的 Embedding 模型,它們各自生成的向量是互相隔離的。
而谷歌發布的Gemini Embedding 2 是一款“多模態翻譯官”,它讓不同類型的數據(文字、圖片、聲音)能夠用同一種語言交流,為企業構建下一代多模態搜索引擎和推薦系統提供了強大的基礎工具。
![]()
這款產品的核心在于統一和理解。主要特點包括:
總體來說,Gemini Embedding 2為機器創造了統一的“感官”,為下一個高級人工智能體驗時代提供了必要的多模態基礎。
![]()
Gemini Embedding 2最核心的受益群體,正是AI應用開發者和算法工程師,它會極大簡化他們過去復雜的工作流程。
以前,如果AI應用開發者要做一個能同時搜索圖片和文字的應用,需要維護圖像模型和文本模型兩套嵌入系統,還得寫大量代碼對齊結果,而現在一個模型、一個向量索引就能搞定;特別是對于需要處理音頻和視頻的開發者,以前需要先做語音轉文字、視頻抽幀等預處理,現在可以直接輸入原始音視頻,減少了信息丟失,也降低了開發維護成本。
此外,對于很多大型企業(如媒體、醫療、金融)來說,它們的數據資產中絕大部分都是非結構化的圖片、掃描件、錄音和視頻。過去,這些數據只能在數據庫里沉睡,而Gemini Embedding 2 可以讓這些數據真正變得可搜索、可利用——比如媒體可以建立一個跨格式的資料庫,編輯直接用文字描述(如“夕陽下的海灘,帶有輕松的背景音樂”)就可以搜索出符合條件的視頻素材,無需依賴人工打標簽。
此外,隨著大模型應用加快,讓模型獲取最新的、多模態的知識變得至關重要。RAG 是目前的主流方案,而 Gemini Embedding 2 將 RAG 從“文本檢索”升級到了“多模態檢索”。有了 Gemini Embedding 2 的加持,當用戶提問時,系統不僅能檢索相關文字,還能找出相關的圖表、視頻片段作為上下文提供給大模型,從而生成圖文并茂、信息量更大的回復。
Gemini Embedding 2的發布,其意義超越了模型本身。谷歌表示,該模型在多項文本、圖像和視頻任務的基準測試中超越了當前的主流競品,為多模態嵌入領域設立了新的性能標準。
此外,它還讓一系列過去難以實現的場景變得觸手可及。例如,在法律領域,它可以從數百萬條記錄中,快速檢索出包含特定圖片、音頻片段的證據文件;在推薦系統中,它可以基于用戶的瀏覽歷史,混合推薦相關的文章、視頻和播客,體驗更自然流暢。
總結來看,Gemini Embedding 2讓機器不僅能生成內容,更能從底層去理解這個由多元信息構成的世界,讓AI開啟“全感知”應用時代。
![]()
2026年,被認為是大模型的“多模態”之年。今年前兩個月,國內的快手、字節跳動、阿里巴巴等科技巨頭密集發布新一代多模態模型,標志著AI視頻生成正從“盲盒式娛樂”向“精準工業化生產”跨越。尤其Seedance2.0的發布,在全球引發關注,其最大亮點在于通過“@素材名”的全新交互范式,讓用戶能夠指定每個圖片、視頻、音頻的用途,且畫面的物理規律更合理、動作表現更自然流暢。
如今,全球大模型已從單一文本能力的深耕,轉向多模態原生融合的深耕。不同于以往“文本+圖像”的簡單拼接,2026年的多模態大模型普遍采用統一表示空間架構,能夠原生協同處理文本、圖像、音頻、視頻,真正實現跨模態的理解、生成與交互。
Gemini Embedding 2 代表的底層基礎設施的革新,則它讓機器“讀懂”世界的方式變得統一和高效。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.