henry 發(fā)自 凹非寺
量子位 | 公眾號 QbitAI
原生,啟動!
剛剛,谷歌發(fā)布了首個原生多模態(tài)(Multimodal)嵌入模型——
Gemini Embedding 2
這次模型最大的變化在于:把文本、圖像、視頻、音頻和文檔,全部映射進同一個統(tǒng)一的嵌入空間。
![]()
換句話說,不同媒介的數(shù)據(jù)第一次被放進同一個語義坐標(biāo)系里。
在輸入能力上,Gemini Embedding 2支持多種數(shù)據(jù)類型:
- 文本:支持最多8192個token
- 圖像:每次請求最多處理6張圖像,支持PNG和JPEG
- 視頻:支持最長120秒的視頻輸入,格式為MP4和MOV
- 音頻:原生嵌入音頻數(shù)據(jù),無需中間文本轉(zhuǎn)錄
- 文檔:可直接嵌入最多6頁的PDF
此外,模型不僅可以處理單一模態(tài),還支持多模態(tài)混合輸入(例如圖像 +文本)。
這意味著模型可以捕捉不同媒體之間的復(fù)雜語義關(guān)系,從而更準(zhǔn)確地理解現(xiàn)實世界中的信息。
在評測方面,Gemini Embedding 2不僅整體性能較上一代提升,同時也為多模態(tài)嵌入任務(wù)樹立了新的性能基準(zhǔn)。
一方面增強了語音處理能力,另一方面也在文本、圖像和視頻任務(wù)中均超越現(xiàn)有領(lǐng)先模型,實現(xiàn)SOTA。
![]()
乍看之下,這似乎只是一次底層的數(shù)據(jù)工程升級。
但實際上,它正為像龍蝦這樣的AI Agent真正“看懂”世界,提供了關(guān)鍵基礎(chǔ)。
目前,Gemini Embedding 2已經(jīng)通過Gemini API和Vertex AI展開公測。
原生多模態(tài)嵌入
嵌入模型(Embedding Model)本質(zhì)上是把數(shù)據(jù)轉(zhuǎn)化為稠密向量表示。
在這個向量空間中,語義相似的數(shù)據(jù)會彼此靠近,不相似的數(shù)據(jù)則距離更遠。
傳統(tǒng)的嵌入模型主要針對文本。
例如,在谷歌此前的論文《Gemini Embedding: Generalizable Embeddings from Gemini》中——
Gemini Embedding通過在大語言模型參數(shù)中已有的海量知識基礎(chǔ)上構(gòu)建表征,并將得來的嵌入用于:語義檢索、文本聚類、分類,排序等下游任務(wù)。
![]()
但這只停留在文字階段。
最新的Gemini Embedding 2,則首次徹底打通了多模態(tài)數(shù)據(jù)。
文本、圖片、視頻、音頻和文檔,都被壓縮到同一個向量空間之中。
而這,就意味著模型實現(xiàn)了“跨模態(tài)語義對齊”,能夠讓貓這個「文字概念」與貓的照片這個「視覺概念」,在統(tǒng)一的嵌入空間中的數(shù)學(xué)向量的距離極度接近。
通俗來說,當(dāng)你搜索“貓”的時候,系統(tǒng)不僅能找到相關(guān)文字,還能直接找到貓的圖片、視頻甚至聲音。
也正因為如此,很多原本復(fù)雜的多模態(tài)流程可以被大幅簡化。
RAG檢索、語義搜索、情感分析,到數(shù)據(jù)聚類等應(yīng)用場景,都能直接受益。
更重要的是,這類能力對AI Agent意義巨大。
過去的Agent在操作電腦時,往往只能依賴文字信息。
例如識別按鈕上的“設(shè)置”“確認”等標(biāo)簽。但真實世界的UI界面,大量信息其實來自視覺結(jié)構(gòu):
圖標(biāo)、布局、顏色、控件位置,正是傳統(tǒng)文本嵌入模型難以處理的部分。
而有了多模態(tài)嵌入之后,情況就不同了。
對于像OpenClaw(龍蝦)這樣需要操作電腦,識別屏幕的Agent來說,它不再只是識別文字。
![]()
它可以直接理解:哪個像素區(qū)域是設(shè)置圖標(biāo)、哪個按鈕與當(dāng)前任務(wù)最相關(guān),屏幕截圖與文本指令之間的關(guān)系
換句話說,Gemini Embedding 2提供了一條統(tǒng)一的感官總線。視覺、聽覺與文本信息,都能在同一個語義空間中進行關(guān)聯(lián)。
這也為未來Agent真正理解屏幕、理解環(huán)境并代替人類操作電腦,奠定了最重要的語義基礎(chǔ)。
在技術(shù)層面,Gemini Embedding 2繼續(xù)采用Matryoshka Representation Learning(MRL)
![]()
這種方法允許嵌入向量在保持語義信息的同時進行動態(tài)維度縮減。
(注:MRL強制模型把最核心、最關(guān)鍵的特征壓縮在向量的前幾十維里,次要的特征放在后面,這讓開發(fā)者可以根據(jù)預(yù)算和算力,自由決定信息密度的分布管理)
Gemini Embedding 2的默認輸出維度為3072維,但開發(fā)者可以根據(jù)需求縮減,例如:3072維、1536維、768維,從而在性能與存儲成本之間取得平衡。
除了支持API調(diào)用外,Gemini Embedding 2也支持通過LangChain、LlamaIndex、Haystack、Weaviate、QDrant、ChromaDB和Vector Search等工具調(diào)用。
通過為不同類型的數(shù)據(jù)賦予統(tǒng)一的語義表示,Gemini Embedding 2正在為下一代AI應(yīng)用:多模態(tài)Agent,乃至具身智能機器人提供關(guān)鍵基礎(chǔ)設(shè)施。
[1]https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-embedding-2/
[2]https://arxiv.org/pdf/2503.07891
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.