網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

讓龍蝦看懂屏幕！谷歌多模態(tài)新成果，文本圖像視頻音頻進同一空間

2026-03-11 17:29:58　來源: 量子位

北京舉報

分享至

henry 發(fā)自凹非寺
量子位 | 公眾號 QbitAI

原生，啟動！

剛剛，谷歌發(fā)布了首個原生多模態(tài)（Multimodal）嵌入模型——

Gemini Embedding 2

這次模型最大的變化在于：把文本、圖像、視頻、音頻和文檔，全部映射進同一個統(tǒng)一的嵌入空間。

換句話說，不同媒介的數(shù)據(jù)第一次被放進同一個語義坐標(biāo)系里。

在輸入能力上，Gemini Embedding 2支持多種數(shù)據(jù)類型：

文本：支持最多8192個token
圖像：每次請求最多處理6張圖像，支持PNG和JPEG
視頻：支持最長120秒的視頻輸入，格式為MP4和MOV
音頻：原生嵌入音頻數(shù)據(jù)，無需中間文本轉(zhuǎn)錄
文檔：可直接嵌入最多6頁的PDF

此外，模型不僅可以處理單一模態(tài)，還支持多模態(tài)混合輸入（例如圖像 +文本）。

這意味著模型可以捕捉不同媒體之間的復(fù)雜語義關(guān)系，從而更準(zhǔn)確地理解現(xiàn)實世界中的信息。

在評測方面，Gemini Embedding 2不僅整體性能較上一代提升，同時也為多模態(tài)嵌入任務(wù)樹立了新的性能基準(zhǔn)。

一方面增強了語音處理能力，另一方面也在文本、圖像和視頻任務(wù)中均超越現(xiàn)有領(lǐng)先模型，實現(xiàn)SOTA。

乍看之下，這似乎只是一次底層的數(shù)據(jù)工程升級。

但實際上，它正為像龍蝦這樣的AI Agent真正“看懂”世界，提供了關(guān)鍵基礎(chǔ)。

目前，Gemini Embedding 2已經(jīng)通過Gemini API和Vertex AI展開公測。

原生多模態(tài)嵌入

嵌入模型（Embedding Model）本質(zhì)上是把數(shù)據(jù)轉(zhuǎn)化為稠密向量表示。

在這個向量空間中，語義相似的數(shù)據(jù)會彼此靠近，不相似的數(shù)據(jù)則距離更遠。

傳統(tǒng)的嵌入模型主要針對文本。

例如，在谷歌此前的論文《Gemini Embedding: Generalizable Embeddings from Gemini》中——

Gemini Embedding通過在大語言模型參數(shù)中已有的海量知識基礎(chǔ)上構(gòu)建表征，并將得來的嵌入用于：語義檢索、文本聚類、分類，排序等下游任務(wù)。

但這只停留在文字階段。

最新的Gemini Embedding 2，則首次徹底打通了多模態(tài)數(shù)據(jù)。

文本、圖片、視頻、音頻和文檔，都被壓縮到同一個向量空間之中。

而這，就意味著模型實現(xiàn)了“跨模態(tài)語義對齊”，能夠讓貓這個「文字概念」與貓的照片這個「視覺概念」，在統(tǒng)一的嵌入空間中的數(shù)學(xué)向量的距離極度接近。

通俗來說，當(dāng)你搜索“貓”的時候，系統(tǒng)不僅能找到相關(guān)文字，還能直接找到貓的圖片、視頻甚至聲音。

也正因為如此，很多原本復(fù)雜的多模態(tài)流程可以被大幅簡化。

RAG檢索、語義搜索、情感分析，到數(shù)據(jù)聚類等應(yīng)用場景，都能直接受益。

更重要的是，這類能力對AI Agent意義巨大。

過去的Agent在操作電腦時，往往只能依賴文字信息。

例如識別按鈕上的“設(shè)置”“確認”等標(biāo)簽。但真實世界的UI界面，大量信息其實來自視覺結(jié)構(gòu)：

圖標(biāo)、布局、顏色、控件位置，正是傳統(tǒng)文本嵌入模型難以處理的部分。

而有了多模態(tài)嵌入之后，情況就不同了。

對于像OpenClaw（龍蝦）這樣需要操作電腦，識別屏幕的Agent來說，它不再只是識別文字。

它可以直接理解：哪個像素區(qū)域是設(shè)置圖標(biāo)、哪個按鈕與當(dāng)前任務(wù)最相關(guān)，屏幕截圖與文本指令之間的關(guān)系

換句話說，Gemini Embedding 2提供了一條統(tǒng)一的感官總線。視覺、聽覺與文本信息，都能在同一個語義空間中進行關(guān)聯(lián)。

這也為未來Agent真正理解屏幕、理解環(huán)境并代替人類操作電腦，奠定了最重要的語義基礎(chǔ)。

在技術(shù)層面，Gemini Embedding 2繼續(xù)采用Matryoshka Representation Learning（MRL）

這種方法允許嵌入向量在保持語義信息的同時進行動態(tài)維度縮減。

（注：MRL強制模型把最核心、最關(guān)鍵的特征壓縮在向量的前幾十維里，次要的特征放在后面，這讓開發(fā)者可以根據(jù)預(yù)算和算力，自由決定信息密度的分布管理）

Gemini Embedding 2的默認輸出維度為3072維，但開發(fā)者可以根據(jù)需求縮減，例如：3072維、1536維、768維，從而在性能與存儲成本之間取得平衡。

除了支持API調(diào)用外，Gemini Embedding 2也支持通過LangChain、LlamaIndex、Haystack、Weaviate、QDrant、ChromaDB和Vector Search等工具調(diào)用。

通過為不同類型的數(shù)據(jù)賦予統(tǒng)一的語義表示，Gemini Embedding 2正在為下一代AI應(yīng)用：多模態(tài)Agent，乃至具身智能機器人提供關(guān)鍵基礎(chǔ)設(shè)施。

[1]https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-embedding-2/

[2]https://arxiv.org/pdf/2503.07891

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦

熱點推薦

微軟等提出ARO優(yōu)化器：訓(xùn)練提速1/3，揭示矩陣優(yōu)化新「藍海」

機器之心Pro 2026-03-10 12:37:29
0 跟貼 0
LLaVA-OneVision-1.5開源，8B模型預(yù)訓(xùn)練只需4天、1.6萬美元

機器之心Pro 2025-10-13 18:37:02
0 跟貼 0

從入門到卸載，全網(wǎng)最細的安全養(yǎng)龍蝦指南

愛范兒 2026-03-11 18:19:59
0 跟貼 0

谷歌發(fā)布首個原生多模態(tài)嵌入模型Gemini Embedding 2

華爾街見聞官方 2026-03-11 07:36:19
0 跟貼 0
谷歌Gemini殺入全球桶，血洗微軟Office！顛覆全球3億打工人

新智元 2026-03-11 13:40:15
6 跟貼 6

對標(biāo)谷歌Gemini？OpenAI擬在ChatGPT開啟視頻生成功能

華爾街見聞官方 2026-03-11 16:23:50
0 跟貼 0

瞄準(zhǔn)AI電力缺口谷歌和特斯拉組團推動“電網(wǎng)利用革命”

財聯(lián)社 2026-03-11 18:10:14
0 跟貼 0
499上門裝龍蝦的人，開始賺299卸載龍蝦的錢了

量子位 2026-03-11 16:36:12
1 跟貼 1

ChatGPT和Claude爭了個寂寞！用戶重疊僅11%，中國應(yīng)用霸榜移動端

量子位 2026-03-11 15:43:17
0 跟貼 0
機器人進汽車廠，給波士頓動力，裝上谷歌最強大腦

機器之心Pro 2026-01-06 19:02:05
0 跟貼 0
DeepSeek推理分裂出多重人格，越社交越聰明

量子位 2026-02-04 03:32:03
0 跟貼 0
DeepMind負責(zé)人：2036 AI意識覺醒？LeCun怒懟：LLM路線全錯！

新智元 2025-12-16 16:55:25
0 跟貼 0
當(dāng)男生和女友合照，用到女友的美顏參數(shù)

財經(jīng)時間官方 2026-03-09 21:02:10
0 跟貼 0
線性代數(shù)學(xué)習(xí)的十重境界：從"矩陣入門"到"維度飛升"的修行之路

自主校內(nèi)外 2026-03-10 07:27:16
0 跟貼 0
CVPR 2026｜清華聯(lián)合美團推出3DThinker，首個用3D意象思考的工作

機器之心Pro 2026-03-11 11:18:44
0 跟貼 0
UIUC清華微軟聯(lián)合提出PlugMem：當(dāng)Agent記憶告別經(jīng)歷，存儲經(jīng)驗

機器之心Pro 2026-03-11 17:54:43
0 跟貼 0
想學(xué)做龍蝦，先得學(xué)會做雞蛋

兔八哥影視 2026-03-07 09:40:51
1 跟貼 1
ICLR 2026｜早于DeepSeek Engram，STEM已重構(gòu)Transformer記憶

機器之心Pro 2026-03-09 14:50:58
0 跟貼 0
米其林餐廳3489一人套餐，含有龍蝦神戶牛肉等，你們看看值不

小陳美味 2026-03-07 13:08:26
188 跟貼 188
什么是“養(yǎng)龍蝦”，普通人適合“養(yǎng)龍蝦”嗎？

每日經(jīng)濟新聞 2026-03-11 04:36:54
0 跟貼 0
商湯小浣熊來了！打工人打工魂養(yǎng)出精通Excel的“龍蝦”

觀潮志科技 2026-03-11 18:03:14
0 跟貼 0
為啥很多人都開始“養(yǎng)龍蝦”了？郜老師分析得一針見血

徠芬科技 2026-03-10 07:44:57
0 跟貼 0
多模態(tài)推理新范式ThinkMorph ，文字與圖像在統(tǒng)一架構(gòu)共同演化

機器之心Pro 2026-03-10 16:02:54
0 跟貼 0
你“養(yǎng)龍蝦”了嗎？

余岳桐 2026-03-09 22:07:29
0 跟貼 0
NeurIPS 2025 Spotlight | 條件表征學(xué)習(xí)：一步對齊表征與準(zhǔn)則

機器之心Pro 2025-10-15 13:35:17
0 跟貼 0
還在為AI「鬼畫符」發(fā)愁？TextPecker即插即用破解文字渲染難題

機器之心Pro 2026-03-11 18:03:34
0 跟貼 0
中朝國際旅客列車3月12日起雙向開行

中國鐵路 2026-03-10 20:40:01
23860 跟貼 23860
小龍蝦替我996，打工人40天逆襲爽文來了，靠9個文件躺贏

智東西 2026-03-11 18:58:40
0 跟貼 0
美團也能裝龍蝦了？！OpenClaw火出圈，人人想養(yǎng)龍蝦

量子位 2026-03-10 01:53:41
0 跟貼 0
OpenClaw誕生意味著什么，Agent時代要開始

看財經(jīng)show 2026-03-10 19:19:19
0 跟貼 0
買車最容易讓人忽略的三個參數(shù)！

Mr劉然 2026-03-09 08:21:38
8 跟貼 8
物理AI的「原生」時刻：原力靈機發(fā)布具身大模型DM0

機器之心Pro 2026-03-11 16:32:04
0 跟貼 0
一個人單挑大廠？UP主手搓龍蝦管家Qclaw，最適合小白的養(yǎng)蝦方法

量子位 2026-03-11 14:32:34
0 跟貼 0
鮮活生猛的龍蝦不殺不處理，日本人直接用醬油浸泡生腌吃

咖辣食味 2026-03-07 09:30:47
3 跟貼 3
全民掀起“養(yǎng)龍蝦”熱潮如何安全“養(yǎng)龍蝦”“吃龍蝦”值得關(guān)注

鳳凰衛(wèi)視 2026-03-10 17:33:38
0 跟貼 0
馬克龍宣布前所未有海軍部署將向中東地區(qū)派10艘軍艦

極目新聞 2026-03-11 09:15:26
5364 跟貼 5364
普通人要不要馬上養(yǎng)龍蝦？為什么大家都在用OpenClaw？

翔說航天 2026-03-10 20:20:49
0 跟貼 0
大風(fēng)315 | 游客稱飛3000公里在西雙版納一景區(qū)游玩，因明星錄制綜藝節(jié)目被清場；景區(qū)：具體情況需由游客回應(yīng)

大風(fēng)新聞 2026-03-09 17:06:09
6995 跟貼 6995
關(guān)于“龍蝦”的一個小疑問

閃電制片廠 2026-03-10 20:46:43
1 跟貼 1
脫口秀演員李誕自曝每天“養(yǎng)龍蝦”超10小時，有人用“龍蝦”約到5位女主播吃飯，呼吁公眾理性使用 AI

封面新聞 2026-03-10 16:05:25
0 跟貼 0

手機 / 數(shù)碼

房產(chǎn) / 家居

讓龍蝦看懂屏幕！谷歌多模態(tài)新成果，文本圖像視頻音頻進同一空間

騰訊急了急了，微信絕密AI智能體首度曝光

重慶13歲少年"街舞世界杯"奪冠 最初目標(biāo)僅是進下一輪

重慶13歲少年"街舞世界杯"奪冠 最初目標(biāo)僅是進下一輪

郭艾倫重傷，CBA下半賽季還能期待些什么

楊冪連續(xù)五年為劉詩詩慶生，劉詩詩回應(yīng)

喚醒10萬億存量資金 公積金改革大潮來了

蓮花糾偏， 馮擎峰的“收”與“守”

態(tài)度原創(chuàng)

這檔韓國玄學(xué)綜藝，讓多少人看得頭皮發(fā)麻

KK平臺DotA核心優(yōu)勢,2026重塑Dota1競技體驗!

朝鮮"崔賢"號驅(qū)逐艦進行戰(zhàn)略巡航導(dǎo)彈試射

重慶13歲少年"街舞世界杯"奪冠最初目標(biāo)僅是進下一輪

重慶13歲少年"街舞世界杯"奪冠最初目標(biāo)僅是進下一輪

喚醒10萬億存量資金公積金改革大潮來了

蓮花糾偏，馮擎峰的“收”與“守”