<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      讓龍蝦看懂屏幕!谷歌多模態(tài)新成果,文本圖像視頻音頻進同一空間

      0
      分享至

      henry 發(fā)自 凹非寺
      量子位 | 公眾號 QbitAI

      原生,啟動!

      剛剛,谷歌發(fā)布了首個原生多模態(tài)(Multimodal)嵌入模型——

      Gemini Embedding 2

      這次模型最大的變化在于:把文本、圖像、視頻、音頻和文檔,全部映射進同一個統(tǒng)一的嵌入空間。



      換句話說,不同媒介的數(shù)據(jù)第一次被放進同一個語義坐標(biāo)系里。

      在輸入能力上,Gemini Embedding 2支持多種數(shù)據(jù)類型:

      • 文本:支持最多8192個token
      • 圖像:每次請求最多處理6張圖像,支持PNG和JPEG
      • 視頻:支持最長120秒的視頻輸入,格式為MP4和MOV
      • 音頻:原生嵌入音頻數(shù)據(jù),無需中間文本轉(zhuǎn)錄
      • 文檔:可直接嵌入最多6頁的PDF

      此外,模型不僅可以處理單一模態(tài),還支持多模態(tài)混合輸入(例如圖像 +文本)。

      這意味著模型可以捕捉不同媒體之間的復(fù)雜語義關(guān)系,從而更準(zhǔn)確地理解現(xiàn)實世界中的信息。

      在評測方面,Gemini Embedding 2不僅整體性能較上一代提升,同時也為多模態(tài)嵌入任務(wù)樹立了新的性能基準(zhǔn)。

      一方面增強了語音處理能力,另一方面也在文本、圖像和視頻任務(wù)中均超越現(xiàn)有領(lǐng)先模型,實現(xiàn)SOTA。



      乍看之下,這似乎只是一次底層的數(shù)據(jù)工程升級。

      但實際上,它正為像龍蝦這樣的AI Agent真正“看懂”世界,提供了關(guān)鍵基礎(chǔ)。

      目前,Gemini Embedding 2已經(jīng)通過Gemini API和Vertex AI展開公測。

      原生多模態(tài)嵌入

      嵌入模型(Embedding Model)本質(zhì)上是把數(shù)據(jù)轉(zhuǎn)化為稠密向量表示。

      在這個向量空間中,語義相似的數(shù)據(jù)會彼此靠近,不相似的數(shù)據(jù)則距離更遠。

      傳統(tǒng)的嵌入模型主要針對文本。

      例如,在谷歌此前的論文《Gemini Embedding: Generalizable Embeddings from Gemini》中——

      Gemini Embedding通過在大語言模型參數(shù)中已有的海量知識基礎(chǔ)上構(gòu)建表征,并將得來的嵌入用于:語義檢索、文本聚類、分類,排序等下游任務(wù)。



      但這只停留在文字階段。

      最新的Gemini Embedding 2,則首次徹底打通了多模態(tài)數(shù)據(jù)。

      文本、圖片、視頻、音頻和文檔,都被壓縮到同一個向量空間之中。

      而這,就意味著模型實現(xiàn)了“跨模態(tài)語義對齊”,能夠讓貓這個「文字概念」與貓的照片這個「視覺概念」,在統(tǒng)一的嵌入空間中的數(shù)學(xué)向量的距離極度接近。

      通俗來說,當(dāng)你搜索“貓”的時候,系統(tǒng)不僅能找到相關(guān)文字,還能直接找到貓的圖片、視頻甚至聲音。

      也正因為如此,很多原本復(fù)雜的多模態(tài)流程可以被大幅簡化。

      RAG檢索、語義搜索、情感分析,到數(shù)據(jù)聚類等應(yīng)用場景,都能直接受益。

      更重要的是,這類能力對AI Agent意義巨大。

      過去的Agent在操作電腦時,往往只能依賴文字信息。

      例如識別按鈕上的“設(shè)置”“確認”等標(biāo)簽。但真實世界的UI界面,大量信息其實來自視覺結(jié)構(gòu):

      圖標(biāo)、布局、顏色、控件位置,正是傳統(tǒng)文本嵌入模型難以處理的部分。

      而有了多模態(tài)嵌入之后,情況就不同了。

      對于像OpenClaw(龍蝦)這樣需要操作電腦,識別屏幕的Agent來說,它不再只是識別文字。



      它可以直接理解:哪個像素區(qū)域是設(shè)置圖標(biāo)、哪個按鈕與當(dāng)前任務(wù)最相關(guān),屏幕截圖與文本指令之間的關(guān)系

      換句話說,Gemini Embedding 2提供了一條統(tǒng)一的感官總線。視覺、聽覺與文本信息,都能在同一個語義空間中進行關(guān)聯(lián)。

      這也為未來Agent真正理解屏幕、理解環(huán)境并代替人類操作電腦,奠定了最重要的語義基礎(chǔ)。

      在技術(shù)層面,Gemini Embedding 2繼續(xù)采用Matryoshka Representation Learning(MRL)



      這種方法允許嵌入向量在保持語義信息的同時進行動態(tài)維度縮減。

      (注:MRL強制模型把最核心、最關(guān)鍵的特征壓縮在向量的前幾十維里,次要的特征放在后面,這讓開發(fā)者可以根據(jù)預(yù)算和算力,自由決定信息密度的分布管理)

      Gemini Embedding 2的默認輸出維度為3072維,但開發(fā)者可以根據(jù)需求縮減,例如:3072維、1536維、768維,從而在性能與存儲成本之間取得平衡。

      除了支持API調(diào)用外,Gemini Embedding 2也支持通過LangChain、LlamaIndex、Haystack、Weaviate、QDrant、ChromaDB和Vector Search等工具調(diào)用。

      通過為不同類型的數(shù)據(jù)賦予統(tǒng)一的語義表示,Gemini Embedding 2正在為下一代AI應(yīng)用:多模態(tài)Agent,乃至具身智能機器人提供關(guān)鍵基礎(chǔ)設(shè)施。

      [1]https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-embedding-2/

      [2]https://arxiv.org/pdf/2503.07891

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點推薦
      周啟豪委屈吐槽,陳幸同不被定義,感情敗給現(xiàn)實

      周啟豪委屈吐槽,陳幸同不被定義,感情敗給現(xiàn)實

      東方不敗然多多
      2026-03-11 17:09:27
      是否刺殺伊朗新領(lǐng)袖?特朗普突然“共情”了:那樣說不合適,我以前也曾是暗殺目標(biāo);想在伊朗復(fù)制“委內(nèi)瑞拉模式”

      是否刺殺伊朗新領(lǐng)袖?特朗普突然“共情”了:那樣說不合適,我以前也曾是暗殺目標(biāo);想在伊朗復(fù)制“委內(nèi)瑞拉模式”

      極目新聞
      2026-03-10 14:47:01
      瘋了!波切蒂諾給皇馬下死命令:挖 4 人才肯執(zhí)教,英超被薅禿

      瘋了!波切蒂諾給皇馬下死命令:挖 4 人才肯執(zhí)教,英超被薅禿

      奶蓋熊本熊
      2026-03-11 03:07:39
      你什么時候感覺中國強大起來了?網(wǎng)友:國足是用來平衡國運的

      你什么時候感覺中國強大起來了?網(wǎng)友:國足是用來平衡國運的

      帶你感受人間冷暖
      2026-02-22 11:44:45
      日本,開始擺爛了

      日本,開始擺爛了

      新浪財經(jīng)
      2026-03-10 18:55:27
      京東有獎發(fā)票活動火了!有人中10萬現(xiàn)金 有人連中4次最高獎

      京東有獎發(fā)票活動火了!有人中10萬現(xiàn)金 有人連中4次最高獎

      快科技
      2026-03-10 17:24:14
      外國專家:毛澤東之所以打仗厲害,主要有3大“看家本領(lǐng)”

      外國專家:毛澤東之所以打仗厲害,主要有3大“看家本領(lǐng)”

      小港哎歷史
      2026-03-01 09:00:03
      關(guān)于和伊朗談判,特朗普最新表態(tài)!

      關(guān)于和伊朗談判,特朗普最新表態(tài)!

      每日經(jīng)濟新聞
      2026-03-10 21:15:06
      2B的丁字褲呢?《守望先鋒》尼爾聯(lián)動皮膚遭質(zhì)疑和諧

      2B的丁字褲呢?《守望先鋒》尼爾聯(lián)動皮膚遭質(zhì)疑和諧

      游民星空
      2026-03-11 12:26:05
      行程有變,特朗普訪華規(guī)格縮水,中方對美說不,美國先遣隊已離京

      行程有變,特朗普訪華規(guī)格縮水,中方對美說不,美國先遣隊已離京

      知法而形
      2026-03-10 20:29:56
      演都不演了,剛復(fù)出就開演唱會,票價賣到1280,到底誰給的自信?

      演都不演了,剛復(fù)出就開演唱會,票價賣到1280,到底誰給的自信?

      一娛三分地
      2026-03-03 13:51:03
      以色列軍方和情報界人士說,伊朗發(fā)生了重大事件,規(guī)模堪比尋呼機

      以色列軍方和情報界人士說,伊朗發(fā)生了重大事件,規(guī)模堪比尋呼機

      雪中風(fēng)車
      2026-03-11 09:57:54
      難怪美國打算停火了,特朗普連收3條噩耗,自己兒子也要遭殃

      難怪美國打算停火了,特朗普連收3條噩耗,自己兒子也要遭殃

      娛樂小可愛蛙
      2026-03-10 19:26:17
      國民黨再掀內(nèi)斗,張亞中向鄭麗文叫板,韓國瑜打臉柯文哲,不簡單

      國民黨再掀內(nèi)斗,張亞中向鄭麗文叫板,韓國瑜打臉柯文哲,不簡單

      DS北風(fēng)
      2026-03-11 18:42:04
      深圳一幼兒園學(xué)費217360元!網(wǎng)友自嘲:都說經(jīng)濟差,原來只是我窮

      深圳一幼兒園學(xué)費217360元!網(wǎng)友自嘲:都說經(jīng)濟差,原來只是我窮

      川渝視覺
      2026-03-11 16:21:54
      腦梗的源頭被查出,肥肉沒上榜,第1名很多人可能每天都在吃!

      腦梗的源頭被查出,肥肉沒上榜,第1名很多人可能每天都在吃!

      全球軍事記
      2025-11-29 13:46:37
      延安時期:我黨真的一窮二白嗎?紅軍的主要收入是什么?

      延安時期:我黨真的一窮二白嗎?紅軍的主要收入是什么?

      冰語歷史
      2026-03-07 07:38:08
      日本外長電話怒斥伊朗:要求伊朗立刻放人,伊朗外長強硬回擊日本

      日本外長電話怒斥伊朗:要求伊朗立刻放人,伊朗外長強硬回擊日本

      影像溫度
      2026-03-10 09:21:04
      你那“迷人的老祖宗”真不值得崇拜

      你那“迷人的老祖宗”真不值得崇拜

      浪子說
      2026-03-11 07:14:11
      國際油價上演歷史性大反轉(zhuǎn),一夜暴跌超35美元

      國際油價上演歷史性大反轉(zhuǎn),一夜暴跌超35美元

      流蘇晚晴
      2026-03-11 18:36:12
      2026-03-11 19:31:00
      量子位 incentive-icons
      量子位
      追蹤人工智能動態(tài)
      12267文章數(shù) 176413關(guān)注度
      往期回顧 全部

      科技要聞

      騰訊急了急了,微信絕密AI智能體首度曝光

      頭條要聞

      重慶13歲少年"街舞世界杯"奪冠 最初目標(biāo)僅是進下一輪

      頭條要聞

      重慶13歲少年"街舞世界杯"奪冠 最初目標(biāo)僅是進下一輪

      體育要聞

      郭艾倫重傷,CBA下半賽季還能期待些什么

      娛樂要聞

      楊冪連續(xù)五年為劉詩詩慶生,劉詩詩回應(yīng)

      財經(jīng)要聞

      喚醒10萬億存量資金 公積金改革大潮來了

      汽車要聞

      蓮花糾偏, 馮擎峰的“收”與“守”

      態(tài)度原創(chuàng)

      本地
      游戲
      數(shù)碼
      公開課
      軍事航空

      本地新聞

      這檔韓國玄學(xué)綜藝,讓多少人看得頭皮發(fā)麻

      KK平臺DotA核心優(yōu)勢,2026重塑Dota1競技體驗!

      數(shù)碼要聞

      存儲與CPU雙漲施壓PC市場,主流電腦型號售價或上漲40%

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      朝鮮"崔賢"號驅(qū)逐艦進行戰(zhàn)略巡航導(dǎo)彈試射

      無障礙瀏覽 進入關(guān)懷版