<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      谷歌AGI底座降臨!首個原生全模態(tài)嵌入模型上線,已實現(xiàn)全模態(tài)SOTA

      0
      分享至


      新智元報道

      編輯:艾倫

      【新智元導(dǎo)讀】谷歌發(fā)布首個原生全模態(tài) Embedding 模型 Gemini Embedding 2!它將文本、圖、音視頻及 PDF 無損融于統(tǒng)一向量空間,實現(xiàn)跨越五大模態(tài)的直接檢索。這極大降低了架構(gòu)成本,賦予了 AI 真正連貫的「記憶」,是重塑 AI 基建的里程碑。

      如果說 ChatGPT 等生成式 AI 大模型是 AI 用來表達(dá)的「嘴」,那么 Embedding(嵌入)模型就是負(fù)責(zé)理解與檢索的「記憶神經(jīng)」。

      長期以來,這條記憶神經(jīng)處于割裂狀態(tài)。

      昨天,Gemini API 上線首個多模態(tài) Embedding 模型預(yù)覽版gemini-embedding-2-preview。

      作為首個原生全模態(tài) Embedding 模型,它將文本、圖像、音視頻乃至 PDF 文檔,悉數(shù)融合進(jìn)了一個統(tǒng)一的向量空間。


      拆解「原生全模態(tài)」的顛覆性價值

      要真正理解這項技術(shù)的戰(zhàn)略分量,我們需要看清過去 AI 檢索系統(tǒng)面臨的「數(shù)據(jù)巴別塔」困境。

      以往,視覺模態(tài)、音頻模態(tài)和文本處理模態(tài)仿佛說著截然不同的語言,每次調(diào)度全局信息都需要極其繁瑣的翻譯對齊。

      Gemini Embedding 2 的出現(xiàn),等同于在數(shù)據(jù)世界推行了一門通用語,其核心突破體現(xiàn)在以下幾個維度。

      斬斷轉(zhuǎn)錄節(jié)點,消除信息損耗黑洞

      「原生」二字的含金量在于拒絕任何形式的妥協(xié)與翻譯。

      早期讓 AI 「聽懂」播客,必須外掛語音識別模型先轉(zhuǎn)成純文本,導(dǎo)致說話人略帶反諷的語調(diào)、背景里刺耳的警笛聲等「冗余信息」瞬間灰飛煙滅。

      如今,模型直接「生吞」 MP3 音軌的波形與高分辨率圖片的原始像素,那些只可意會不可言傳的感官細(xì)節(jié),終于在數(shù)學(xué)空間里找到了精確的坐標(biāo)。

      打通統(tǒng)一坐標(biāo)系,解鎖跨物種搜索

      當(dāng)五大數(shù)據(jù)類型被壓縮進(jìn)同一個高維向量空間,數(shù)據(jù)的邊界被徹底消解。

      開發(fā)者能夠輕易實現(xiàn)極其復(fù)雜的跨模態(tài)檢索:

      拋入一段發(fā)動機(jī)異響的錄音,系統(tǒng)會瞬間從海量的 PDF 維修手冊中精準(zhǔn)定位到故障部件的圖紙;

      上傳一張極具后現(xiàn)代風(fēng)格的建筑照片,系統(tǒng)能直接召回配樂風(fēng)格極其相似的影視片段。

      檢索完全進(jìn)化成了純粹的「語義和意圖共振」。

      架構(gòu)大簡化,工程復(fù)雜度斷崖式下跌

      過去拼湊一個多模態(tài)檢索應(yīng)用,工程師簡直要經(jīng)歷一場噩夢。

      維護(hù)多個獨立模型、花重金購買隔離的向量數(shù)據(jù)庫、再編寫極度復(fù)雜的重排算法試圖強(qiáng)行對齊各類得分,這種草臺班子式的架構(gòu)不僅延遲極高,且極易崩潰。

      現(xiàn)在,這堆亂如麻的基建被濃縮成一次簡單的 API 調(diào)用,一套模型足以打穿整個業(yè)務(wù)流。

      已經(jīng)提前嘗鮮的 Agent 創(chuàng)業(yè)者們,也毫不吝嗇自己對這個全模態(tài)新模型的贊美。


      為 Agent 拼上完整的記憶拼圖

      Agent 往往容易顯得遲鈍,根本原因就在于其「記憶」是割裂的。

      Agent 看完帶有大量數(shù)據(jù)圖表的研報后,往往只記住了文字,圖表部分則被拋棄。

      原生全模態(tài) Embedding 賦予了 AI 一種連貫的底層認(rèn)知模式,讓機(jī)器終于能像人類一樣,將聽到的風(fēng)聲、看到的畫面和讀過的段落,無縫融合成一段完整的記憶。

      「五合一」引擎與降本魔法

      新模型不僅包攬了五大數(shù)據(jù)類型,更擁有極寬的吞吐邊界!

      • 文本支持超 100 種語言,上下文高達(dá) 8192 個 token。

      • 圖像單次請求最多攝入 6 張圖片(支持 PNG 與 JPEG)。

      • 視頻長達(dá) 128 秒的動態(tài)影像。

      • 音頻長達(dá) 80 秒的錄音脫離了轉(zhuǎn)錄工具的依賴,直接聽懂音軌。

      • 文檔跳過常規(guī)的 OCR 提取,最高 6 頁的 PDF 可被原生讀取。

      在秀肌肉的同時,谷歌也替企業(yè)算好了一筆經(jīng)濟(jì)賬。

      Gemini Embedding 2 沿用了巧妙的「俄羅斯套娃」表示學(xué)習(xí)技術(shù)(MRL)。

      這項技術(shù)允許開發(fā)者像拆解套娃一樣,根據(jù)自身的存儲預(yù)算靈活「折疊」向量的體積。

      在默認(rèn)的 3072 維滿血狀態(tài)下,模型自然能提供極致的檢索基準(zhǔn)。


      https://ai.google.dev/gemini-api/docs/embeddings?hl=zh-cn

      但真正讓人驚艷的是它向下壓縮時的韌性:當(dāng)維度被對半砍到 1536 維時,其 MTEB 多語言性能得分依然堅挺在 68.17 分,甚至出現(xiàn)了一個反直覺的現(xiàn)象——這個分?jǐn)?shù)比 2048 維還要略高一絲。

      即便你把預(yù)算壓縮到極致,將向量體積暴減 75% 降至 768 維,其跑分也僅僅微跌了 0.18 分(67.99 分)。

      這意味著,開發(fā)團(tuán)隊完全可以在幾乎不犧牲核心檢索質(zhì)量的前提下,大幅度削減存儲與計算開銷,用極高的性價比撬動頂級的多模態(tài)能力。

      商業(yè)身位與避坑指南

      環(huán)顧四周,這條賽道的火藥味從未如此濃烈。

      OpenAI 的 text-embedding-3 依然死死守在純文本陣地,視覺方面全靠舊版模型支撐;

      老牌玩家 Cohere 的 Embed v4 遺漏了音視頻兩塊關(guān)鍵拼圖;

      開源陣營中最能打的 Jina v4 拿下了圖文與 PDF,同樣對聲音和動態(tài)影像無能為力。

      Gemini Embedding 2 恰好填補(bǔ)了市場空白,成為當(dāng)下唯一覆蓋五大模態(tài)的商用級全能選手,實現(xiàn)了全模態(tài) SOTA!


      對于準(zhǔn)備嘗鮮的工程團(tuán)隊而言,有幾個現(xiàn)實的「坑」必須提前規(guī)避:

      • 兼容性斷層。新老模型的向量空間處于不同的維度規(guī)則下。從舊版 gemini-embedding-001 遷移的系統(tǒng),必須將海量歷史數(shù)據(jù)全部重新編碼并重建索引。

      • 格式與時長閾值。目前音頻僅支持 MP3 與 WAV,且有 80 秒硬性上限,較長的會議錄音必須自行切片。

      • 手動歸一化。在代碼調(diào)用層面,若選擇非默認(rèn)的低維度輸出(如 768 維),開發(fā)者需要外掛腳本手動進(jìn)行 L2 歸一化處理。

      當(dāng)孤立的數(shù)據(jù)孤島被徹底貫通,龐雜的現(xiàn)實世界才得以在代碼的深海中投下清晰的倒影。

      最深遠(yuǎn)的智能革命,往往藏在那些不動聲色的基礎(chǔ)設(shè)施里,悄然將萬物重塑為同一種語言。

      現(xiàn)在,可以通過 Gemini API 或 Vertex AI 開始使用 Gemini Embedding 2 模型,參考調(diào)用方式如下:

      print(result.embeddings)

      參考資料:

      https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-embedding-2/

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點推薦
      沖突第10天,伊朗祭出王牌導(dǎo)彈,911噩夢很可能會在美國再次重演

      沖突第10天,伊朗祭出王牌導(dǎo)彈,911噩夢很可能會在美國再次重演

      小樾說歷史
      2026-03-10 10:15:18
      王思聰送珠寶高調(diào)表白懶懶:老婆我愛你,兩人同框照曝光很恩愛

      王思聰送珠寶高調(diào)表白懶懶:老婆我愛你,兩人同框照曝光很恩愛

      銀河史記
      2026-03-09 19:12:35
      上海母女倆小區(qū)里祭祀遭碾壓,快遞小哥抬車救人腰椎骨折,想辦理工傷必須要見義勇為認(rèn)定書?相關(guān)部門:已申請!

      上海母女倆小區(qū)里祭祀遭碾壓,快遞小哥抬車救人腰椎骨折,想辦理工傷必須要見義勇為認(rèn)定書?相關(guān)部門:已申請!

      黃河新聞網(wǎng)呂梁
      2026-03-11 11:38:43
      恐怖!深圳一男子被確診艾滋病,傳染他的,是在上高中的17歲男生

      恐怖!深圳一男子被確診艾滋病,傳染他的,是在上高中的17歲男生

      火山詩話
      2026-03-09 09:07:09
      從法國走路到中國

      從法國走路到中國

      新民周刊
      2026-03-10 16:44:38
      高速服務(wù)區(qū)靠什么盈利?保潔大姐說出真相,顛覆了我的三觀!

      高速服務(wù)區(qū)靠什么盈利?保潔大姐說出真相,顛覆了我的三觀!

      愛下廚的阿釃
      2026-03-08 16:21:08
      伊朗體育部長:女足球員被引誘不唱國歌留在澳洲,回國后不會受罰

      伊朗體育部長:女足球員被引誘不唱國歌留在澳洲,回國后不會受罰

      蘭亭墨未干
      2026-03-11 20:43:08
      劉亞樓被稱為103,號稱東野三號首長,實際有9位排他前面:都是誰

      劉亞樓被稱為103,號稱東野三號首長,實際有9位排他前面:都是誰

      舊史新譚
      2026-03-08 14:11:09
      LV大秀:全智賢老了,lisa露肚臍顯尷尬,劉亦菲臉腫

      LV大秀:全智賢老了,lisa露肚臍顯尷尬,劉亦菲臉腫

      孤酒老巷QA
      2026-03-11 16:17:16
      普通人能用 OpenClaw 做什么?

      普通人能用 OpenClaw 做什么?

      老端的觀點
      2026-03-10 16:33:11
      以色列已經(jīng)告訴世界:日本若敢擁有核武器,美國并不會第一個翻臉

      以色列已經(jīng)告訴世界:日本若敢擁有核武器,美國并不會第一個翻臉

      八斗小先生
      2025-12-26 09:33:27
      敞開天窗說亮話!特朗普月底訪華,中方終于回應(yīng)了!信號不尋常

      敞開天窗說亮話!特朗普月底訪華,中方終于回應(yīng)了!信號不尋常

      趣生活
      2026-03-11 21:04:26
      《逐玉》熱播,女主田曦薇扛的豬被浙江網(wǎng)友一眼認(rèn)出:金華兩頭烏!本地人認(rèn)證:真的很好吃

      《逐玉》熱播,女主田曦薇扛的豬被浙江網(wǎng)友一眼認(rèn)出:金華兩頭烏!本地人認(rèn)證:真的很好吃

      極目新聞
      2026-03-10 17:14:59
      “見過搶米搶面,沒見過搶塑料”,中東開戰(zhàn),東莞一個小鎮(zhèn)大堵車!貿(mào)易商:潑天的富貴來了,干嘛不抓住?業(yè)內(nèi)提醒:只是虛假繁榮

      “見過搶米搶面,沒見過搶塑料”,中東開戰(zhàn),東莞一個小鎮(zhèn)大堵車!貿(mào)易商:潑天的富貴來了,干嘛不抓住?業(yè)內(nèi)提醒:只是虛假繁榮

      每日經(jīng)濟(jì)新聞
      2026-03-10 21:06:07
      美民主黨人警告:除非魯比奧等人就對伊行動作證,否則動用一切程序性手段阻撓參議院正常運作

      美民主黨人警告:除非魯比奧等人就對伊行動作證,否則動用一切程序性手段阻撓參議院正常運作

      環(huán)球網(wǎng)資訊
      2026-03-10 11:46:00
      淪為共享單車的女色虎

      淪為共享單車的女色虎

      深度報
      2026-03-05 22:39:27
      到了晚年,如果兒子兒媳不尊重你,不必較勁,做好這4點足矣

      到了晚年,如果兒子兒媳不尊重你,不必較勁,做好這4點足矣

      烙任情感
      2026-03-10 18:31:37
      哈梅內(nèi)伊地堡曝光 5公里地道藏在學(xué)校和診所下方

      哈梅內(nèi)伊地堡曝光 5公里地道藏在學(xué)校和診所下方

      桂系007
      2026-03-10 04:13:35
      美媒評論東風(fēng)5C導(dǎo)彈:恐怖!如果丟一枚到美國,會造成怎樣的景象

      美媒評論東風(fēng)5C導(dǎo)彈:恐怖!如果丟一枚到美國,會造成怎樣的景象

      朝子亥
      2026-03-10 19:15:03
      谷歌Gemini殺入全球桶,血洗微軟Office!顛覆全球3億打工人

      谷歌Gemini殺入全球桶,血洗微軟Office!顛覆全球3億打工人

      新智元
      2026-03-11 13:40:15
      2026-03-11 21:43:00
      新智元 incentive-icons
      新智元
      AI產(chǎn)業(yè)主平臺領(lǐng)航智能+時代
      14696文章數(shù) 66682關(guān)注度
      往期回顧 全部

      科技要聞

      騰訊"養(yǎng)蝦"暴漲后,百度急得在門口"裝蝦"

      頭條要聞

      一艘泰國貨船在霍爾木茲海峽遭炮火襲擊 伊朗強(qiáng)硬表態(tài)

      頭條要聞

      一艘泰國貨船在霍爾木茲海峽遭炮火襲擊 伊朗強(qiáng)硬表態(tài)

      體育要聞

      郭艾倫重傷,CBA下半賽季還能期待些什么

      娛樂要聞

      田亮一家新年全家福!森碟變清純少女

      財經(jīng)要聞

      喚醒10萬億存量資金 公積金改革大潮來了

      汽車要聞

      蓮花糾偏, 馮擎峰的“收”與“守”

      態(tài)度原創(chuàng)

      健康
      游戲
      時尚
      房產(chǎn)
      軍事航空

      轉(zhuǎn)頭就暈的耳石癥,能開車上班嗎?

      再戰(zhàn)六年 Falcom社長確認(rèn)《軌跡》系列將在2032年完結(jié)

      穿出巴黎女人的姿態(tài),要幾步?

      房產(chǎn)要聞

      最低殺到7800元/㎡!海口2026第一波房價大調(diào)整來了!

      軍事要聞

      朝鮮"崔賢"號驅(qū)逐艦進(jìn)行戰(zhàn)略巡航導(dǎo)彈試射

      無障礙瀏覽 進(jìn)入關(guān)懷版