<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      對話Memories.ai:“人的記憶本質上是視覺,AI也該如此”

      0
      分享至


      對話:王兆洋,黃小藝
      整理:黃小藝

      Memories.ai試圖為未來的AI設備裝上“視覺記憶”。

      這家由前Meta Reality Labs研究員Shawn Shen和Ben Zhou創立的公司,11月6日發布了其第二代模型——大型視覺記憶模型(Large Visual Memory Model)2.0,并同步宣布與高通達成戰略合作。

      LVMM 2.0 通過將原始視頻轉換為設備上的結構化內存,對視頻進行編碼、壓縮并構建支持亞秒級搜索的索引,讓用戶可以用自然語言提出問題,跳轉到確切的時刻。

      與高通的合作也意味著,Memories.ai可以為搭載高通芯片的AI硬件,例如AI眼鏡等可穿戴設備,提供一個本地化的視覺記憶解決方案,讓你的設備能記住你看到過的東西,并隨時幫你找出來。

      在合作官宣后,我們也和Shawn聊了聊,他們不參與最擁擠、最燒錢的“通用智能”戰場,不負責讓AI“思考”或“理解”記憶的含義,核心只做兩件事:

      將用戶看到的視覺信息進行高效“編碼”,并支持快速精準的“搜索”。

      “從第一性原理出發,人類構建記憶也是兩塊:第一,編碼器,能夠實時地把我們感知的世界編碼成電信號,儲存在腦子里;第二,搜索引擎,用來查找回憶,我們做的也是這兩塊。至于搜出來后,怎么整理、篩選、組成上下文喂給大語言模型,就交給其他層來做?!盨hawn說道。

      “我們不做推理,也不做很多‘記憶’公司在做的上下文工程。我們認為那些工作解決的問題太具體細分了,而我們想做一家AI Infra公司?!?/p>

      這是一個務實的想法,不與Google、OpenAI這樣的龐然大物硬碰硬,也不和Agent公司爭奪垂直領域,而是選擇一個最底層的切口,成為生態鏈上一個不可或缺的“關鍵底層”,但它同樣具有野心——未來無論誰家的Agent和硬件做得最好,都會需要一個穩定可靠的“視頻記憶模塊”,而Memories.ai希望成為這個模塊的提供商。

      Shawn是Memories.ai的聯合創始人,他此前在劍橋大學期間主要研究的就是多模態模型——訓練模型去關聯視覺、語言和上下文。博士畢業后他去了 Meta Reality Labs繼續做多模態AI研究,去年和同在Meta Reality Labs 的Ben一起創立了 Memories.ai。

      以下為我們和Shawn的對話實錄:

      編碼模型+搜索引擎,一家模型+Infra公司

      硅星人:為什么選擇“視頻記憶”這個方向?你們似乎是這個領域里非常少有的玩家。

      Shawn我們想做的是真正模擬人的記憶。我一直認為,人的記憶本質上是視覺記憶,回憶的載體是鮮活的視覺畫面,而不是文本記憶。所以我們從第一性原理出發,決定要做視覺記憶。

      硅星人:你們的技術路線是怎樣的,怎樣建構視覺記憶?

      Shawn我們本質上只做兩件事。從第一性原理出發,人類構建記憶也是兩塊:第一,我們有一個編碼器(Encoder),能夠實時地把我們感知的世界(通過視頻方式)編碼成電信號,儲存在腦子里;第二,我們有一個搜索引擎來查找回憶。我們做的也是這兩塊:一個編碼模型,把原始的視頻轉成結構化數據;一個搜索引擎,根據用戶的提問,在結構化的數據庫里找到最相關的數據。

      我們覺得,未來的編碼模型一定會做得越來越小,甚至一定會做進端側。因為視頻需要實時、持續地處理,不像大語言模型,用戶一天只問幾十個問題。未來的機器人需要時刻看著世界,這就必須在端側處理。如果不在端側,持續上傳到云端的功耗會非常大,而且還有隱私問題。

      硅星人:我體驗了你們的產品,除了核心的視頻Chatbot,還有基于海量視頻的視頻營銷洞察、AI剪輯等等,這些都是你們未來的方向,還是僅僅作為案例范例?

      Shawn:那些更偏應用層的功能,比如視頻剪輯(Video Editor),更多是作為示范案例,之后我們會開源。我們一度想嘗試,但很快發現想做深非常難,而且沒有必要。因為現在也沒有一家 Video Editor Agent 或 Video Marketing Agent 公司真正跑出來。

      我們業務有三塊:to C(或者說 to Prosumer)、to Developer 和 to 大B(大客戶)。to Prosumer 和 to Developer 這兩塊,我們的目的不是賺錢,更多是擴大品牌影響力。

      對于 Prosumer,我們的定位是一個一體化視覺平臺,用戶可以上傳各種視頻來學習和理解。我們后面也會推出連接器(Connector),可以連接到你自己的視頻源,比如 Google Drive 或本地硬盤。

      對于開發者,我們會開放 API。現在已經有很多視頻剪輯Agent、視頻營銷Agent公司在基于我們的API構建他們自己的產品。我們自己做的這幾個 Agent,其實是作為“參考設計”。

      對于B端業務,Memories.ai已經吸引了很多企業合作需求,我們會篩選合適的項目進行深度合作。比如安保和監控攝像頭中,對房屋周圍情況的記憶,對獨自在家的寵物行為的記憶,舉個例子,你可以問AI,家里的花瓶是怎么碎了,然后AI查詢出,是你的小狗在幾點幾分打碎的。


      所以,我們只專注做兩件事:編碼(Encoding)和為視頻優化的搜索(Search)。我們不做推理(Reasoning),也不做很多所謂“記憶”公司在做的上下文工程。我們認為那些工作解決的問題太具體(Problem Specific)了,而我們想做的是一家Infra公司。

      硅星人:如果每一個垂直領域的記憶都那么不同,記憶公司該怎么去處理,都要做的話,是一個很大的挑戰。

      Shawn:是的。因為記憶,尤其是基于文本的記憶,太場景化了。就算是同樣做客服機器人,你不同需求場景對記憶的處理方式就是不一樣的,上下文也不同,這很難做成一個基礎設施級的產品。

      而什么東西能成長得最快?在企業端,就是找到一個痛點,然后找到更多有類似痛點的企業,做成一個 SaaS。在消費端,就是輸入輸出(Input-Output)要簡單,一個 API 調用就結束了,而不是在里面還要做各種各樣的工作,那樣很難Scale?,F在大部分記憶框架,對我來說就是上下文工程。

      而我們做的編碼,是完全獨立于具體問題的,就是怎么把視頻變成結構化數據;搜索,就是當我在海量的結構化視頻數據里,有一個當下的任務或查詢時,怎么搜到最相關的內容。

      至于這些內容搜出來之后,你怎么整理、怎么篩選、怎么組成上下文喂給大語言模型,這些就是 RAG做的事了。當然對于 B 端大客戶,我們會提供端到端的方案。

      硅星人:編碼模型是你們的核心。這個過程中,對視頻的結構化處理很復雜,比如對人物、動作、情節、事件的多層拆解。你們的編碼模型和此前的相比,區別在哪里?

      Shawn主流視覺模型,比如ViT,把視頻向量和文字向量對齊,用對比學習進行對齊,通常是基于靜態圖片(Image)進行訓練的,這帶來了幾個問題:第一,它不是真正的多模態,只能理解視覺,無法融合音頻等信息。第二,它無法理解時間概念,因為輸入的是靜態圖片。第三,由于它是跟文字描述做對齊訓練,如果文字里沒有涵蓋某些概念,模型就永遠學不到。

      而我們做的是一個世界模型編碼器。它有三大不同:真正的多模態: 能將視覺、音頻等多種信息融合到同一個嵌入空間里;理解時間與動作: 基于視頻流進行訓練,因此能真正理解動作(Action);自監督學習: 我們尤其在人物、動作和物體的理解上做了大量優化。

      硅星人:所以本質上你們是一家模型公司。

      Shawn:對,我們本質上是一家研究驅動的模型公司,一個研究實驗室(Research Lab)。

      視頻記憶模型的未來在端側

      硅星人:這一代模型,借著跟高通合作的契機,做成了一個能在端側運行的模型,它和第一代模型的關系是什么?

      Shawn它們都是編碼和檢索模型。第二代則做得更小,更多的是尺寸上的區別。

      硅星人:你認為這類模型,它存在的價值主要是在端側嗎?

      Shawn:我覺得對于編碼模型來說,在端側非常重要。就像人一樣,視覺信息是持續不斷進來的。舉個例子,你的手機相冊,大部分人其實不會上傳到云端做備份。


      硅星人:那現在它識別精準度的問題,接下來要如何進一步優化?

      Shawn:首先,肯定是要在更大的數據上做訓練,模型會變得越來越準。第二,還是要把模型做得更小。我覺得“準”是有一個天花板的,因為我們不是做推理模型。推理模型沒有天花板,可以做得無限聰明。而我們的編碼模型,它的目標就是對視頻信息做一次無損的重構(lossless reconstruction),最多就是能做到完全轉回去,這就是天花板,可能未來 5 到 10 年達到。

      現在更重要的,就是怎么把模型不斷變小,先在 NPU,后面在 CPU,再后面在一個更便宜的處理器上就能實時跑。

      硅星人:跟高通的合作,是第一次把模型放進 NPU 或芯片里嗎?

      Shawn:對,之前都是在云端依賴 GPU,通過 API 調用?,F在可以直接做端側部署了。

      硅星人:接下來和高通的合作,會有一個階段性的部署計劃嗎?

      Shawn:有。我們現在就在跟他們做聯合銷售(Co- sell),一起去服務很多終端廠商客戶,我們也能提供很多初創公司的合作機會。我們做各種各樣的 POC(概念驗證),包括未來的一些 AI 眼鏡公司。主要的 use case 就是手機上的 AI 相冊、安防領域的智能監控,以及 AI 助手的端側視覺能力。


      硅星人:這幾個案例的市場規模,就足夠支撐你們在長線的事情上繼續投入了。

      Shawn:是的。而且我們現在也在做First Party(第一方)的APP,高通也會在這方面支持我們。

      硅星人:這個事挺重要的。一方面,直接在芯片上跑,速度會天然快很多。另一方面,回顧商業史,移動互聯網時代的很多大公司,比如字節跳動,最初也是在智能手機轉換期通過預裝來獲得杠桿。所以這次合作的節點,從這兩個角度看都很重要。是高通主動找到你們的嗎?

      Shawn是高通找到我們的。你看現在英偉達漲得這么快,那么下一個破局點在哪里,很自然就能想到了可穿戴設備和機器人。這些設備什么地方需要巨大的算力?就是對視覺信息的實時處理。

      硅星人:為什么現在大廠很少做類似的事?

      Shawn:我覺得更多的是因為大家現在都在競爭“智能”。“智能”和“編碼”是兩條完全不同的技術路徑?!爸悄堋币龅氖且凶銐虻膭撛炝Γ覜]有上限。我們做的“編碼”,是把視頻轉成結構化數據,從技術上說,我們需要的創造力是越少越好。這是完全不一樣的訓練方法和技術路徑,最后只會越走越遠,而不會趨同。

      硅星人:這很有意思。我們看“記憶”這個領域,包括像 DeepSeek OCR 、 Sora出來,外界總想把它放到多模態的框架里討論,包括你們也能被歸類到“世界模型”的討論中。但我自己感覺,其實不應該把視覺只是當成一種“模態”,包括你們的思路其實也是把它當作一個更基礎的東西。只是因為這波大語言模型太強了,所有東西都在向 token 對齊,但人的記憶可能是基于視覺的,不是基于 token 的。

      Shawn:是的。你看,人思考用文字,所以我們寫公式是用 token 的。但是人回憶,永遠是回憶視覺。因為視覺回憶起來夠快、夠準。

      我現在讓你一字不落地背誦一篇長文可能很難,但讓你回憶幾十年前童年的某個場景,你卻可以很快地回溯出來。因為視覺信息對于人腦來說,是一個非常容易被儲存和檢索的模態。有了這些視覺信息之后,你才會去做相關的推理。

      硅星人:我們知道,像LLM(大語言模型)處理的Token,數據存儲和檢索相對高效,甚至可以用“大力出奇跡”的暴力方式來處理。但視覺信息要大得多,將非結構化的視覺信息轉換成模型能理解的“結構化數據”的過程,是否也意味著它的處理方式與現有LLM完全不同?

      舉一個更具體的例子:當我回憶童年時,我的人腦并不會像計算機一樣,從2000年到2005年把所有“視頻幀”都線性地掃描一遍,你們的模型要如何才能實現這種類似人腦的、非線性的視覺記憶檢索?

      Shawn:對,其實在研究領域大家都很早期。比如說,DeepSeek OCR,他們也開始探索如果拿視覺作為一個Native的Reasoning框架,之后能發生什么,其實我們也是以這樣的方式去思考的。大語言模型是無監督訓練,去Predict the next token,我們現在做世界模型的Encoder。世界模型不是predict next token,是predict the next frame。

      硅星人:你的最小單位是 frame,里面包含了時間等多維信息。

      Shawn:對。

      創業要找到北極星指標,學會Say No

      硅星人:所以你們在一個研究上都未成熟的領域,需要去定義問題,同時又要商業化、要融資,技術本身又很新。

      Shawn:對,在硅谷大家也更認可這一點,就是我們去做一個長期(5到10年)的事情。我們現在主要還是把自己定位成一個 Research Lab,在長期道路上做正確的事。

      硅星人:但做這個事情需要資源,你們的資源怎么去競爭,策略是什么?

      Shawn我們需要三類資源,數據資源、算力資源、人才資源。因為我們做的模型,天生就不需要特別多的算力資源,模型本來就小,編碼模型預訓練一次花幾百萬美元。所以,對我們更重要的是數據資源和人才資源,我們主要是在這兩方面有一些核心競爭力。

      硅星人:可以展開講講嗎?比如數據。

      Shawn:第一,我們平臺上有幾萬用戶,上傳了超過百萬的個人視頻。第二,我們會通過硬件,專門去做第一人稱視角的視頻數據采集,這類數據本身就非常稀缺,但我們也積累下了大量的數據。第三就是人才資源,我們在硅谷有一定的存在感,是一家人才濃度很高的公司。大家其實都是因為對我們做的事情感興趣而來的。

      硅星人:以前在學術界,現在作為 CEO,這個轉變感覺怎么樣?

      Shawn挺好的。挑戰很大,每個階段都不同,很多東西體驗了才知道。比如大家都說要保持健康,但只有你真生病了才知道重要。創業也是,大家總說要招最牛的人,真正做了才知道這確實至關重要,不能只招執行力強的人。第二點是要專注,學會說不。創業公司資源永遠有限,怎么去專注一件事,做好優先級排序和時序安排。

      聽別人講和自己上手體驗完全不一樣,我現在是各種環節都得自己上,從產品到市場,到跟客戶交流,企業銷售會議,甚至模型、產品發布的視頻文案都是我做的。

      硅星人:我們觀察到你的產品思路在不斷變化。比如一開始對 Prosumer 端的想象可能野心很大,但試了一下馬上就知道了市場的真實反饋。

      Shawn:今年三四月份,我們還覺得視頻營銷(Video Marketing)是利用多模態的一個非常好的市場。但試了之后發現不是。

      我們的技術是理解海量視頻,AI 助手(AI 的記憶)才是我們未來真正想做的方向。像視頻剪輯、視頻營銷這些,即使做了,你還得去找更細的切入點,比如是給品牌用還是給個人用,是做有 UI 的還是純自然語言交互的。切得越小,跟我們主體方向就越遠。所以我們決定這些就作為Demo或Side Project,我們還是會更專注于更長期的事。

      我們的北極星(North Star)就是:做未來所有智能體(機器人、AI 助手等)的記憶系統。只要硬件上帶攝像頭、內部有 AI,我們就為它提供看見、理解并記住世界的能力。

      硅星人:你現在也依然在高校里擔任教授,這種給公司和產品的定位能力和學術里去“定義問題”有點像?

      Shawn對,就是一句話概括你要做什么。定位定義好了,你才知道怎么打市場,目標客戶群體是什么。比如我們的目標客戶群體一直是創始人和構建者(Founders and Builders),我們也確實做到了,現在的AI 創業團隊應該都聽過我們。

      硅星人:你那一句話的定位是什么?變化過嗎?

      Shawn:沒太變過。如果用一句話概括,就是“讓 AI 看見和記住”(Making AI to see and remember)。另一個就是“Large Visual Memory Model”這個詞,它本身就定義了:第一,你是做視覺記憶(Visual Memory)的;第二,你是模型(Model)公司;第三,你是做基礎層(Foundational)工作的。

      在一個萬物皆可被記錄的時代,如何“記住”本身,或許比如何“思考”更為根本。



      點個愛心,再走 吧

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      投190萬5年變120億!摩爾線程天使投資再創暴富神話

      投190萬5年變120億!摩爾線程天使投資再創暴富神話

      鞭牛士
      2025-12-08 21:18:01
      兩米鐵棍追打妻子,胃癌丈夫的崩潰:我只是想讓你撐起這個家……

      兩米鐵棍追打妻子,胃癌丈夫的崩潰:我只是想讓你撐起這個家……

      福建第一幫幫團
      2025-12-07 19:04:56
      A股:不必等待了,傳來兩個信息,明天,周二歷史即將重演?

      A股:不必等待了,傳來兩個信息,明天,周二歷史即將重演?

      明心
      2025-12-08 15:51:03
      郭德綱也沒想到,商演低俗被約談后,第一個站出來發聲力挺的是他

      郭德綱也沒想到,商演低俗被約談后,第一個站出來發聲力挺的是他

      甜檸聊史
      2025-12-08 16:34:28
      人民日報專訪,揭開32歲周深的真實處境,那英確實一個字都沒說錯

      人民日報專訪,揭開32歲周深的真實處境,那英確實一個字都沒說錯

      八斗小先生
      2025-11-01 08:46:54
      中國無法原諒的“6大國家”,日本居然僅排第二,第一出乎意料?

      中國無法原諒的“6大國家”,日本居然僅排第二,第一出乎意料?

      愛吃醋的貓咪
      2025-11-27 17:48:57
      開播25年!《外來媳婦本地郎》終于大結局

      開播25年!《外來媳婦本地郎》終于大結局

      TVB劇評社
      2025-12-08 18:03:11
      利物浦官方社媒曬薩拉赫訓練照,和伊薩克、?;倏擞姓f有笑

      利物浦官方社媒曬薩拉赫訓練照,和伊薩克、?;倏擞姓f有笑

      懂球帝
      2025-12-08 23:31:12
      “一個月做5次,超過就按50萬一次收費!”澤尻英龍華逼丈夫簽下

      “一個月做5次,超過就按50萬一次收費!”澤尻英龍華逼丈夫簽下

      忠于法紀
      2025-12-03 11:35:03
      父親癡呆12年,忽然想起廣東有棟300平別墅,女兒找過去卻愣在門前

      父親癡呆12年,忽然想起廣東有棟300平別墅,女兒找過去卻愣在門前

      五元講堂
      2025-04-16 15:55:35
      突發!以軍強行進入聯合國近東救濟工程處辦公地搜查,并升起以色列國旗

      突發!以軍強行進入聯合國近東救濟工程處辦公地搜查,并升起以色列國旗

      上觀新聞
      2025-12-08 20:54:04
      痛惜!55歲凍齡跑者張素梅離世,這些被忽略的細節太致命

      痛惜!55歲凍齡跑者張素梅離世,這些被忽略的細節太致命

      吃瓜盟主
      2025-12-08 14:59:50
      柬埔寨公主大婚堪比時尚盛典,公主曾在中國留學,新郎被視為新一代商業領袖!

      柬埔寨公主大婚堪比時尚盛典,公主曾在中國留學,新郎被視為新一代商業領袖!

      新民周刊
      2025-12-07 13:04:40
      陳震被約談畫面曝光!官宣停更保團隊,復出徹底沒戲了!

      陳震被約談畫面曝光!官宣停更保團隊,復出徹底沒戲了!

      雷科技
      2025-12-08 15:20:10
      連體24年,妹妹主動要求把命留給姐姐,5小時后醫生的話令父母梗住

      連體24年,妹妹主動要求把命留給姐姐,5小時后醫生的話令父母梗住

      如煙若夢
      2025-12-03 17:03:11
      細思極恐!英國最新大型研究發現:每日步數連降或預示帕金森病

      細思極恐!英國最新大型研究發現:每日步數連降或預示帕金森病

      徐德文科學頻道
      2025-12-07 20:08:51
      趙本山兒子請客吃砂鍋,趙一楠染一頭黃發,宋曉峰喝到臉泛紅

      趙本山兒子請客吃砂鍋,趙一楠染一頭黃發,宋曉峰喝到臉泛紅

      李橑在北漂
      2025-12-08 08:22:30
      經濟大省挑大梁丨非凡五年,廣東把“逆風局”打成“高端局”

      經濟大省挑大梁丨非凡五年,廣東把“逆風局”打成“高端局”

      21世紀經濟報道
      2025-12-08 16:10:34
      江西豐城一女護士患癌請病假遭拒?衛健委通報

      江西豐城一女護士患癌請病假遭拒?衛健委通報

      界面新聞
      2025-12-08 16:29:53
      綁架李嘉誠長子成功后他金盆洗手,買下深圳28套房,如今咋樣了

      綁架李嘉誠長子成功后他金盆洗手,買下深圳28套房,如今咋樣了

      顧史
      2025-11-19 13:55:25
      2025-12-08 23:47:00
      硅星人 incentive-icons
      硅星人
      硅(Si)是創造未來的基礎,歡迎來到這個星球。
      2693文章數 10414關注度
      往期回顧 全部

      科技要聞

      國產機械硬盤尚未攻克,華為高管呼吁

      頭條要聞

      江蘇男子貴州投資養羊損失近百萬 543只羊被"躲貓貓"

      頭條要聞

      江蘇男子貴州投資養羊損失近百萬 543只羊被"躲貓貓"

      體育要聞

      一位大學美術生,如何用4年成為頂級跑者?

      娛樂要聞

      章子怡被說拜高踩低 主動和卡梅隆熱聊

      財經要聞

      百億金融爆雷 浙商大佬"朋友圈"也不靈了

      汽車要聞

      純電全尺寸大六座 凱迪拉克"小凱雷德"申報圖曝光

      態度原創

      手機
      教育
      房產
      藝術
      家居

      手機要聞

      三星三折疊手機:主\副屏觸控+側邊指紋方案來自匯頂

      教育要聞

      高中地理三年??肌臼澜绲乩怼棵~解釋,高中生速看

      房產要聞

      全球征集方案!涉及2400畝,秀英港又有新動作!

      藝術要聞

      一棵樹的力量

      家居要聞

      有限無界 打破慣有思維

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 内射影院| 久久天天躁狠狠躁夜夜躁2012 | 又爽又黄又无遮挡的视频| 精品成人av| 国产盗摄人妻精品一区| 日日插插| 少妇被粗大的猛进69视频| 亚洲а∨天堂久久精品9966| 欧美亚洲另类制服卡通动漫| 午夜小电影| 成?人?黄?色?A?Ⅴ?网?站03| 欧美zoozzooz性欧美| 在线播放国产一区二区三区 | 黑水县| 深州市| 免费视频爱爱太爽了| 国模欢欢炮交啪啪150| 日夜啪啪一区二区三区| 啪啪福利导航| 亚洲区色| 伊人网狼人| 成人电影c.cc| 玩弄放荡人妻少妇系列视频 | 2022亚洲无码| 色综合久久88色综合天天| 99精产国品一二三产品香蕉| 正在播放国产【乱子】| 苍井空大战黑人| 手机在线观看AV| 久久99精品久久久久麻豆| 337p日本欧洲亚洲大胆艺术图| 影音先锋你懂得| 垣曲县| 茄子视频国产在线观看 | 久久精品夜色噜噜亚洲A∨| 一本伊人久久| 18禁裸乳无遮挡自慰免费动漫| 无码少妇a片一区二区三区| 亚洲最大成人综合网| 成人AV一区二区三区| 国产一区二区亚洲精品|