![]()
2026年3月的GTC大會上,英偉達宣布了一項看似低調卻意義深遠的合作——與初創公司Memories.ai聯手開發AI的"視覺記憶"能力。這不僅僅是又一家AI公司的技術發布,而是指向了一個被長期忽視的關鍵問題:AI能看,但記不住自己看到了什么。
Memories.ai的創始人Shawn Shen和CTO Ben Zhou并非憑空想象出這個方向。兩人此前在Meta負責Ray-Ban智能眼鏡的AI系統開發。在為這款網紅眼鏡搭建AI能力的過程中,他們發現了一個尷尬的現實:用戶戴著眼鏡錄了一整天的視頻,卻無法有效檢索和回憶這些內容。
"如果AI只能實時分析畫面,卻不能記住用戶一周前看到的東西,那它的實用價值就大打折扣。"Shen在接受TechCrunch采訪時說。
他們開始在市場上尋找解決方案,卻發現這個領域幾乎是一片空白。OpenAI、Google、xAI都在做AI記憶,但清一色是文本記憶——讓ChatGPT記住你們之前的對話內容。對于需要與物理世界交互的AI來說,這顯然不夠。
文本記憶相對簡單。文字是結構化的,有明確的語義邊界,索引和檢索都有成熟方案。但視頻是另一回事——它是連續的、非結構化的、數據量巨大的信息流。
Memories.ai的解決方案分為兩層:
第一層是基礎設施:把視頻轉換成可存儲、可檢索的數據格式。這需要專門的嵌入模型(Embedding Model)來提取視頻中的關鍵信息,并建立高效的索引系統。
第二層是數據:為了訓練這個模型,他們甚至自己造了一款叫LUCI的硬件設備,讓"數據采集員"佩戴記錄視頻。Shen強調他們不想成為硬件公司,只是市面上的錄像設備要么畫質過剩、要么耗電太快,都不符合需求。
這次GTC上公布的合作,讓Memories.ai的技術棧更加清晰。他們將使用英偉達的兩款核心產品:Cosmos-Reason 2推理視覺語言模型,負責理解視頻內容;Metropolis視頻搜索與摘要應用,提供檢索能力。
此外,Memories.ai還宣布與高通達成合作,其大型視覺記憶模型(LVMM)將支持高通處理器,預計今年晚些時候落地。
Memories.ai成立于2024年,至今已完成兩輪融資,總計1600萬美元。投資方包括Susa Ventures、Seedcamp、Fusion Fund等知名機構。
但Shen對商業化保持克制:"我們現階段更專注于模型和基礎設施,因為可穿戴設備和機器人市場終將爆發,只是時機未到。"
這種判斷有其道理。蘋果Vision Pro的市場反響、Meta Ray-Ban眼鏡的走紅,都說明可穿戴AI設備正在起勢。但真正的爆發可能需要killer app——而"視覺記憶"很可能就是其中之一。
試想一下:你的AI助手記得你三個月前把護照放在了哪個抽屜,記得你上周在超市看到的那款零食叫什么名字,記得你停車時周圍的地標——這才是真正有用的AI伴侶。
Memories.ai并非沒有競爭對手。Google的Gemini Embedding 2就是類似方向的多模態索引檢索模型。但Memories.ai的優勢在于專注——他們只做視覺記憶這一件事,而且已經推出了第二代LVMM。
更關鍵的是,他們已經與"幾家大型可穿戴設備公司"展開合作。在可穿戴AI這個即將爆發的賽道,搶先與頭部廠商建立合作關系,意味著巨大的先發優勢。
當所有人都在談論大模型的參數規模和推理能力時,Memories.ai選擇了一個更基礎卻同樣重要的問題:AI的記憶。
這不是一個能登上頭條的炫酷功能,但可能是決定AI能否真正融入物理世界的關鍵拼圖。畢竟,一個看過就忘的AI,和一個能記住生活點滴的AI,哪個更像真正的智能?
答案不言而喻。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.