![]()
新智元報道
編輯:艾倫
【新智元導讀】谷歌 Gemini 數據聯合負責人 Andrew Dai 聯手蘋果首席研究科學家 Yinfei Yang,隱身創辦 AI 新秀 Elorian。首輪將融資 5000 萬美元,劍指「視覺推理」這個下一代大模型的核心問題。
硅谷的 AI 創業熱潮中,最昂貴的籌碼永遠押注在最資深的「大腦」上。
曾在谷歌 DeepMind 效力長達 14 年的資深研究員 Andrew Dai,正在籌建一家名為Elorian的 AI 初創公司。
![]()
這家尚不為人所知的公司,種子輪融資目標即高達 5000 萬美元。
與 Andrew Dai 聯手的,是剛于去年 12 月離職的蘋果研究科學家 Yinfei Yang。
![]()
這兩位分別來自谷歌和蘋果的技術老兵,正在試圖解決大模型領域的下一個核心問題:視覺推理(Visual Reasoning)。
領投這輪融資的,極有可能是由前 CRV 普通合伙人 Max Gazor 創立的 Striker Venture Partners。
如果交易達成,這將是硅谷近期最受矚目的早期融資之一,也再次印證了資本市場對于「谷歌畢業生」的瘋狂追捧。
14 年,從 BERT 早期到 Gemini 幕后
在 AI 研究圈,Andrew Dai 這個名字代表著一種「長期主義」。
不同于那些在 Transformer 浪潮爆發后才匆匆入局的創業者,Andrew Dai 在谷歌的工號可以追溯到 2012 年。
這意味著他完整經歷了深度學習從邊緣學科走向世界中心的整個周期。
在他的 LinkedIn 履歷中,最引人注目的是他作為Gemini 模型預訓練(Pre-training)數據工作的聯合負責人。
![]()
在當前的大模型戰爭中,數據質量和預訓練策略被認為是決定模型智商上限的關鍵因素。
能夠在這個核心環節擔任負責人,足以證明他在谷歌內部的權重。
Andrew Dai 的學術貢獻不僅限于此。
他曾與谷歌首席科學家 Jeff Dean 以及 Quoc V. Le(Google Brain 的傳奇人物)共同撰寫過多篇論文。
早在 2015 年,他發表的一篇關于半監督序列學習(Semi-supervised Sequence Learning)的論文,就被認為對后來 OpenAI 的 GPT 系列模型產生了深遠的啟發。
![]()
https://proceedings.neurips.cc/paper/2015/file/7137debd45ae4d0ab9aa953017286b20-Paper.pdf
一位熟悉 Andrew Dai 的人士評價道:「他是語言模型的先驅之一,過去二十年一直專注于預訓練相關的研究。他最擅長的,就是如何從海量、嘈雜的數據源中提煉出高質量的“知識”。」
如果說 Andrew Dai 代表了谷歌在大數據處理上的暴力美學,那么聯合創始人 Yinfei Yang 則帶來了蘋果系的精致與多模態視角。
Yinfei Yang 此前在蘋果機器學習團隊擔任首席研究科學家(Principal Research Scientist),主要參與蘋果自研 AI 模型的開發。
![]()
在加入蘋果之前,他也曾在 Google Research 工作過四年,專注于多模態表示學習。
他在圖像-文本共嵌入(Image-text Co-embedding)領域的專長,恰好填補了單純語言模型的感知短板。
視覺推理
不只是「看見」,更要「理解」
Elorian 究竟想做什么?
根據 Andrew Dai 的說法,Elorian 并不是要再造一個 ChatGPT,而是要構建一個能夠「同時理解和處理文本、圖像、視頻和音頻」的原生多模態模型。
目前的 AI 模型大多是基于文本訓練,再通過「補丁」的方式接入視覺能力。
而 Elorian 的愿景是構建一個天生的「通感者」。
這種模型不再是將圖片轉化為文字標簽,而是像人類一樣,通過視覺直接感知物理世界的邏輯。
「視覺推理」被認為是通向 AGI 的必經之路。
Andrew Dai 提到,機器人將是 Elorian 技術的一個潛在應用場景,但他強調公司的愿景遠不止于此。
在硅谷的投資人眼中,這通常意味著 Elorian 瞄準的是AI 智能體的廣闊市場——一個能夠像人類一樣看著電腦屏幕、理解圖形用戶界面(GUI)、處理退貨流程、審核法律文件、操作其他軟件的超級助手。
它不需要你通過 API 喂給它數據,而是直接像你一樣「看」著 Excel 表格、「聽」著電話錄音,同時「讀」懂屏幕上的郵件,并實時做出決策。
這就是 Elorian 試圖構建的未來。
資本的邏輯
為「血統」買單
5000 萬美元的種子輪融資,在幾年前聽起來像是天方夜譚,但在今天的 AI 泡沫中,這似乎成了頂級團隊的「入場費」。
正在與 Elorian 洽談領投的 Striker Venture Partners,本身也是一家極具話題性的新銳基金。
其創始人 Max Gazor 曾是老牌風投 CRV 的合伙人,以眼光毒辣著稱。
他在去年 10 月剛剛自立門戶,Elorian 很可能是該基金成立后的首批標志性賭注之一。
對于 Max Gazor 這樣的投資人來說,他們賭的不僅僅是技術路徑,更是「谷歌 DeepMind + 蘋果」這種稀缺的基因組合。
谷歌提供了大規模訓練基礎設施的經驗,而蘋果則有著將 AI 落地到具體產品的務實文化。
Elorian 的出現,也折射出大模型戰場的轉移。
第一階段的戰爭是關于「文本生成」,OpenAI 憑借 ChatGPT 拔得頭籌;
第二階段的戰爭則是關于「多模態理解」和「物理世界交互」。
在這個新戰場上,無論是 Gemini 還是 GPT,都在瘋狂補課視覺能力。
Elorian 作為一個初創公司,想要在巨頭的夾縫中生存,唯一的籌碼就是技術上的代差,或者在垂直場景(如復雜的視覺 Agent)上做到極致。
在硅谷,每一個從巨頭出走的頂級研究員,都懷揣著一個「反叛」的夢想:用更小的團隊、更聚焦的資源,去顛覆老東家龐大而遲緩的官僚體系。
Andrew Dai 離開了效力 14 年的谷歌,Yinfei Yang 離開了發布 Apple 智能的蘋果。
他們選擇了一條最艱難的路——試圖教會機器不僅「看見」世界,還要「看懂」世界。
這讓人想起計算機視覺領域的一句老話:「攝像頭只是眼睛,算法才是靈魂。」
而在 AI 的洪流中,真正稀缺的永遠不是算力,而是那些能夠透過數據的迷霧,看清未來方向的眼睛。
參考資料:
https://www.theinformation.com/articles/former-google-apple-researchers-raising-50-million-new-visual-ai-startup
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.