![]()
GPT Image 2 正式上線后,AI 圖像生成領(lǐng)域現(xiàn)在只剩兩個(gè)段位:GPT Image 2,以及其它。
在大模型競技場中,GPT Image 2 以 241 分的絕對優(yōu)勢遙遙領(lǐng)先,但比起跑分,這份研發(fā)名單其實(shí)更有看頭。
![]()
搞出這個(gè)模型的 OpenAI 核心團(tuán)隊(duì),滿打滿算只有 13 個(gè)人。
![]()
并且華人還占據(jù)了團(tuán)隊(duì)的半壁江山。仔細(xì)看他們的履歷,你會(huì)發(fā)現(xiàn)不少人來 OpenAI 之前,就已經(jīng)在中國某所大學(xué)、某個(gè)實(shí)驗(yàn)室甚至科研夏令營里打過照面了。
AI 圈就是個(gè)巨大的熟人局。
流水的硅谷大廠,鐵打的師徒局
陳博遠(yuǎn)是 GPT Image 2 的絕對核心成員,而他的成長卻是華人學(xué)術(shù)「傳幫帶」的縮影。
高中時(shí),陳博遠(yuǎn)在無錫參加科研夏令營,當(dāng)時(shí)他未學(xué)過編程,在此認(rèn)識了后來成為 Google DeepMind 資深研究員的華人學(xué)者夏斐。夏斐向他介紹深度學(xué)習(xí),成為他進(jìn)入 AI 領(lǐng)域的引路人。
![]()
兩人此后一直保持聯(lián)系。本科階段,陳博遠(yuǎn)就讀于 UC Berkeley 計(jì)算機(jī)科學(xué)與數(shù)學(xué)專業(yè),進(jìn)入 EECS 榮譽(yù)班,GPA 達(dá) 3.96,師從 Pieter Abbeel 從事相關(guān)研究,還于 2017 年創(chuàng)辦機(jī)器人教育公司,經(jīng)營至 2020 年。
MIT 讀博第一年,陳博遠(yuǎn)因無論文產(chǎn)出陷入困境,夏斐提供關(guān)鍵支持,協(xié)助他發(fā)表第一篇有影響力的論文 NLMap。夏斐還兩次邀請他到 DeepMind 實(shí)習(xí),2023 年實(shí)習(xí)期間,他主導(dǎo)搭建多模態(tài)大語言模型數(shù)據(jù)合成管線,其總結(jié)的指令微調(diào)技術(shù)被用于 Gemini 2.0 研發(fā)。
![]()
帶著這些積累,陳博遠(yuǎn)在 2025 年 6 月加入 OpenAI。除此之外,他還是 Sora 視頻生成團(tuán)隊(duì)的成員,身兼數(shù)職。
![]()
在 MIT 期間,陳博遠(yuǎn)師從助理教授 Vincent Sitzmann,在計(jì)算機(jī)科學(xué)與人工智能實(shí)驗(yàn)室(CSAIL)做世界模型方向的研究。而 Kiwhan Song,就是同一個(gè)實(shí)驗(yàn)室里、同一個(gè)導(dǎo)師帶出來的同門師兄弟。
![]()
▲ https://kiwhan.dev/
Sitzmann 實(shí)驗(yàn)室的核心研究方向是「世界模型」,簡單說就是讓 AI 通過心理模擬器預(yù)判物理世界的變化,而不只是單純模仿像素。這種研究思路,或許也直接影響了 GPT Image 2 的技術(shù)方向。
兩人在博士期間多次合作,聯(lián)合發(fā)表了《History-Guided Video Diffusion》和《Large Video Planner》兩篇論文,主要探索如何把擴(kuò)散模型和序列生成結(jié)合起來,讓模型在生成內(nèi)容之前,先理清時(shí)序和空間上的因果邏輯。
![]()
▲ https://arxiv.org/abs/2502.06764
值得一提的是,Kiwhan Song 正是「長脖子」貼紙風(fēng)格漫畫頭像的創(chuàng)作者。
![]()
除了這兩位同門,團(tuán)隊(duì)里還有兩位華人成員,他們來自工業(yè)界積累多年的華人研究員網(wǎng)絡(luò)。
Jianfeng Wang 在微軟工作了近 9 年,以首席研究員的身份專注于大規(guī)模多模態(tài)表示學(xué)習(xí),在 DALL-E 3 研發(fā)期間,就和 OpenAI 團(tuán)隊(duì)有過深入合作。加入 OpenAI 后,他主要負(fù)責(zé)提升模型的指令遵循能力和對世界知識的理解。
![]()
▲ https://scholar.google.com/citations?user=vJWEw\_8AAAAJ&hl=en
Bing Liang 則在谷歌深耕了 5 年多,以高級軟件工程師的身份參與了 Imagen 3、Veo 視頻模型和 Gemini 多模態(tài)系列的核心研發(fā)工作,去年 8 月加入 OpenAI,負(fù)責(zé)圖像生成相關(guān)的研究。
![]()
▲ https://www.linkedin.com/in/bing-liang/
他們帶來的不只是自己的個(gè)人能力,還有競爭對手多年積累的工程經(jīng)驗(yàn),以及曾經(jīng)踩過的坑,為團(tuán)隊(duì)省去了不少彎路。
給天才們搭好戲臺子
Weixin Liang 和 Yuguang Yang 是團(tuán)隊(duì)里另一個(gè)值得關(guān)注的組合,兩人都畢業(yè)于浙江大學(xué)竺可楨學(xué)院,有著相同的本科背景。
Yuguang Yang 的履歷跨度很大。本科時(shí)在竺可楨學(xué)院學(xué)工程,博士階段則去了約翰斯·霍普金斯大學(xué),攻讀計(jì)算化學(xué)物理與機(jī)器學(xué)習(xí)專業(yè),拿到學(xué)位后,先后在亞馬遜 Alexa 做語音識別方向的深度學(xué)習(xí)研究,之后又去了微軟 Bing,負(fù)責(zé)查詢理解與大規(guī)模檢索相關(guān)工作。
![]()
他還曾在清華大學(xué)做過訪問研究,研究方向是用于納米機(jī)器人在人體血管中導(dǎo)航的強(qiáng)化學(xué)習(xí)算法,期間發(fā)表了 7 篇同行評審的期刊論文。這種跨學(xué)科的積累,在 GPT Image 2 的發(fā)布演示中也能直接看到。
![]()
和 Yuguang Yang 相比,Weixin Liang 的成長路徑更偏向?qū)W術(shù)。他在斯坦福 AI 實(shí)驗(yàn)室(SAIL)攻讀博士,期間和 Christopher Manning、Li Fei-Fei、James Zou 等多位知名教授都有過合作。
![]()
▲ https://ai.stanford.edu/~wxliang/
在 Meta 實(shí)習(xí)期間,他發(fā)表了論文《Mixture-of-Transformers(MoT)》,通過引入模態(tài)解耦的混合專家模型架構(gòu),對 Transformer 的每一個(gè)非嵌入?yún)?shù),包括前饋網(wǎng)絡(luò)、注意力矩陣和層歸一化,都實(shí)施了模態(tài)感知的稀疏化處理,最終將多模態(tài)預(yù)訓(xùn)練的計(jì)算成本降低了 66%,還在 30B 參數(shù)規(guī)模下完成了預(yù)訓(xùn)練驗(yàn)證。
多模態(tài)模型因?yàn)橐瑫r(shí)處理文本和高分辨率圖像,計(jì)算量很容易呈指數(shù)級增長,而 MoT 憑借模態(tài)解耦的注意力機(jī)制,在預(yù)訓(xùn)練階段就高效分配了不同模態(tài)之間的權(quán)重,很好地解決了這個(gè)問題。這項(xiàng)研究后來也被稱為「推動(dòng)多模態(tài)理解與生成統(tǒng)一的奠基性貢獻(xiàn)」,在多模態(tài)建模領(lǐng)域引發(fā)了大量關(guān)注。
![]()
▲ https://arxiv.org/abs/2411.04996
近年來,清華姚班、浙大竺可楨學(xué)院、中科大學(xué)少年班、上海交大等學(xué)校的畢業(yè)生,已成為 OpenAI、Anthropic、DeepMind、Meta 等海外 AI 實(shí)驗(yàn)室的核心力量。
除了上述成員,團(tuán)隊(duì)還有幾位核心研究者,各自發(fā)揮重要作用:
Kenji Hata:斯坦福計(jì)算機(jī)科學(xué)碩士,曾任職于 Google Research。加入 OpenAI 后,參與 4o 圖像生成(即 GPT-Image-1)、Sora 2 等多款模型研發(fā),是團(tuán)隊(duì)中模型迭代經(jīng)歷最完整的成員之一。
Ayaan Haque:加入 OpenAI 前為 Luma AI 研究員,參與訓(xùn)練視頻生成模型 Dream Machine。這段經(jīng)歷讓他具備處理高維時(shí)序數(shù)據(jù)的能力,在 OpenAI 主要負(fù)責(zé) GPT Image 2 及思考模式研發(fā)。
Dibya Bhattacharjee:耶魯計(jì)算機(jī)科學(xué)本碩,曾在谷歌深耕近 5 年。2024 年 2 月加入 OpenAI 負(fù)責(zé)圖像生成研究,在發(fā)布活動(dòng)中演示模型多規(guī)格生成能力,是模型輸出格式「開箱即用」的關(guān)鍵成員。
Mengchao Z.:上海交大本科、德克薩斯 A&M 大學(xué)碩士,工程背景扎實(shí)。加入 OpenAI 前主導(dǎo)大規(guī)模推薦系統(tǒng)架構(gòu)設(shè)計(jì),目前負(fù)責(zé)將模型技術(shù)能力轉(zhuǎn)化為可用產(chǎn)品形態(tài)。
此外,團(tuán)隊(duì)里還有多名成員的身份信息目前暫時(shí)無法查詢。
![]()
師門脈絡(luò)積累了研究品味,高校背景奠定了基礎(chǔ)認(rèn)知,這種由師門、同窗、前同事織就的人才網(wǎng)絡(luò),天然形成了一種極高密度的信任——由于價(jià)值觀和工程語言的高度統(tǒng)一,創(chuàng)新的磨合成本幾乎為零。
如果只是重金挖走一兩個(gè)陳博遠(yuǎn),其實(shí)治標(biāo)不治本。找不到同伴,也就很難復(fù)現(xiàn)這種自然涌現(xiàn)的創(chuàng)新。大廠的組織結(jié)構(gòu)決定了層級和目標(biāo)明確對商業(yè)化有利,但對于需要自由探索的基礎(chǔ)研究,往往形成了某種約束。
AI 的競爭,歸根結(jié)底是關(guān)于「人」的故事,比起尋找下一個(gè)陳博遠(yuǎn),我們更需要搭建一個(gè)讓陳博遠(yuǎn)們能在本土自然相遇、互相成就的生態(tài)。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.