起底 GPT Image 2 團(tuán)隊(duì)后，我扒出了一張華人師徒網(wǎng)

2026-04-23 16:44:45　來源: 愛范兒

廣東舉報(bào)

分享至

GPT Image 2 正式上線后，AI 圖像生成領(lǐng)域現(xiàn)在只剩兩個(gè)段位：GPT Image 2，以及其它。

在大模型競技場中，GPT Image 2 以 241 分的絕對優(yōu)勢遙遙領(lǐng)先，但比起跑分，這份研發(fā)名單其實(shí)更有看頭。

搞出這個(gè)模型的 OpenAI 核心團(tuán)隊(duì)，滿打滿算只有 13 個(gè)人。

并且華人還占據(jù)了團(tuán)隊(duì)的半壁江山。仔細(xì)看他們的履歷，你會(huì)發(fā)現(xiàn)不少人來 OpenAI 之前，就已經(jīng)在中國某所大學(xué)、某個(gè)實(shí)驗(yàn)室甚至科研夏令營里打過照面了。

AI 圈就是個(gè)巨大的熟人局。

流水的硅谷大廠，鐵打的師徒局

陳博遠(yuǎn)是 GPT Image 2 的絕對核心成員，而他的成長卻是華人學(xué)術(shù)「傳幫帶」的縮影。

高中時(shí)，陳博遠(yuǎn)在無錫參加科研夏令營，當(dāng)時(shí)他未學(xué)過編程，在此認(rèn)識了后來成為 Google DeepMind 資深研究員的華人學(xué)者夏斐。夏斐向他介紹深度學(xué)習(xí)，成為他進(jìn)入 AI 領(lǐng)域的引路人。

兩人此后一直保持聯(lián)系。本科階段，陳博遠(yuǎn)就讀于 UC Berkeley 計(jì)算機(jī)科學(xué)與數(shù)學(xué)專業(yè)，進(jìn)入 EECS 榮譽(yù)班，GPA 達(dá) 3.96，師從 Pieter Abbeel 從事相關(guān)研究，還于 2017 年創(chuàng)辦機(jī)器人教育公司，經(jīng)營至 2020 年。

MIT 讀博第一年，陳博遠(yuǎn)因無論文產(chǎn)出陷入困境，夏斐提供關(guān)鍵支持，協(xié)助他發(fā)表第一篇有影響力的論文 NLMap。夏斐還兩次邀請他到 DeepMind 實(shí)習(xí)，2023 年實(shí)習(xí)期間，他主導(dǎo)搭建多模態(tài)大語言模型數(shù)據(jù)合成管線，其總結(jié)的指令微調(diào)技術(shù)被用于 Gemini 2.0 研發(fā)。

帶著這些積累，陳博遠(yuǎn)在 2025 年 6 月加入 OpenAI。除此之外，他還是 Sora 視頻生成團(tuán)隊(duì)的成員，身兼數(shù)職。

在 MIT 期間，陳博遠(yuǎn)師從助理教授 Vincent Sitzmann，在計(jì)算機(jī)科學(xué)與人工智能實(shí)驗(yàn)室（CSAIL）做世界模型方向的研究。而 Kiwhan Song，就是同一個(gè)實(shí)驗(yàn)室里、同一個(gè)導(dǎo)師帶出來的同門師兄弟。

▲ https://kiwhan.dev/

Sitzmann 實(shí)驗(yàn)室的核心研究方向是「世界模型」，簡單說就是讓 AI 通過心理模擬器預(yù)判物理世界的變化，而不只是單純模仿像素。這種研究思路，或許也直接影響了 GPT Image 2 的技術(shù)方向。

兩人在博士期間多次合作，聯(lián)合發(fā)表了《History-Guided Video Diffusion》和《Large Video Planner》兩篇論文，主要探索如何把擴(kuò)散模型和序列生成結(jié)合起來，讓模型在生成內(nèi)容之前，先理清時(shí)序和空間上的因果邏輯。

▲ https://arxiv.org/abs/2502.06764

值得一提的是，Kiwhan Song 正是「長脖子」貼紙風(fēng)格漫畫頭像的創(chuàng)作者。

除了這兩位同門，團(tuán)隊(duì)里還有兩位華人成員，他們來自工業(yè)界積累多年的華人研究員網(wǎng)絡(luò)。

Jianfeng Wang 在微軟工作了近 9 年，以首席研究員的身份專注于大規(guī)模多模態(tài)表示學(xué)習(xí)，在 DALL-E 3 研發(fā)期間，就和 OpenAI 團(tuán)隊(duì)有過深入合作。加入 OpenAI 后，他主要負(fù)責(zé)提升模型的指令遵循能力和對世界知識的理解。

▲ https://scholar.google.com/citations?user=vJWEw\_8AAAAJ&hl=en

Bing Liang 則在谷歌深耕了 5 年多，以高級軟件工程師的身份參與了 Imagen 3、Veo 視頻模型和 Gemini 多模態(tài)系列的核心研發(fā)工作，去年 8 月加入 OpenAI，負(fù)責(zé)圖像生成相關(guān)的研究。

▲ https://www.linkedin.com/in/bing-liang/

他們帶來的不只是自己的個(gè)人能力，還有競爭對手多年積累的工程經(jīng)驗(yàn)，以及曾經(jīng)踩過的坑，為團(tuán)隊(duì)省去了不少彎路。

給天才們搭好戲臺子

Weixin Liang 和 Yuguang Yang 是團(tuán)隊(duì)里另一個(gè)值得關(guān)注的組合，兩人都畢業(yè)于浙江大學(xué)竺可楨學(xué)院，有著相同的本科背景。

Yuguang Yang 的履歷跨度很大。本科時(shí)在竺可楨學(xué)院學(xué)工程，博士階段則去了約翰斯·霍普金斯大學(xué)，攻讀計(jì)算化學(xué)物理與機(jī)器學(xué)習(xí)專業(yè)，拿到學(xué)位后，先后在亞馬遜 Alexa 做語音識別方向的深度學(xué)習(xí)研究，之后又去了微軟 Bing，負(fù)責(zé)查詢理解與大規(guī)模檢索相關(guān)工作。

他還曾在清華大學(xué)做過訪問研究，研究方向是用于納米機(jī)器人在人體血管中導(dǎo)航的強(qiáng)化學(xué)習(xí)算法，期間發(fā)表了 7 篇同行評審的期刊論文。這種跨學(xué)科的積累，在 GPT Image 2 的發(fā)布演示中也能直接看到。

和 Yuguang Yang 相比，Weixin Liang 的成長路徑更偏向?qū)W術(shù)。他在斯坦福 AI 實(shí)驗(yàn)室（SAIL）攻讀博士，期間和 Christopher Manning、Li Fei-Fei、James Zou 等多位知名教授都有過合作。

▲ https://ai.stanford.edu/~wxliang/

在 Meta 實(shí)習(xí)期間，他發(fā)表了論文《Mixture-of-Transformers（MoT）》，通過引入模態(tài)解耦的混合專家模型架構(gòu)，對 Transformer 的每一個(gè)非嵌入?yún)?shù)，包括前饋網(wǎng)絡(luò)、注意力矩陣和層歸一化，都實(shí)施了模態(tài)感知的稀疏化處理，最終將多模態(tài)預(yù)訓(xùn)練的計(jì)算成本降低了 66%，還在 30B 參數(shù)規(guī)模下完成了預(yù)訓(xùn)練驗(yàn)證。

多模態(tài)模型因?yàn)橐瑫r(shí)處理文本和高分辨率圖像，計(jì)算量很容易呈指數(shù)級增長，而 MoT 憑借模態(tài)解耦的注意力機(jī)制，在預(yù)訓(xùn)練階段就高效分配了不同模態(tài)之間的權(quán)重，很好地解決了這個(gè)問題。這項(xiàng)研究后來也被稱為「推動(dòng)多模態(tài)理解與生成統(tǒng)一的奠基性貢獻(xiàn)」，在多模態(tài)建模領(lǐng)域引發(fā)了大量關(guān)注。

▲ https://arxiv.org/abs/2411.04996

近年來，清華姚班、浙大竺可楨學(xué)院、中科大學(xué)少年班、上海交大等學(xué)校的畢業(yè)生，已成為 OpenAI、Anthropic、DeepMind、Meta 等海外 AI 實(shí)驗(yàn)室的核心力量。

除了上述成員，團(tuán)隊(duì)還有幾位核心研究者，各自發(fā)揮重要作用：

Kenji Hata：斯坦福計(jì)算機(jī)科學(xué)碩士，曾任職于 Google Research。加入 OpenAI 后，參與 4o 圖像生成（即 GPT-Image-1）、Sora 2 等多款模型研發(fā)，是團(tuán)隊(duì)中模型迭代經(jīng)歷最完整的成員之一。

Ayaan Haque：加入 OpenAI 前為 Luma AI 研究員，參與訓(xùn)練視頻生成模型 Dream Machine。這段經(jīng)歷讓他具備處理高維時(shí)序數(shù)據(jù)的能力，在 OpenAI 主要負(fù)責(zé) GPT Image 2 及思考模式研發(fā)。

Dibya Bhattacharjee：耶魯計(jì)算機(jī)科學(xué)本碩，曾在谷歌深耕近 5 年。2024 年 2 月加入 OpenAI 負(fù)責(zé)圖像生成研究，在發(fā)布活動(dòng)中演示模型多規(guī)格生成能力，是模型輸出格式「開箱即用」的關(guān)鍵成員。

Mengchao Z.：上海交大本科、德克薩斯 A&M 大學(xué)碩士，工程背景扎實(shí)。加入 OpenAI 前主導(dǎo)大規(guī)模推薦系統(tǒng)架構(gòu)設(shè)計(jì)，目前負(fù)責(zé)將模型技術(shù)能力轉(zhuǎn)化為可用產(chǎn)品形態(tài)。

此外，團(tuán)隊(duì)里還有多名成員的身份信息目前暫時(shí)無法查詢。

師門脈絡(luò)積累了研究品味，高校背景奠定了基礎(chǔ)認(rèn)知，這種由師門、同窗、前同事織就的人才網(wǎng)絡(luò)，天然形成了一種極高密度的信任——由于價(jià)值觀和工程語言的高度統(tǒng)一，創(chuàng)新的磨合成本幾乎為零。

如果只是重金挖走一兩個(gè)陳博遠(yuǎn)，其實(shí)治標(biāo)不治本。找不到同伴，也就很難復(fù)現(xiàn)這種自然涌現(xiàn)的創(chuàng)新。大廠的組織結(jié)構(gòu)決定了層級和目標(biāo)明確對商業(yè)化有利，但對于需要自由探索的基礎(chǔ)研究，往往形成了某種約束。

AI 的競爭，歸根結(jié)底是關(guān)于「人」的故事，比起尋找下一個(gè)陳博遠(yuǎn)，我們更需要搭建一個(gè)讓陳博遠(yuǎn)們能在本土自然相遇、互相成就的生態(tài)。

聲明：包含AI生成內(nèi)容

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.