![]()
智東西
作者 江宇
編輯 冰倩
智東西1月20日?qǐng)?bào)道,ChatGPT背后的一位中國(guó)工程師——OpenAI核心貢獻(xiàn)者翁家翌,日前在AI播客WhynotTV Podcast接受專訪,他首次詳盡講述了自己從清華少年到OpenAI infra骨干的經(jīng)歷。
![]()
▲圖源自翁家翌GitHub主頁(yè)
作為強(qiáng)化學(xué)習(xí)與后訓(xùn)練(Post-Training)系統(tǒng)的關(guān)鍵工程師,翁家翌深度參與了GPT-3.5、GPT-4、GPT-5等核心模型的訓(xùn)練,其搭建的infra系統(tǒng)已成為OpenAI內(nèi)部大模型訓(xùn)練與迭代的基礎(chǔ)底座,也是ChatGPT持續(xù)進(jìn)化的關(guān)鍵支撐。
在這場(chǎng)長(zhǎng)達(dá)兩個(gè)多小時(shí)的對(duì)談中,翁家翌披露了OpenAI內(nèi)部Post-Training系統(tǒng)的構(gòu)建邏輯,也解釋了OpenAI為何能持續(xù)產(chǎn)出爆款模型。
他還分享了他對(duì)AGI定義、OpenAI不“open”批評(píng)以及內(nèi)部人才流動(dòng)加劇等現(xiàn)象的第一手觀察。
面對(duì)DeepSeek、TikTok、英偉達(dá)、谷歌等科技巨頭拋來的橄欖枝,他為何最終選擇了OpenAI?
談及職業(yè)方向,他又為何自稱“賣鏟子里最面向客戶的那位”,并立下目標(biāo)“我要最大化我在OpenAI Blog上出現(xiàn)的次數(shù)”?
這場(chǎng)對(duì)談,給出了答案。
一、“賣鏟子”到主導(dǎo)Post-Training,他是OpenAI模型背后的基礎(chǔ)構(gòu)建者
在OpenAI內(nèi)部,幾乎每一個(gè)大型模型的發(fā)布名單里,都能看到翁家翌的名字,他主導(dǎo)搭建了OpenAI強(qiáng)化學(xué)習(xí)后訓(xùn)練(Post-Training)階段的核心基礎(chǔ)設(shè)施。
“每發(fā)一個(gè)大的release,每發(fā)一個(gè)大的模型,我的名字就得放上去。”他說,“因?yàn)榇蠹叶荚谟谜麄€(gè)Post-Training infra去訓(xùn)練RHF的模型。”
他說自己“是賣鏟子里最面向客戶的那位”,因?yàn)閺?qiáng)化學(xué)習(xí)模塊處在整個(gè)基礎(chǔ)設(shè)施棧的最頂端。他還給自己的職業(yè)生涯設(shè)定過一個(gè)指標(biāo):“我要最大化我在OpenAI Blog上出現(xiàn)的次數(shù)。”
面對(duì)年輕人,他的建議仍是:持續(xù)投入工程建設(shè),而不是學(xué)術(shù)研究。他不避諱地說:“長(zhǎng)遠(yuǎn)來看,我還是覺得現(xiàn)代學(xué)術(shù)界應(yīng)該要被重構(gòu)。”在他看來,如果目標(biāo)是進(jìn)入工業(yè)界,最重要的是匹配真實(shí)的工作需求,“AI Lab最缺的其實(shí)就是Infra人才,infra是個(gè)無底洞。”
學(xué)術(shù)界研究往往陷在一些困境里,如Atari、MoJoCo等任務(wù)上過度擬合,并不能轉(zhuǎn)化為實(shí)際問題的解決能力。他談及,“我在2022年8月就意識(shí)到這個(gè)問題,所以逐步停止了天授的開發(fā),轉(zhuǎn)向在OpenAI內(nèi)部構(gòu)建更有意義的RL Infra。”
而在OpenAI內(nèi),他目睹了一系列“半偶然半必然”的變革。加入之初,他參與的就是WebGPT后續(xù)項(xiàng)目,通過強(qiáng)化學(xué)習(xí)讓模型更好地與用戶交互。他負(fù)責(zé)構(gòu)建的RL訓(xùn)練系統(tǒng)在ChatGPT爆發(fā)式上線之前,已成為公司內(nèi)部主力使用的infra之一。
發(fā)布當(dāng)天,OpenAI服務(wù)器數(shù)次被擠爆,他形容這種“自發(fā)涌現(xiàn)的需求”就像自己做tuixue online時(shí)遇到的情形,“說明這確實(shí)是一個(gè)值得投入精力的方向”。
被問到OpenAI為何能做出如此爆款,翁家翌歸結(jié)于兩個(gè)因素:一是單位時(shí)間迭代效率足夠高,二是領(lǐng)導(dǎo)層真正懂技術(shù)。
OpenAI在引入了幾位前Google工程負(fù)責(zé)人之后(如Barret Zoph、Liam Fedus),團(tuán)隊(duì)開始系統(tǒng)性提升工程效率,單位時(shí)間的迭代次數(shù)和成功率是正比的。
他強(qiáng)調(diào),“RL本質(zhì)上就是trial-and-error(試錯(cuò))。你試得越快越多,成功就越近。”
OpenAI的領(lǐng)導(dǎo)層也保持對(duì)細(xì)節(jié)的強(qiáng)關(guān)注。Greg Brockman(聯(lián)合創(chuàng)始人兼總裁)幾乎參與過公司所有基礎(chǔ)設(shè)施模塊,而Sam Altman(聯(lián)合創(chuàng)始人兼CEO)則通過研究助理及時(shí)了解公司內(nèi)部進(jìn)展。他認(rèn)為這種技術(shù)細(xì)節(jié)的敏感性和上下信息通暢正是OpenAI創(chuàng)新持續(xù)不斷的原因。
翁家翌稱,“管公司就像管代碼庫(kù),一旦不一致,整個(gè)系統(tǒng)就會(huì)像拼裝的人類,身子動(dòng)了,腳沒動(dòng)。”
二、他為ChatGPT模型搭建后訓(xùn)練系統(tǒng),也在重構(gòu)下一代Infra
ChatGPT 3.5正式發(fā)布之前,OpenAI內(nèi)部其實(shí)已開始在GPT-4上驗(yàn)證強(qiáng)化學(xué)習(xí)后訓(xùn)練(RLHF)流程的可行性。
翁家翌回憶,當(dāng)時(shí)他負(fù)責(zé)的正是RLHF訓(xùn)練Pipeline的整體搭建:舊的infra是跑不動(dòng)的,我在新infra上調(diào)通了第一版,先在4上做通,再遷回3.5。這套Post-Training系統(tǒng)隨后被用于整個(gè)ChatGPT系列模型的訓(xùn)練中。
這并不是一條“拿來即用”的流水線。他談及,OpenAI內(nèi)部并沒有現(xiàn)成可復(fù)用的RLHF基線,很多關(guān)鍵流程都需要從頭構(gòu)建。
真正的挑戰(zhàn),是模型效果的衡量標(biāo)準(zhǔn)并不清晰。“你訓(xùn)練出很多個(gè)checkpoint(檢查點(diǎn)),但你不知道哪個(gè)是真的更好。”用人類反饋獎(jiǎng)勵(lì)評(píng)估時(shí),模型可能一開始獎(jiǎng)勵(lì)信號(hào)很高,之后卻因過度擬合(hacking)而性能下降。
最終,團(tuán)隊(duì)只能依賴“human-in-the-loop(人機(jī)協(xié)同)”的評(píng)估流程,即讓內(nèi)部員工親自交互測(cè)試、打分投票,選出效果最佳的版本。
從技術(shù)結(jié)構(gòu)上看,這套Post-Training系統(tǒng)的難度遠(yuǎn)高于他曾經(jīng)開發(fā)的“天授”框架。toy task(驗(yàn)證算法的小規(guī)模仿真環(huán)境)的瓶頸在環(huán)境,而大模型的瓶頸在模型本身。
環(huán)境是一個(gè)Prompt,計(jì)算只要幾微秒,但模型訓(xùn)練和采樣則是幾百甚至上千秒。系統(tǒng)工程的復(fù)雜性在于吞吐與擴(kuò)展的平衡,以及對(duì)GPU資源的極限壓榨。
而他正是那個(gè)站在強(qiáng)化學(xué)習(xí)、系統(tǒng)工程與大語(yǔ)言模型交叉點(diǎn)的人。他不僅要懂RL本身的邏輯,也得理解分布式系統(tǒng)、語(yǔ)言模型的推理方式以及底層架構(gòu)。
工作強(qiáng)度一度讓他因頭痛被送進(jìn)急診。“基本是早上醒來開始debug,寫到晚上睡覺,一周六天。”自那以后,他強(qiáng)制自己每周跑兩次3000米,恢復(fù)體力。翁家翌回憶稱,“我之前在清華的時(shí)候,上體育課是就是3000米不及格,然后完全不會(huì)跑3000米的。”
同時(shí),翁家翌也正在參與OpenAI下一代RL Infra的重構(gòu)工作。“舊架構(gòu)已經(jīng)三年多了,堆積的問題其實(shí)已經(jīng)很多了。”O(jiān)penAI要推倒重來,目標(biāo)是清理技術(shù)債,幫助研究員以更高迭代效率推進(jìn)實(shí)。
三、他在福建省隊(duì)拿下“唯一一塊銅牌”,叩開清華大門
面對(duì)“你小時(shí)候是個(gè)什么樣的小孩”的問題,翁家翌從奧數(shù)講起。他在數(shù)學(xué)上展現(xiàn)出超常的直覺能力,常常別人還在計(jì)算時(shí)他就已經(jīng)寫完了答案。
盡管解題速度快,他卻并不認(rèn)為自己是學(xué)得快的人,反而覺得自己在理解新知識(shí)時(shí)總是比別人慢,需要付出兩到三倍的時(shí)間。同時(shí),他也具備一種策略意識(shí):既然慢,就要提前學(xué)。
他在初中就主動(dòng)找數(shù)學(xué)老師問高中課程內(nèi)容,初二就完成了大部分高中數(shù)學(xué)學(xué)習(xí),初三開始學(xué)微積分。翁家翌坦言,“我想投資自己的未來。”
進(jìn)入高中后,他因?yàn)樯龑W(xué)壓力開始參加信息學(xué)競(jìng)賽OI(Olympiad in Informatics),希望以此作為進(jìn)入頂尖大學(xué)的路徑。他說,對(duì)于非北京的學(xué)生而言,直接考入清華北大“幾乎難如登天”。
他曾在數(shù)學(xué)競(jìng)賽上小有成績(jī),但因?yàn)閷W(xué)校資源有限、自己準(zhǔn)備不充分,最終選擇放棄數(shù)學(xué)競(jìng)賽,轉(zhuǎn)而專注于OI。
他在福建省內(nèi)的選拔中一路拼到省隊(duì),在高二那年憑借一道最小二分覆蓋題得到了全場(chǎng)最高分,順利拿到清華“降60分”錄取資格。但他也坦言,這是一次“險(xiǎn)勝”:“那年福建省隊(duì)只有一個(gè)銅牌,就是我。”
而這一路的訓(xùn)練,也塑造了他的習(xí)慣和思維方式。他回憶高三備考期間仍“偷偷寫代碼”,甚至在沒有編譯器的iPad上直接鍵盤敲代碼,這樣的經(jīng)歷訓(xùn)練了自己對(duì)程序結(jié)構(gòu)的完整認(rèn)知與快速定位bug的能力。
他尤其沉迷于“常數(shù)優(yōu)化”這種在算法競(jìng)賽中優(yōu)化時(shí)間和代碼長(zhǎng)度的工程挑戰(zhàn),盡管他說這可能“沒什么用”,但“真的很有意思”。他總結(jié)說,OI讓他意識(shí)到,“我真的可以從里面獲得快樂”。
四、他在清華開源作業(yè)、修校園網(wǎng)Bug,誤打誤撞走進(jìn)了強(qiáng)化學(xué)習(xí)
進(jìn)入高校后,如果要說清華生活里最“出圈”的事,是翁家翌給把所有的作業(yè)都開源了。
他收集了前幾屆流傳下來的“上古作業(yè)”和課程材料,在征得無版權(quán)部分的確認(rèn)后,悉數(shù)上傳到了GitHub。他說,在清華,信息差往往被當(dāng)作一種生存資源,但“我覺得每個(gè)人都應(yīng)該平等地?fù)碛羞@些信息”。
他笑稱,“隨便我們抓一個(gè)計(jì)算機(jī)的學(xué)弟,問問你認(rèn)不認(rèn)識(shí)捐樓的人,哪怕他把名字放在樓上面,你認(rèn)不認(rèn)識(shí)他?不認(rèn)識(shí)。但你們認(rèn)識(shí)我,因?yàn)楫吘勾蠹叶伎次易鳂I(yè)活的。”他還打趣說,“比捐樓還有用。”
除了“火遍校園”的作業(yè)庫(kù),翁家翌在大二也開啟了科研之路。他誤打誤撞報(bào)了清華計(jì)算機(jī)系的“學(xué)術(shù)新興計(jì)劃”。當(dāng)時(shí)他對(duì)科研方向還一無所知,只是模糊覺得“圖像的東西挺有意思”,于是盲選了強(qiáng)化學(xué)習(xí),結(jié)果本以為是搞圖像的,后來發(fā)現(xiàn)其實(shí)是打游戲的。
他其實(shí)一直對(duì)多個(gè)方向有濃厚興趣。除了AI,他也喜歡圖形學(xué)和網(wǎng)絡(luò)安全。在大學(xué)時(shí),他曾和學(xué)長(zhǎng)一起發(fā)現(xiàn)并修復(fù)了清華網(wǎng)的漏洞,使得本應(yīng)收費(fèi)十元的成績(jī)單可以免費(fèi)甚至一分錢下載。他修好Bug之后,還反饋給了教務(wù)部門。
圖形學(xué)一度是他的最愛。他在圖形學(xué)課程中投入了大量時(shí)間與情感,完成了一個(gè)幾乎沒有人敢嘗試的“16K高清圖渲染”大作業(yè),并發(fā)明了一種加速迭代收斂的新算法,最終拿到了全班僅有的兩個(gè)A+之一。
但最終,他還是放棄了圖形學(xué)。“搞科研不能腳踏兩條船”,他做了取舍,選擇了繼續(xù)走強(qiáng)化學(xué)習(xí)的路。
五、那些看似“折騰”的科研嘗試,成了他走向OpenAI的“前傳”
自此,翁家翌開啟了他的第一個(gè)科研項(xiàng)目:在一個(gè)上世紀(jì)90年代的游戲中訓(xùn)練神經(jīng)網(wǎng)絡(luò),讓智能體在固定地圖里完成從出生點(diǎn)到終點(diǎn)的任務(wù),包括殺怪、撿血包、避障、通關(guān)。
最終,他用強(qiáng)化學(xué)習(xí)方法拿下冠軍。
盡管結(jié)果不錯(cuò),他卻坦言并不享受整個(gè)過程。“這個(gè)環(huán)境太單一了,要瘋狂地用技巧防止訓(xùn)練崩掉。即使不崩,你也不知道怎么調(diào)參才能保持。”他說,“這種感覺就像‘煉丹’,這比CV(計(jì)算機(jī)視覺)調(diào)參難十倍、一百倍,全靠heuristics(啟發(fā)式方法)。”
也正因此,他在大四有意識(shí)地將重心轉(zhuǎn)向工具層面,嘗試搭建一套面向強(qiáng)化學(xué)習(xí)的小型基礎(chǔ)設(shè)施庫(kù)。“我非常擅長(zhǎng)做軟件工程的事,可以重構(gòu)代碼、優(yōu)化用戶體驗(yàn)。”他說,“但至于怎么調(diào),那不是我想碰的東西。”
大三暑假,他曾前往蒙特利爾的Mila研究所交流實(shí)習(xí)。彼時(shí)他投出大量套磁信卻遲遲沒有回應(yīng),最終在清華導(dǎo)師的幫助下,才聯(lián)系上實(shí)習(xí)機(jī)會(huì)。他回憶,那年是2019年夏天,正好是Mila創(chuàng)始人、本體研究所負(fù)責(zé)人Yoshua Bengio榮獲圖靈獎(jiǎng)的幾個(gè)月后,“好在我是提前聯(lián)系的,不然估計(jì)就進(jìn)不去了。”盡管進(jìn)入的是Bengio所在的實(shí)驗(yàn)室,但他直接跟隨的是一位Postdoc,任務(wù)是嘗試做一個(gè)類似MoE(混合專家模型)的項(xiàng)目。
那是他第一次接觸Transformer和語(yǔ)言建模。他花了很長(zhǎng)時(shí)間上手,最終也只是“撮了一個(gè)東西出來”,沒什么效果。他回憶:“要讓這種東西work,首先得有算力、有工程能力,還要能scale up。當(dāng)時(shí)就我一個(gè)人幾塊卡,哪怕方向?qū)Γ哺悴怀鰜怼!?/p>
“NLP的任務(wù)太分散了。”他也觀察到,當(dāng)時(shí)很多人在嘗試把RL用于訓(xùn)練語(yǔ)言模型,但Transformer容易在強(qiáng)化學(xué)習(xí)中崩塌,沒人知道怎么讓它不崩。
后來人們才發(fā)現(xiàn),要讓它work,環(huán)境必須“純”,比如純文本輸入。
他坦言,當(dāng)時(shí)對(duì)這些方向并沒有清晰認(rèn)知,只覺得處處受限。“算力不夠,認(rèn)知也不夠,哪怕有今天的理解,當(dāng)時(shí)還是做不出來。”
大三暑假交流歸來后,翁家翌開始準(zhǔn)備出國(guó)深造的申請(qǐng)。但那段時(shí)間并不順利。他坦言,狀態(tài)其實(shí)“不太好”。
眼看身邊的同學(xué)紛紛進(jìn)入CMU、Stanford等名校實(shí)驗(yàn)室,發(fā)出ICLR、NeurIPS等會(huì)議論文,而自己“什么都沒有”,落差感襲來。“當(dāng)時(shí)的話,我確實(shí)是有一點(diǎn)失望的,其實(shí)也花了一段時(shí)間來調(diào)整自己。后面覺得我一直以來應(yīng)該都是想做一些讓自己與眾不同的事情。”
最終,他只申請(qǐng)上了碩士。“當(dāng)時(shí)確實(shí)有些失落”,他說在清華,哪怕是國(guó)外的PhD和Master,也會(huì)被視作天差地別。
翁家翌坦言,“我一直覺得,GPA不是唯一的評(píng)價(jià)指標(biāo)。你得創(chuàng)造自己的評(píng)價(jià)體系。”他引用導(dǎo)師的標(biāo)準(zhǔn):“計(jì)算機(jī)系的三大指標(biāo):論文、比賽、GitHub三位數(shù)以上的Star。”這句話影響了他很久,也讓他意識(shí)到,除了刷成績(jī),還有很多“可見的價(jià)值”能讓一個(gè)學(xué)生被世界看到。
本科期間,他努力在“盡可能少花時(shí)間”的前提下保持成績(jī)剛好夠用,“夠用就行,多一分都不想花時(shí)間。”他會(huì)在期末前計(jì)算當(dāng)前的GPA,“比如87分是B+,那我就很滿意了。”
不過,面對(duì)出國(guó)這個(gè)選擇,他也并非完全獨(dú)立于大環(huán)境之外。那是在2019年12月,他拿到offer時(shí)正值疫情。
六、他用兩個(gè)項(xiàng)目“做慈善”:天授與tuixue online,一炮而紅
在申請(qǐng)季與疫情交疊的那段時(shí)間,翁家翌做了兩個(gè)項(xiàng)目,一個(gè)叫“天授”,一個(gè)是“tuixue online”。他形容這兩個(gè)項(xiàng)目都不是功利性的。
“我不想發(fā)paper,覺得沒有意義。”翁家翌坦言。對(duì)他來說,多一篇少一篇論文并沒有意義。“我申請(qǐng)已經(jīng)夠用了,比賽我也有了,GitHub三位數(shù)star也勉強(qiáng)算有。我更想做一個(gè)正兒八經(jīng)的、能被真正用起來的項(xiàng)目。”
“天授”的起點(diǎn),是不想再浪費(fèi)時(shí)間“煉丹”。2019年底,他意識(shí)到強(qiáng)化學(xué)習(xí)(RL)領(lǐng)域的問題不在于算法本身,而在于實(shí)驗(yàn)平臺(tái)。
他看了當(dāng)時(shí)最主流的RLlib源代碼,發(fā)現(xiàn)抽象極度復(fù)雜,幾十萬(wàn)行代碼幾乎無法動(dòng)手,干脆推倒重來。于是他在2020年春節(jié)假期開始自寫一套R(shí)L實(shí)驗(yàn)平臺(tái),第一版兩周就完成了。
不同于RLlib的“腐化”,天授從設(shè)計(jì)伊始就追求極致的一致性(consistency)。翁家翌認(rèn)為,天授“火”的核心在于真正抓住了科研用戶的需求:一套簡(jiǎn)單、好改、穩(wěn)定的框架。
另一個(gè)項(xiàng)目“tuixue online”,則源自親身需求。他急需一個(gè)實(shí)時(shí)爬蟲工具來查詢簽證預(yù)約狀態(tài)。“于是,我就手?jǐn)]了一個(gè)輕量爬蟲,不然沒辦法。”他說。同時(shí),翁家翌也覺得很多人應(yīng)該有這個(gè)需求,所以就開源了。
這個(gè)項(xiàng)目迅速傳播,一開始就有一百多萬(wàn)點(diǎn)擊,現(xiàn)在累積已經(jīng)破千萬(wàn)。雖然最終因?yàn)槊李I(lǐng)館升級(jí)系統(tǒng)而失效,他也沒再維護(hù),但這個(gè)“短命項(xiàng)目”完成了自己的使命。
他把這兩個(gè)項(xiàng)目都稱作“做慈善”。“完全nonprofit(非盈利),這種慈善項(xiàng)目讓我感覺非常滿足過。”
當(dāng)被問及這種“對(duì)impact(影響力)的追求”是何時(shí)萌芽的,他回憶起高三時(shí)一個(gè)“靈光一現(xiàn)”的想法:“如果人生是場(chǎng)游戲,結(jié)算分?jǐn)?shù)就是死后還有多少人記得你的名字。”
翁家翌稱,“我覺得,你不可能對(duì)所有人都好,這個(gè)是很難做到的事情。但是,我可以嘗試力所能及地對(duì)我身邊的人好,做一些對(duì)大家有意義的事。”
七、加入OpenAI之前,他已徹底想清楚:要工程,不要煉丹
2020年,翁家翌遠(yuǎn)程開始了CMU的碩士課程,因疫情一年都在家上網(wǎng)課。也正是在這段時(shí)期,他開始準(zhǔn)備找工作。他一開始投了18家公司,僅收到Google和AutoML(陳天奇團(tuán)隊(duì))的offer。“我不想去Google,在大廠當(dāng)螺絲釘,然后做一些自己不是那么喜歡的事兒。”
在此之后,他繼續(xù)投遞并陸續(xù)拿到更多公司offer,包括幻方量化、英偉達(dá)、TikTok,以及Facebook AI Research(FAIR),其中幻方彼時(shí)正在籌建AI Lab(后來成為DeepSeek)。
他坦言,如果沒有其他選擇,可能就會(huì)加入幻方做強(qiáng)化學(xué)習(xí)infra。但最終,他選擇了OpenAI。
這時(shí)距OpenAI尚未進(jìn)入大眾視野,ChatGPT時(shí)刻還未來臨。
他做出這個(gè)選擇,更多是出于對(duì)強(qiáng)化學(xué)習(xí)和系統(tǒng)能力的認(rèn)同。“當(dāng)時(shí)OpenAI和DeepMind是強(qiáng)化學(xué)習(xí)做得最好的兩個(gè)lab。”他想體驗(yàn)“世界最前沿的research是怎么做的”,而不是留在幾個(gè)PhD手搓的小作坊式科研環(huán)境里。他想學(xué)的是工業(yè)級(jí)科研的方法論。
他最終進(jìn)入了OpenAI的強(qiáng)化學(xué)習(xí)組,由John Schulman(OpenAI聯(lián)合創(chuàng)始人之一)親自招入。“是他親自面試的我。我很感激他給了我機(jī)會(huì)。他離職那天,我難過了一整個(gè)下午,把電腦都關(guān)了。”
面試中,John Schulman只給了兩個(gè)人同一道工程題目,一個(gè)是翁家翌,另一個(gè)是Codex項(xiàng)目的關(guān)鍵成員Andrey Mishchenko。“那是一道端到端的題,很開放,他給了我3小時(shí),我兩個(gè)小時(shí)就寫完了,現(xiàn)場(chǎng)還修好了一個(gè)bug。”
他猜測(cè),John看重的是他的工程能力,“Schulman說我的GitHub主頁(yè)很‘漂亮’,他應(yīng)該也認(rèn)可我這個(gè)評(píng)價(jià)體系。”
談及是否考慮過讀PhD,翁家翌說從未認(rèn)真想過。“如果想進(jìn)工業(yè)界,讀PhD其實(shí)是在浪費(fèi)生命。”他說:“你完全可以以master為跳板,然后來湊夠PhD進(jìn)工業(yè)界的標(biāo)準(zhǔn)。能夠讓對(duì)方挑選master的你,而不是另外一個(gè)PhD。我覺得是想清楚差異化,這個(gè)是很關(guān)鍵的。”
PhD的訓(xùn)練是讓你擅長(zhǎng)講故事、寫paper、畫圖,而工業(yè)界要的是快速迭代和系統(tǒng)正確性。他說,自己的一位OpenAI同事也曾是強(qiáng)化學(xué)習(xí)方向的PhD,后來開發(fā)了一個(gè)很出名的RL框架。這位同事總結(jié)過一句話,讓他印象深刻:“教一個(gè)researcher如何做好engineering,比教一個(gè)engineer如何做好research難得多。”
在翁家翌看來,研究的價(jià)值在于驗(yàn)證,而驗(yàn)證的關(guān)鍵是infrastructure。只要基礎(chǔ)系統(tǒng)正確、超參合理、迭代效率高,就能快速篩選出有效想法。而“idea is cheap”,真正稀缺的是驗(yàn)證的效率和質(zhì)量。
“每家infrastructure都有不同程度的bug,誰(shuí)修的bug多,誰(shuí)的模型性能就越好。”他直言不諱地說,自己沒興趣再做調(diào)參式的研究了,“我更愿意賣鏟子。”
翁家翌的想法是:把infra地基打好,讓別人去玩,讓別人去發(fā)paper,也許還能帶上掛名。
八、OpenAI還“Open”嗎?從AGI定義到組織焦慮,翁家翌給出答案
在翁家翌看來,“Agent”和“強(qiáng)化學(xué)習(xí)的post-training”之間沒有本質(zhì)差別。“它們本質(zhì)上是一個(gè)東西,只是中間多了幾步交互。”他認(rèn)為,在技術(shù)路徑上,環(huán)境變化是主要區(qū)別,但并不構(gòu)成新挑戰(zhàn)。
談及AGI的定義,他并不認(rèn)同有統(tǒng)一標(biāo)準(zhǔn)。“OpenAI內(nèi)部你抓15個(gè)人,可能有20種定義AGI的方法。”他自己的定義是:“如果它能完成80%、90%我認(rèn)為有意義的任務(wù),那它可能就是是AGI了。”
而當(dāng)前他日常負(fù)責(zé)的代碼上,尚無法放心交給模型修改。翁家翌稱,“AI infra的數(shù)據(jù)集覆蓋極低,成本太高了,目前還觸及不到這塊。”
在被問及是否擔(dān)憂自己被AI取代時(shí),他認(rèn)為每個(gè)人往往會(huì)過度反應(yīng),“但實(shí)際上不會(huì)這樣的,它是個(gè)很慢的、循序漸進(jìn)的過程。”
翁家翌自稱熱愛開源,但也非常清楚這背后的權(quán)衡。“你沒法直接把最好的模型開源,因?yàn)楣疽?/strong>。”開源與公司生存之間是不可避免的取舍,尤其在資源密集型的模型研發(fā)階段,必須保障資本輸血與商業(yè)可持續(xù)。
在他看來,OpenAI的“Open”戰(zhàn)略并不意味著對(duì)所有同行開放,而是盡可能以低門檻的方式讓普通人用上強(qiáng)大工具。“比如ChatGPT有免費(fèi)版本,還有語(yǔ)音模式體驗(yàn),這樣可能是更有利于‘造福全人類’,而不是直接開源。你給出裸的模型權(quán)重,普通人也不知道怎么用。”
對(duì)于外界關(guān)于“OpenAI已不Open”的批評(píng),他回應(yīng):理論上可以做到開源和社區(qū)反饋,但現(xiàn)實(shí)很難。你一開源,別人就立刻閉源壓你,導(dǎo)致你融不到錢,沒法繼續(xù)實(shí)驗(yàn)。
他也坦言,如果公司資源不受限,“我當(dāng)然會(huì)很開心地開源RL Infra團(tuán)隊(duì)這兩三年的成果。
被問到OpenAI實(shí)現(xiàn)AGI的最大挑戰(zhàn),他用一個(gè)詞概括:“執(zhí)行。”在他看來,“只要組織能在正確方向上穩(wěn)定執(zhí)行,就足夠了。”他坦言,“就比如說差點(diǎn)倒閉那次,只要?jiǎng)e再那樣就好。”
對(duì)于Sam Altman那場(chǎng)風(fēng)波,他回憶稱:“董事會(huì)對(duì)Sam的不信任投票,把他趕了出去。”但底層員工的反應(yīng)是“震驚”,因?yàn)閷?duì)他們來說,董事會(huì)之前對(duì)內(nèi)部幾乎沒有透明度,“我們也不知道這個(gè)決策是怎么做的”。
他還提到,OpenAI最終支持Sam回歸,是因?yàn)椤?strong>純技術(shù)出身的人并不一定能撐起整個(gè)AI公司”。“你需要一個(gè)能搞錢、搞算力、搞資源的人,不是只有很好的研究經(jīng)驗(yàn)就行。”
他將Sam抽象成一個(gè)“identity(精神符號(hào))”,并說:“如果你試圖用AI來替代這個(gè)identity,別人對(duì)它的認(rèn)同就會(huì)缺失。”
他并不避諱團(tuán)隊(duì)流失的問題。對(duì)于人才流動(dòng),他的態(tài)度是:“一個(gè)健康的組織,所有人都是可以被替代的。”只要有造血能力,培養(yǎng)新人,OpenAI就能持續(xù)運(yùn)轉(zhuǎn)。
但他也承認(rèn),OpenAI并非在所有關(guān)鍵指標(biāo)上都處于全球領(lǐng)先,比如在infra迭代速度上。
“比如DeepSeek那波聲稱迭代很快,這確實(shí)讓內(nèi)部很多人警覺。”他提到,這也是重構(gòu)一版Infra的原因,Infra的迭代是OpenAI生死線,“我們?cè)缇筒蛔鰹榱怂穸龅氖铝恕!?/p>
他還解釋說,大公司結(jié)構(gòu)復(fù)雜、use case(應(yīng)用場(chǎng)景)眾多,難免影響效率。相比之下,“一個(gè)初創(chuàng)團(tuán)隊(duì)集中做一個(gè)方向,斜率肯定高。”他補(bǔ)充道:“所有公司做大了都會(huì)變慢,看哪個(gè)‘沒那么差’而已。”
他也提出一個(gè)設(shè)想:一個(gè)擁有無限上下文記憶能力的AI Agent,或許才是最合適的CEO。
現(xiàn)在的組織臃腫、context共享不一致,是人類無法克服的限制,但AI可以。這樣的Agent未來能解決管理的核心問題,承擔(dān)起決策者角色。他說:“人類的context是有限的,但AI可以。”
九、如果AI真的能預(yù)測(cè)未來,人類該不該按下暫停鍵
在這段對(duì)話的最后,話題轉(zhuǎn)向了一個(gè)更抽象的問題:如果讓AI去解決一個(gè)世界難題,翁家翌最想做的是什么。他給出的答案是如何預(yù)測(cè)未來。
他坦言,“所有的東西都是可以被預(yù)測(cè)的,所以理論上它是可以用AI解決的。”
正因?yàn)槿绱耍炊J(rèn)為,“如果你能拿到一個(gè)能夠預(yù)測(cè)未來的機(jī)器的話,那么對(duì)個(gè)人而言,其實(shí)是一個(gè)災(zāi)難,我覺得這會(huì)導(dǎo)致所有的價(jià)值體系的崩塌。”
他目前采取的應(yīng)對(duì)方式,是“忘掉這一切”,假裝不知道世界是否確定,只專注于當(dāng)下的體驗(yàn)與選擇。
他也提出了一種解釋:時(shí)間或許并非線性流動(dòng)。未來的我,幫助過去的我來完成某些決策。
當(dāng)話題回到現(xiàn)實(shí),他對(duì)創(chuàng)業(yè)與未來的態(tài)度并不明朗。他并不否認(rèn)創(chuàng)業(yè)的可能性,但明確稱目前還沒有看到足夠好的想法,也認(rèn)為OpenAI依然是一個(gè)值得留下的地方。
他更偏好有真實(shí)需求的產(chǎn)品,正如他過去做過的“天授”和“退學(xué)online”。在他看來,“技術(shù)不重要,重要的是就是抓住需求。”
談到更長(zhǎng)遠(yuǎn)的未來,他并沒有給自己設(shè)定明確的終點(diǎn)。他希望十年后的自己,能夠“做當(dāng)時(shí)想做的事”,有足夠的資源與足夠的能力。他仍然選擇繼續(xù)“投資未來”,讓他有選擇的權(quán)利。
在播客的最后,翁家翌留下了一句答案。他坦言,“我曾經(jīng)一度想通了我自己想要什么,但是我其實(shí)還是沒有那么想通,這個(gè)問題值得一生去思考。”
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.