<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

      拒絕DeepSeek的清華學(xué)霸,如何拿捏OpenAI的最新大模型?

      0
      分享至


      智東西
      作者 江宇
      編輯 冰倩

      智東西1月20日?qǐng)?bào)道,ChatGPT背后的一位中國(guó)工程師——OpenAI核心貢獻(xiàn)者翁家翌,日前在AI播客WhynotTV Podcast接受專訪,他首次詳盡講述了自己從清華少年到OpenAI infra骨干的經(jīng)歷。


      ▲圖源自翁家翌GitHub主頁(yè)

      作為強(qiáng)化學(xué)習(xí)與后訓(xùn)練(Post-Training)系統(tǒng)的關(guān)鍵工程師,翁家翌深度參與了GPT-3.5、GPT-4、GPT-5等核心模型的訓(xùn)練,其搭建的infra系統(tǒng)已成為OpenAI內(nèi)部大模型訓(xùn)練與迭代的基礎(chǔ)底座,也是ChatGPT持續(xù)進(jìn)化的關(guān)鍵支撐。

      在這場(chǎng)長(zhǎng)達(dá)兩個(gè)多小時(shí)的對(duì)談中,翁家翌披露了OpenAI內(nèi)部Post-Training系統(tǒng)的構(gòu)建邏輯,也解釋了OpenAI為何能持續(xù)產(chǎn)出爆款模型。

      他還分享了他對(duì)AGI定義、OpenAI不“open”批評(píng)以及內(nèi)部人才流動(dòng)加劇等現(xiàn)象的第一手觀察。

      面對(duì)DeepSeek、TikTok、英偉達(dá)、谷歌等科技巨頭拋來的橄欖枝,他為何最終選擇了OpenAI?

      談及職業(yè)方向,他又為何自稱“賣鏟子里最面向客戶的那位”,并立下目標(biāo)“我要最大化我在OpenAI Blog上出現(xiàn)的次數(shù)”?

      這場(chǎng)對(duì)談,給出了答案。

      一、“賣鏟子”到主導(dǎo)Post-Training,他是OpenAI模型背后的基礎(chǔ)構(gòu)建者

      在OpenAI內(nèi)部,幾乎每一個(gè)大型模型的發(fā)布名單里,都能看到翁家翌的名字,他主導(dǎo)搭建了OpenAI強(qiáng)化學(xué)習(xí)后訓(xùn)練(Post-Training)階段的核心基礎(chǔ)設(shè)施。

      每發(fā)一個(gè)大的release,每發(fā)一個(gè)大的模型,我的名字就得放上去。”他說,“因?yàn)榇蠹叶荚谟谜麄€(gè)Post-Training infra去訓(xùn)練RHF的模型。”

      他說自己“是賣鏟子里最面向客戶的那位”,因?yàn)閺?qiáng)化學(xué)習(xí)模塊處在整個(gè)基礎(chǔ)設(shè)施棧的最頂端。他還給自己的職業(yè)生涯設(shè)定過一個(gè)指標(biāo):“我要最大化我在OpenAI Blog上出現(xiàn)的次數(shù)。”

      面對(duì)年輕人,他的建議仍是:持續(xù)投入工程建設(shè),而不是學(xué)術(shù)研究。他不避諱地說:“長(zhǎng)遠(yuǎn)來看,我還是覺得現(xiàn)代學(xué)術(shù)界應(yīng)該要被重構(gòu)。”在他看來,如果目標(biāo)是進(jìn)入工業(yè)界,最重要的是匹配真實(shí)的工作需求,“AI Lab最缺的其實(shí)就是Infra人才,infra是個(gè)無底洞。

      學(xué)術(shù)界研究往往陷在一些困境里,如Atari、MoJoCo等任務(wù)上過度擬合,并不能轉(zhuǎn)化為實(shí)際問題的解決能力。他談及,“我在2022年8月就意識(shí)到這個(gè)問題,所以逐步停止了天授的開發(fā),轉(zhuǎn)向在OpenAI內(nèi)部構(gòu)建更有意義的RL Infra。”

      而在OpenAI內(nèi),他目睹了一系列“半偶然半必然”的變革。加入之初,他參與的就是WebGPT后續(xù)項(xiàng)目,通過強(qiáng)化學(xué)習(xí)讓模型更好地與用戶交互。他負(fù)責(zé)構(gòu)建的RL訓(xùn)練系統(tǒng)在ChatGPT爆發(fā)式上線之前,已成為公司內(nèi)部主力使用的infra之一。

      發(fā)布當(dāng)天,OpenAI服務(wù)器數(shù)次被擠爆,他形容這種“自發(fā)涌現(xiàn)的需求”就像自己做tuixue online時(shí)遇到的情形,“說明這確實(shí)是一個(gè)值得投入精力的方向”。

      被問到OpenAI為何能做出如此爆款,翁家翌歸結(jié)于兩個(gè)因素:一是單位時(shí)間迭代效率足夠高,二是領(lǐng)導(dǎo)層真正懂技術(shù)。

      OpenAI在引入了幾位前Google工程負(fù)責(zé)人之后(如Barret Zoph、Liam Fedus),團(tuán)隊(duì)開始系統(tǒng)性提升工程效率,單位時(shí)間的迭代次數(shù)和成功率是正比的

      他強(qiáng)調(diào),“RL本質(zhì)上就是trial-and-error(試錯(cuò))。你試得越快越多,成功就越近。”

      OpenAI的領(lǐng)導(dǎo)層也保持對(duì)細(xì)節(jié)的強(qiáng)關(guān)注。Greg Brockman(聯(lián)合創(chuàng)始人兼總裁)幾乎參與過公司所有基礎(chǔ)設(shè)施模塊,而Sam Altman(聯(lián)合創(chuàng)始人兼CEO)則通過研究助理及時(shí)了解公司內(nèi)部進(jìn)展。他認(rèn)為這種技術(shù)細(xì)節(jié)的敏感性和上下信息通暢正是OpenAI創(chuàng)新持續(xù)不斷的原因。

      翁家翌稱,“管公司就像管代碼庫(kù),一旦不一致,整個(gè)系統(tǒng)就會(huì)像拼裝的人類,身子動(dòng)了,腳沒動(dòng)。”

      二、他為ChatGPT模型搭建后訓(xùn)練系統(tǒng),也在重構(gòu)下一代Infra

      ChatGPT 3.5正式發(fā)布之前,OpenAI內(nèi)部其實(shí)已開始在GPT-4上驗(yàn)證強(qiáng)化學(xué)習(xí)后訓(xùn)練(RLHF)流程的可行性。

      翁家翌回憶,當(dāng)時(shí)他負(fù)責(zé)的正是RLHF訓(xùn)練Pipeline的整體搭建:舊的infra是跑不動(dòng)的,我在新infra上調(diào)通了第一版,先在4上做通,再遷回3.5。這套Post-Training系統(tǒng)隨后被用于整個(gè)ChatGPT系列模型的訓(xùn)練中。

      這并不是一條“拿來即用”的流水線。他談及,OpenAI內(nèi)部并沒有現(xiàn)成可復(fù)用的RLHF基線,很多關(guān)鍵流程都需要從頭構(gòu)建。

      真正的挑戰(zhàn),是模型效果的衡量標(biāo)準(zhǔn)并不清晰。“你訓(xùn)練出很多個(gè)checkpoint(檢查點(diǎn)),但你不知道哪個(gè)是真的更好。”用人類反饋獎(jiǎng)勵(lì)評(píng)估時(shí),模型可能一開始獎(jiǎng)勵(lì)信號(hào)很高,之后卻因過度擬合(hacking)而性能下降。

      最終,團(tuán)隊(duì)只能依賴“human-in-the-loop(人機(jī)協(xié)同)”的評(píng)估流程,即讓內(nèi)部員工親自交互測(cè)試、打分投票,選出效果最佳的版本。

      從技術(shù)結(jié)構(gòu)上看,這套Post-Training系統(tǒng)的難度遠(yuǎn)高于他曾經(jīng)開發(fā)的“天授”框架。toy task(驗(yàn)證算法的小規(guī)模仿真環(huán)境)的瓶頸在環(huán)境,而大模型的瓶頸在模型本身。

      環(huán)境是一個(gè)Prompt,計(jì)算只要幾微秒,但模型訓(xùn)練和采樣則是幾百甚至上千秒。系統(tǒng)工程的復(fù)雜性在于吞吐與擴(kuò)展的平衡,以及對(duì)GPU資源的極限壓榨。

      而他正是那個(gè)站在強(qiáng)化學(xué)習(xí)、系統(tǒng)工程與大語(yǔ)言模型交叉點(diǎn)的人。他不僅要懂RL本身的邏輯,也得理解分布式系統(tǒng)、語(yǔ)言模型的推理方式以及底層架構(gòu)。

      工作強(qiáng)度一度讓他因頭痛被送進(jìn)急診。“基本是早上醒來開始debug,寫到晚上睡覺,一周六天。”自那以后,他強(qiáng)制自己每周跑兩次3000米,恢復(fù)體力。翁家翌回憶稱,“我之前在清華的時(shí)候,上體育課是就是3000米不及格,然后完全不會(huì)跑3000米的。”

      同時(shí),翁家翌也正在參與OpenAI下一代RL Infra的重構(gòu)工作。“舊架構(gòu)已經(jīng)三年多了,堆積的問題其實(shí)已經(jīng)很多了。”O(jiān)penAI要推倒重來,目標(biāo)是清理技術(shù)債,幫助研究員以更高迭代效率推進(jìn)實(shí)。

      三、他在福建省隊(duì)拿下“唯一一塊銅牌”,叩開清華大門

      面對(duì)“你小時(shí)候是個(gè)什么樣的小孩”的問題,翁家翌從奧數(shù)講起。他在數(shù)學(xué)上展現(xiàn)出超常的直覺能力,常常別人還在計(jì)算時(shí)他就已經(jīng)寫完了答案。

      盡管解題速度快,他卻并不認(rèn)為自己是學(xué)得快的人,反而覺得自己在理解新知識(shí)時(shí)總是比別人慢,需要付出兩到三倍的時(shí)間。同時(shí),他也具備一種策略意識(shí):既然慢,就要提前學(xué)。

      他在初中就主動(dòng)找數(shù)學(xué)老師問高中課程內(nèi)容,初二就完成了大部分高中數(shù)學(xué)學(xué)習(xí),初三開始學(xué)微積分。翁家翌坦言,“我想投資自己的未來。”

      進(jìn)入高中后,他因?yàn)樯龑W(xué)壓力開始參加信息學(xué)競(jìng)賽OI(Olympiad in Informatics),希望以此作為進(jìn)入頂尖大學(xué)的路徑。他說,對(duì)于非北京的學(xué)生而言,直接考入清華北大“幾乎難如登天”。

      他曾在數(shù)學(xué)競(jìng)賽上小有成績(jī),但因?yàn)閷W(xué)校資源有限、自己準(zhǔn)備不充分,最終選擇放棄數(shù)學(xué)競(jìng)賽,轉(zhuǎn)而專注于OI。

      他在福建省內(nèi)的選拔中一路拼到省隊(duì),在高二那年憑借一道最小二分覆蓋題得到了全場(chǎng)最高分,順利拿到清華“降60分”錄取資格。但他也坦言,這是一次“險(xiǎn)勝”:“那年福建省隊(duì)只有一個(gè)銅牌,就是我。”

      而這一路的訓(xùn)練,也塑造了他的習(xí)慣和思維方式。他回憶高三備考期間仍“偷偷寫代碼”,甚至在沒有編譯器的iPad上直接鍵盤敲代碼,這樣的經(jīng)歷訓(xùn)練了自己對(duì)程序結(jié)構(gòu)的完整認(rèn)知與快速定位bug的能力。

      他尤其沉迷于“常數(shù)優(yōu)化”這種在算法競(jìng)賽中優(yōu)化時(shí)間和代碼長(zhǎng)度的工程挑戰(zhàn),盡管他說這可能“沒什么用”,但“真的很有意思”。他總結(jié)說,OI讓他意識(shí)到,“我真的可以從里面獲得快樂”。

      四、他在清華開源作業(yè)、修校園網(wǎng)Bug,誤打誤撞走進(jìn)了強(qiáng)化學(xué)習(xí)

      進(jìn)入高校后,如果要說清華生活里最“出圈”的事,是翁家翌給把所有的作業(yè)都開源了。

      他收集了前幾屆流傳下來的“上古作業(yè)”和課程材料,在征得無版權(quán)部分的確認(rèn)后,悉數(shù)上傳到了GitHub。他說,在清華,信息差往往被當(dāng)作一種生存資源,但“我覺得每個(gè)人都應(yīng)該平等地?fù)碛羞@些信息”。

      他笑稱,“隨便我們抓一個(gè)計(jì)算機(jī)的學(xué)弟,問問你認(rèn)不認(rèn)識(shí)捐樓的人,哪怕他把名字放在樓上面,你認(rèn)不認(rèn)識(shí)他?不認(rèn)識(shí)。但你們認(rèn)識(shí)我,因?yàn)楫吘勾蠹叶伎次易鳂I(yè)活的。”他還打趣說,“比捐樓還有用。”

      除了“火遍校園”的作業(yè)庫(kù),翁家翌在大二也開啟了科研之路。他誤打誤撞報(bào)了清華計(jì)算機(jī)系的“學(xué)術(shù)新興計(jì)劃”。當(dāng)時(shí)他對(duì)科研方向還一無所知,只是模糊覺得“圖像的東西挺有意思”,于是盲選了強(qiáng)化學(xué)習(xí),結(jié)果本以為是搞圖像的,后來發(fā)現(xiàn)其實(shí)是打游戲的。

      他其實(shí)一直對(duì)多個(gè)方向有濃厚興趣。除了AI,他也喜歡圖形學(xué)和網(wǎng)絡(luò)安全。在大學(xué)時(shí),他曾和學(xué)長(zhǎng)一起發(fā)現(xiàn)并修復(fù)了清華網(wǎng)的漏洞,使得本應(yīng)收費(fèi)十元的成績(jī)單可以免費(fèi)甚至一分錢下載。他修好Bug之后,還反饋給了教務(wù)部門。

      圖形學(xué)一度是他的最愛。他在圖形學(xué)課程中投入了大量時(shí)間與情感,完成了一個(gè)幾乎沒有人敢嘗試的“16K高清圖渲染”大作業(yè),并發(fā)明了一種加速迭代收斂的新算法,最終拿到了全班僅有的兩個(gè)A+之一。

      但最終,他還是放棄了圖形學(xué)。“搞科研不能腳踏兩條船”,他做了取舍,選擇了繼續(xù)走強(qiáng)化學(xué)習(xí)的路。

      五、那些看似“折騰”的科研嘗試,成了他走向OpenAI的“前傳”

      自此,翁家翌開啟了他的第一個(gè)科研項(xiàng)目:在一個(gè)上世紀(jì)90年代的游戲中訓(xùn)練神經(jīng)網(wǎng)絡(luò),讓智能體在固定地圖里完成從出生點(diǎn)到終點(diǎn)的任務(wù),包括殺怪、撿血包、避障、通關(guān)。

      最終,他用強(qiáng)化學(xué)習(xí)方法拿下冠軍。

      盡管結(jié)果不錯(cuò),他卻坦言并不享受整個(gè)過程。“這個(gè)環(huán)境太單一了,要瘋狂地用技巧防止訓(xùn)練崩掉。即使不崩,你也不知道怎么調(diào)參才能保持。”他說,“這種感覺就像‘煉丹’,這比CV(計(jì)算機(jī)視覺)調(diào)參難十倍、一百倍,全靠heuristics(啟發(fā)式方法)。”

      也正因此,他在大四有意識(shí)地將重心轉(zhuǎn)向工具層面,嘗試搭建一套面向強(qiáng)化學(xué)習(xí)的小型基礎(chǔ)設(shè)施庫(kù)。“我非常擅長(zhǎng)做軟件工程的事,可以重構(gòu)代碼、優(yōu)化用戶體驗(yàn)。”他說,“但至于怎么調(diào),那不是我想碰的東西。”

      大三暑假,他曾前往蒙特利爾的Mila研究所交流實(shí)習(xí)。彼時(shí)他投出大量套磁信卻遲遲沒有回應(yīng),最終在清華導(dǎo)師的幫助下,才聯(lián)系上實(shí)習(xí)機(jī)會(huì)。他回憶,那年是2019年夏天,正好是Mila創(chuàng)始人、本體研究所負(fù)責(zé)人Yoshua Bengio榮獲圖靈獎(jiǎng)的幾個(gè)月后,“好在我是提前聯(lián)系的,不然估計(jì)就進(jìn)不去了。”盡管進(jìn)入的是Bengio所在的實(shí)驗(yàn)室,但他直接跟隨的是一位Postdoc,任務(wù)是嘗試做一個(gè)類似MoE(混合專家模型)的項(xiàng)目。

      那是他第一次接觸Transformer和語(yǔ)言建模。他花了很長(zhǎng)時(shí)間上手,最終也只是“撮了一個(gè)東西出來”,沒什么效果。他回憶:“要讓這種東西work,首先得有算力、有工程能力,還要能scale up。當(dāng)時(shí)就我一個(gè)人幾塊卡,哪怕方向?qū)Γ哺悴怀鰜怼!?/p>

      “NLP的任務(wù)太分散了。”他也觀察到,當(dāng)時(shí)很多人在嘗試把RL用于訓(xùn)練語(yǔ)言模型,但Transformer容易在強(qiáng)化學(xué)習(xí)中崩塌,沒人知道怎么讓它不崩。

      后來人們才發(fā)現(xiàn),要讓它work,環(huán)境必須“純”,比如純文本輸入。

      他坦言,當(dāng)時(shí)對(duì)這些方向并沒有清晰認(rèn)知,只覺得處處受限。“算力不夠,認(rèn)知也不夠,哪怕有今天的理解,當(dāng)時(shí)還是做不出來。”

      大三暑假交流歸來后,翁家翌開始準(zhǔn)備出國(guó)深造的申請(qǐng)。但那段時(shí)間并不順利。他坦言,狀態(tài)其實(shí)“不太好”。

      眼看身邊的同學(xué)紛紛進(jìn)入CMU、Stanford等名校實(shí)驗(yàn)室,發(fā)出ICLR、NeurIPS等會(huì)議論文,而自己“什么都沒有”,落差感襲來。“當(dāng)時(shí)的話,我確實(shí)是有一點(diǎn)失望的,其實(shí)也花了一段時(shí)間來調(diào)整自己。后面覺得我一直以來應(yīng)該都是想做一些讓自己與眾不同的事情。”

      最終,他只申請(qǐng)上了碩士。“當(dāng)時(shí)確實(shí)有些失落”,他說在清華,哪怕是國(guó)外的PhD和Master,也會(huì)被視作天差地別。

      翁家翌坦言,“我一直覺得,GPA不是唯一的評(píng)價(jià)指標(biāo)。你得創(chuàng)造自己的評(píng)價(jià)體系。”他引用導(dǎo)師的標(biāo)準(zhǔn):“計(jì)算機(jī)系的三大指標(biāo):論文、比賽、GitHub三位數(shù)以上的Star。”這句話影響了他很久,也讓他意識(shí)到,除了刷成績(jī),還有很多“可見的價(jià)值”能讓一個(gè)學(xué)生被世界看到。

      本科期間,他努力在“盡可能少花時(shí)間”的前提下保持成績(jī)剛好夠用,“夠用就行,多一分都不想花時(shí)間。”他會(huì)在期末前計(jì)算當(dāng)前的GPA,“比如87分是B+,那我就很滿意了。”

      不過,面對(duì)出國(guó)這個(gè)選擇,他也并非完全獨(dú)立于大環(huán)境之外。那是在2019年12月,他拿到offer時(shí)正值疫情。

      六、他用兩個(gè)項(xiàng)目“做慈善”:天授與tuixue online,一炮而紅

      在申請(qǐng)季與疫情交疊的那段時(shí)間,翁家翌做了兩個(gè)項(xiàng)目,一個(gè)叫“天授”,一個(gè)是“tuixue online”。他形容這兩個(gè)項(xiàng)目都不是功利性的

      “我不想發(fā)paper,覺得沒有意義。”翁家翌坦言。對(duì)他來說,多一篇少一篇論文并沒有意義。“我申請(qǐng)已經(jīng)夠用了,比賽我也有了,GitHub三位數(shù)star也勉強(qiáng)算有。我更想做一個(gè)正兒八經(jīng)的、能被真正用起來的項(xiàng)目。”

      “天授”的起點(diǎn),是不想再浪費(fèi)時(shí)間“煉丹”。2019年底,他意識(shí)到強(qiáng)化學(xué)習(xí)(RL)領(lǐng)域的問題不在于算法本身,而在于實(shí)驗(yàn)平臺(tái)。

      他看了當(dāng)時(shí)最主流的RLlib源代碼,發(fā)現(xiàn)抽象極度復(fù)雜,幾十萬(wàn)行代碼幾乎無法動(dòng)手,干脆推倒重來。于是他在2020年春節(jié)假期開始自寫一套R(shí)L實(shí)驗(yàn)平臺(tái),第一版兩周就完成了

      不同于RLlib的“腐化”,天授從設(shè)計(jì)伊始就追求極致的一致性(consistency)。翁家翌認(rèn)為,天授“火”的核心在于真正抓住了科研用戶的需求:一套簡(jiǎn)單、好改、穩(wěn)定的框架。

      另一個(gè)項(xiàng)目“tuixue online”,則源自親身需求。他急需一個(gè)實(shí)時(shí)爬蟲工具來查詢簽證預(yù)約狀態(tài)。“于是,我就手?jǐn)]了一個(gè)輕量爬蟲,不然沒辦法。”他說。同時(shí),翁家翌也覺得很多人應(yīng)該有這個(gè)需求,所以就開源了。

      這個(gè)項(xiàng)目迅速傳播,一開始就有一百多萬(wàn)點(diǎn)擊,現(xiàn)在累積已經(jīng)破千萬(wàn)。雖然最終因?yàn)槊李I(lǐng)館升級(jí)系統(tǒng)而失效,他也沒再維護(hù),但這個(gè)“短命項(xiàng)目”完成了自己的使命。

      他把這兩個(gè)項(xiàng)目都稱作“做慈善”。“完全nonprofit(非盈利),這種慈善項(xiàng)目讓我感覺非常滿足過。”

      當(dāng)被問及這種“對(duì)impact(影響力)的追求”是何時(shí)萌芽的,他回憶起高三時(shí)一個(gè)“靈光一現(xiàn)”的想法:“如果人生是場(chǎng)游戲,結(jié)算分?jǐn)?shù)就是死后還有多少人記得你的名字。”

      翁家翌稱,“我覺得,你不可能對(duì)所有人都好,這個(gè)是很難做到的事情。但是,我可以嘗試力所能及地對(duì)我身邊的人好,做一些對(duì)大家有意義的事。”

      七、加入OpenAI之前,他已徹底想清楚:要工程,不要煉丹

      2020年,翁家翌遠(yuǎn)程開始了CMU的碩士課程,因疫情一年都在家上網(wǎng)課。也正是在這段時(shí)期,他開始準(zhǔn)備找工作。他一開始投了18家公司,僅收到Google和AutoML(陳天奇團(tuán)隊(duì))的offer。“我不想去Google,在大廠當(dāng)螺絲釘,然后做一些自己不是那么喜歡的事兒。”

      在此之后,他繼續(xù)投遞并陸續(xù)拿到更多公司offer,包括幻方量化、英偉達(dá)、TikTok,以及Facebook AI Research(FAIR),其中幻方彼時(shí)正在籌建AI Lab(后來成為DeepSeek)。

      他坦言,如果沒有其他選擇,可能就會(huì)加入幻方做強(qiáng)化學(xué)習(xí)infra。但最終,他選擇了OpenAI。

      這時(shí)距OpenAI尚未進(jìn)入大眾視野,ChatGPT時(shí)刻還未來臨。

      他做出這個(gè)選擇,更多是出于對(duì)強(qiáng)化學(xué)習(xí)和系統(tǒng)能力的認(rèn)同。“當(dāng)時(shí)OpenAI和DeepMind是強(qiáng)化學(xué)習(xí)做得最好的兩個(gè)lab。”他想體驗(yàn)“世界最前沿的research是怎么做的”,而不是留在幾個(gè)PhD手搓的小作坊式科研環(huán)境里。他想學(xué)的是工業(yè)級(jí)科研的方法論。

      他最終進(jìn)入了OpenAI的強(qiáng)化學(xué)習(xí)組,由John Schulman(OpenAI聯(lián)合創(chuàng)始人之一)親自招入。“是他親自面試的我。我很感激他給了我機(jī)會(huì)。他離職那天,我難過了一整個(gè)下午,把電腦都關(guān)了。”

      面試中,John Schulman只給了兩個(gè)人同一道工程題目,一個(gè)是翁家翌,另一個(gè)是Codex項(xiàng)目的關(guān)鍵成員Andrey Mishchenko。“那是一道端到端的題,很開放,他給了我3小時(shí),我兩個(gè)小時(shí)就寫完了,現(xiàn)場(chǎng)還修好了一個(gè)bug。”

      他猜測(cè),John看重的是他的工程能力,“Schulman說我的GitHub主頁(yè)很‘漂亮’,他應(yīng)該也認(rèn)可我這個(gè)評(píng)價(jià)體系。”

      談及是否考慮過讀PhD,翁家翌說從未認(rèn)真想過。“如果想進(jìn)工業(yè)界,讀PhD其實(shí)是在浪費(fèi)生命。”他說:“你完全可以以master為跳板,然后來湊夠PhD進(jìn)工業(yè)界的標(biāo)準(zhǔn)。能夠讓對(duì)方挑選master的你,而不是另外一個(gè)PhD。我覺得是想清楚差異化,這個(gè)是很關(guān)鍵的。”

      PhD的訓(xùn)練是讓你擅長(zhǎng)講故事、寫paper、畫圖,而工業(yè)界要的是快速迭代和系統(tǒng)正確性。他說,自己的一位OpenAI同事也曾是強(qiáng)化學(xué)習(xí)方向的PhD,后來開發(fā)了一個(gè)很出名的RL框架。這位同事總結(jié)過一句話,讓他印象深刻:“教一個(gè)researcher如何做好engineering,比教一個(gè)engineer如何做好research難得多。”

      在翁家翌看來,研究的價(jià)值在于驗(yàn)證,而驗(yàn)證的關(guān)鍵是infrastructure。只要基礎(chǔ)系統(tǒng)正確、超參合理、迭代效率高,就能快速篩選出有效想法。而“idea is cheap”,真正稀缺的是驗(yàn)證的效率和質(zhì)量。

      “每家infrastructure都有不同程度的bug,誰(shuí)修的bug多,誰(shuí)的模型性能就越好。”他直言不諱地說,自己沒興趣再做調(diào)參式的研究了,“我更愿意賣鏟子。”

      翁家翌的想法是:把infra地基打好,讓別人去玩,讓別人去發(fā)paper,也許還能帶上掛名。

      八、OpenAI還“Open”嗎?從AGI定義到組織焦慮,翁家翌給出答案

      在翁家翌看來,“Agent”和“強(qiáng)化學(xué)習(xí)的post-training”之間沒有本質(zhì)差別。“它們本質(zhì)上是一個(gè)東西,只是中間多了幾步交互。”他認(rèn)為,在技術(shù)路徑上,環(huán)境變化是主要區(qū)別,但并不構(gòu)成新挑戰(zhàn)。

      談及AGI的定義,他并不認(rèn)同有統(tǒng)一標(biāo)準(zhǔn)。“OpenAI內(nèi)部你抓15個(gè)人,可能有20種定義AGI的方法。”他自己的定義是:“如果它能完成80%、90%我認(rèn)為有意義的任務(wù),那它可能就是是AGI了。”

      而當(dāng)前他日常負(fù)責(zé)的代碼上,尚無法放心交給模型修改。翁家翌稱,“AI infra的數(shù)據(jù)集覆蓋極低,成本太高了,目前還觸及不到這塊。”

      在被問及是否擔(dān)憂自己被AI取代時(shí),他認(rèn)為每個(gè)人往往會(huì)過度反應(yīng),“但實(shí)際上不會(huì)這樣的,它是個(gè)很慢的、循序漸進(jìn)的過程。”

      翁家翌自稱熱愛開源,但也非常清楚這背后的權(quán)衡。“你沒法直接把最好的模型開源,因?yàn)楣疽?/strong>。”開源與公司生存之間是不可避免的取舍,尤其在資源密集型的模型研發(fā)階段,必須保障資本輸血與商業(yè)可持續(xù)。

      在他看來,OpenAI的“Open”戰(zhàn)略并不意味著對(duì)所有同行開放,而是盡可能以低門檻的方式讓普通人用上強(qiáng)大工具。“比如ChatGPT有免費(fèi)版本,還有語(yǔ)音模式體驗(yàn),這樣可能是更有利于‘造福全人類’,而不是直接開源。你給出裸的模型權(quán)重,普通人也不知道怎么用。”

      對(duì)于外界關(guān)于“OpenAI已不Open”的批評(píng),他回應(yīng):理論上可以做到開源和社區(qū)反饋,但現(xiàn)實(shí)很難。你一開源,別人就立刻閉源壓你,導(dǎo)致你融不到錢,沒法繼續(xù)實(shí)驗(yàn)。

      他也坦言,如果公司資源不受限,“我當(dāng)然會(huì)很開心地開源RL Infra團(tuán)隊(duì)這兩三年的成果。

      被問到OpenAI實(shí)現(xiàn)AGI的最大挑戰(zhàn),他用一個(gè)詞概括:“執(zhí)行。”在他看來,“只要組織能在正確方向上穩(wěn)定執(zhí)行,就足夠了。”他坦言,“就比如說差點(diǎn)倒閉那次,只要?jiǎng)e再那樣就好。”

      對(duì)于Sam Altman那場(chǎng)風(fēng)波,他回憶稱:“董事會(huì)對(duì)Sam的不信任投票,把他趕了出去。”但底層員工的反應(yīng)是“震驚”,因?yàn)閷?duì)他們來說,董事會(huì)之前對(duì)內(nèi)部幾乎沒有透明度,“我們也不知道這個(gè)決策是怎么做的”。

      他還提到,OpenAI最終支持Sam回歸,是因?yàn)椤?strong>純技術(shù)出身的人并不一定能撐起整個(gè)AI公司”。“你需要一個(gè)能搞錢、搞算力、搞資源的人,不是只有很好的研究經(jīng)驗(yàn)就行。”

      他將Sam抽象成一個(gè)“identity(精神符號(hào))”,并說:“如果你試圖用AI來替代這個(gè)identity,別人對(duì)它的認(rèn)同就會(huì)缺失。”

      他并不避諱團(tuán)隊(duì)流失的問題。對(duì)于人才流動(dòng),他的態(tài)度是:“一個(gè)健康的組織,所有人都是可以被替代的。”只要有造血能力,培養(yǎng)新人,OpenAI就能持續(xù)運(yùn)轉(zhuǎn)。

      但他也承認(rèn),OpenAI并非在所有關(guān)鍵指標(biāo)上都處于全球領(lǐng)先,比如在infra迭代速度上。

      “比如DeepSeek那波聲稱迭代很快,這確實(shí)讓內(nèi)部很多人警覺。”他提到,這也是重構(gòu)一版Infra的原因,Infra的迭代是OpenAI生死線,“我們?cè)缇筒蛔鰹榱怂穸龅氖铝恕!?/p>

      他還解釋說,大公司結(jié)構(gòu)復(fù)雜、use case(應(yīng)用場(chǎng)景)眾多,難免影響效率。相比之下,“一個(gè)初創(chuàng)團(tuán)隊(duì)集中做一個(gè)方向,斜率肯定高。”他補(bǔ)充道:“所有公司做大了都會(huì)變慢,看哪個(gè)‘沒那么差’而已。”

      他也提出一個(gè)設(shè)想:一個(gè)擁有無限上下文記憶能力的AI Agent,或許才是最合適的CEO。

      現(xiàn)在的組織臃腫、context共享不一致,是人類無法克服的限制,但AI可以。這樣的Agent未來能解決管理的核心問題,承擔(dān)起決策者角色。他說:“人類的context是有限的,但AI可以。”

      九、如果AI真的能預(yù)測(cè)未來,人類該不該按下暫停鍵

      在這段對(duì)話的最后,話題轉(zhuǎn)向了一個(gè)更抽象的問題:如果讓AI去解決一個(gè)世界難題,翁家翌最想做的是什么。他給出的答案是如何預(yù)測(cè)未來。

      他坦言,“所有的東西都是可以被預(yù)測(cè)的,所以理論上它是可以用AI解決的。”

      正因?yàn)槿绱耍炊J(rèn)為,“如果你能拿到一個(gè)能夠預(yù)測(cè)未來的機(jī)器的話,那么對(duì)個(gè)人而言,其實(shí)是一個(gè)災(zāi)難,我覺得這會(huì)導(dǎo)致所有的價(jià)值體系的崩塌。”

      他目前采取的應(yīng)對(duì)方式,是“忘掉這一切”,假裝不知道世界是否確定,只專注于當(dāng)下的體驗(yàn)與選擇。

      他也提出了一種解釋:時(shí)間或許并非線性流動(dòng)。未來的我,幫助過去的我來完成某些決策。

      當(dāng)話題回到現(xiàn)實(shí),他對(duì)創(chuàng)業(yè)與未來的態(tài)度并不明朗。他并不否認(rèn)創(chuàng)業(yè)的可能性,但明確稱目前還沒有看到足夠好的想法,也認(rèn)為OpenAI依然是一個(gè)值得留下的地方。

      他更偏好有真實(shí)需求的產(chǎn)品,正如他過去做過的“天授”和“退學(xué)online”。在他看來,“技術(shù)不重要,重要的是就是抓住需求。”

      談到更長(zhǎng)遠(yuǎn)的未來,他并沒有給自己設(shè)定明確的終點(diǎn)。他希望十年后的自己,能夠“做當(dāng)時(shí)想做的事”,有足夠的資源與足夠的能力。他仍然選擇繼續(xù)“投資未來”,讓他有選擇的權(quán)利。

      在播客的最后,翁家翌留下了一句答案。他坦言,“我曾經(jīng)一度想通了我自己想要什么,但是我其實(shí)還是沒有那么想通,這個(gè)問題值得一生去思考。”

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      鄭州家長(zhǎng)群熱議,外國(guó)語(yǔ)“神話”破滅,下個(gè)“頂流”初中集團(tuán)是誰(shuí)

      鄭州家長(zhǎng)群熱議,外國(guó)語(yǔ)“神話”破滅,下個(gè)“頂流”初中集團(tuán)是誰(shuí)

      解說阿洎
      2026-01-20 14:36:48
      為什么外國(guó)人不怕冷?網(wǎng)友:一桶3000片的布洛芬見過嗎?

      為什么外國(guó)人不怕冷?網(wǎng)友:一桶3000片的布洛芬見過嗎?

      夜深愛雜談
      2026-01-18 19:47:44
      記者:曼聯(lián)已經(jīng)和恩迪迪進(jìn)行了談判,他非常渴望回到英格蘭

      記者:曼聯(lián)已經(jīng)和恩迪迪進(jìn)行了談判,他非常渴望回到英格蘭

      懂球帝
      2026-01-21 19:56:09
      23分慘敗!下課聲響徹主場(chǎng),浙江廣廈僅用2節(jié),央視嘆言:寒冬

      23分慘敗!下課聲響徹主場(chǎng),浙江廣廈僅用2節(jié),央視嘆言:寒冬

      話體壇
      2026-01-21 22:01:21
      伊朗前王儲(chǔ)巴列維宣布將返回伊朗領(lǐng)導(dǎo)革命

      伊朗前王儲(chǔ)巴列維宣布將返回伊朗領(lǐng)導(dǎo)革命

      一種觀點(diǎn)
      2026-01-19 19:36:11
      1931年,寧都起義1.7萬(wàn)余人編為紅五軍團(tuán),到達(dá)陜北時(shí)還剩多少?

      1931年,寧都起義1.7萬(wàn)余人編為紅五軍團(tuán),到達(dá)陜北時(shí)還剩多少?

      史之銘
      2026-01-16 15:41:59
      別踩坑!這 3 種手術(shù)再有錢也不能亂做,小心落下后遺癥

      別踩坑!這 3 種手術(shù)再有錢也不能亂做,小心落下后遺癥

      醫(yī)學(xué)科普匯
      2026-01-21 10:17:03
      1937年地主救下紅軍女同志,這一善舉竟徹底改變了三個(gè)家庭的人生

      1937年地主救下紅軍女同志,這一善舉竟徹底改變了三個(gè)家庭的人生

      磊子講史
      2026-01-17 17:20:27
      為什么說澤連斯基是中國(guó)的大功臣?

      為什么說澤連斯基是中國(guó)的大功臣?

      寒叔說國(guó)際
      2026-01-21 09:17:59
      涉嫌嚴(yán)重違紀(jì)違法,闞全程被免職

      涉嫌嚴(yán)重違紀(jì)違法,闞全程被免職

      梅斯醫(yī)學(xué)
      2026-01-21 07:53:16
      局勢(shì)反轉(zhuǎn),特朗普再發(fā)戰(zhàn)爭(zhēng)威脅,伊朗內(nèi)鬼卻等不及了,逃離德黑蘭

      局勢(shì)反轉(zhuǎn),特朗普再發(fā)戰(zhàn)爭(zhēng)威脅,伊朗內(nèi)鬼卻等不及了,逃離德黑蘭

      蕭嚉影視解說
      2026-01-21 22:27:26
      泄密遭開除!xAI工程師曝馬斯克秘密計(jì)劃:用400萬(wàn)輛特斯拉建AI算力網(wǎng)

      泄密遭開除!xAI工程師曝馬斯克秘密計(jì)劃:用400萬(wàn)輛特斯拉建AI算力網(wǎng)

      盛景產(chǎn)業(yè)互聯(lián)網(wǎng)觀察
      2026-01-21 16:04:06
      李亞鵬公益項(xiàng)目已籌善款近2000萬(wàn)元,24歲唇腭裂患者發(fā)聲:自己接受了免費(fèi)手術(shù),基金會(huì)確實(shí)做了好事

      李亞鵬公益項(xiàng)目已籌善款近2000萬(wàn)元,24歲唇腭裂患者發(fā)聲:自己接受了免費(fèi)手術(shù),基金會(huì)確實(shí)做了好事

      極目新聞
      2026-01-19 18:09:48
      日本學(xué)生利用Grok脫衣同班女生?現(xiàn)擔(dān)心面臨刑事責(zé)任

      日本學(xué)生利用Grok脫衣同班女生?現(xiàn)擔(dān)心面臨刑事責(zé)任

      3DM游戲
      2026-01-20 15:06:47
      聶衛(wèi)平愛女發(fā)文曝光離世真相!早年縱欲過度的他,被拖垮了身體

      聶衛(wèi)平愛女發(fā)文曝光離世真相!早年縱欲過度的他,被拖垮了身體

      老范談史
      2026-01-21 18:25:21
      “一代鞋王”達(dá)芙妮沒落,家族內(nèi)斗中虧40億,最后敗給了紅顏禍水

      “一代鞋王”達(dá)芙妮沒落,家族內(nèi)斗中虧40億,最后敗給了紅顏禍水

      小熊侃史
      2025-12-28 11:02:11
      龍虎榜|利歐股份今日跌停 3家機(jī)構(gòu)專用席位凈買入6930.05萬(wàn)元

      龍虎榜|利歐股份今日跌停 3家機(jī)構(gòu)專用席位凈買入6930.05萬(wàn)元

      財(cái)聯(lián)社
      2026-01-21 16:27:23
      銷量暴跌33%!從年貨頂流到無人問津,中國(guó)人為啥就不愛吃糖了?

      銷量暴跌33%!從年貨頂流到無人問津,中國(guó)人為啥就不愛吃糖了?

      知識(shí)TNT
      2026-01-21 14:40:39
      “中產(chǎn)階級(jí)”及格線誕生!全國(guó)只有3320萬(wàn)戶,你達(dá)標(biāo)了嗎?

      “中產(chǎn)階級(jí)”及格線誕生!全國(guó)只有3320萬(wàn)戶,你達(dá)標(biāo)了嗎?

      李云飛Afey
      2026-01-01 12:52:31
      美國(guó)中期選舉觀察1:民主黨能重新奪回參議院?jiǎn)幔?>
    </a>
        <h3>
      <a href=風(fēng)陽(yáng)生
      2026-01-20 12:39:52
      2026-01-22 00:24:49
      智東西 incentive-icons
      智東西
      聚焦智能變革,服務(wù)產(chǎn)業(yè)升級(jí)。
      11101文章數(shù) 116943關(guān)注度
      往期回顧 全部

      科技要聞

      給機(jī)器人做仿真訓(xùn)練 這家創(chuàng)企年?duì)I收破億

      頭條要聞

      西安高校創(chuàng)始人兩女兒爭(zhēng)繼承權(quán) 判完才發(fā)現(xiàn)公證書造假

      頭條要聞

      西安高校創(chuàng)始人兩女兒爭(zhēng)繼承權(quán) 判完才發(fā)現(xiàn)公證書造假

      體育要聞

      只會(huì)防守反擊?不好意思,我們要踢決賽了

      娛樂要聞

      首位捐款的明星 苗圃現(xiàn)身嫣然醫(yī)院捐款

      財(cái)經(jīng)要聞

      丹麥打響第一槍 歐洲用資本保衛(wèi)格陵蘭島

      汽車要聞

      2026款上汽大眾朗逸正式上市 售價(jià)12.09萬(wàn)起

      態(tài)度原創(chuàng)

      游戲
      親子
      家居
      教育
      軍事航空

      數(shù)毛社:NS2《FF7RE》畫面部分方面與PS5版相媲美!

      親子要聞

      如何做好呼吸道合胞病毒防護(hù) 聽聽兒科醫(yī)生怎么說

      家居要聞

      褪去浮華 觸達(dá)松弛與欣喜

      教育要聞

      高考地理中的生態(tài)修復(fù)

      軍事要聞

      特朗普:對(duì)美國(guó)的真正威脅是聯(lián)合國(guó)和北約

      無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 久久精品国产亚洲av麻豆长发| 国产成人精品电影在线观看| 伊人蕉影院久亚洲高清| 91丨人妻丨国产丨丝袜| 92国产精品午夜福利免费| 久色资源| 精品久久人人做爽综合| 性欧美激情AA片在线播放| 亚洲在线人妻| 欧美三级在线播放| 精品熟女亚洲av在线观看| 国产日韩精品视频无码| 黑人videos特大hd粗暴| 芦山县| 人人做人人妻人人精| 欧美国产在线看| 一本一本久久a久久综合精品| 中国少妇内射xxxhd| 欧美A视频| 阿拉善右旗| 亚洲综合成人网| 丰满少妇被猛烈进入| 中文字幕人妻伦伦| 陆良县| 亚洲日韩日本中文在线| WWW.四虎成人影院.CN| 国产午夜片无码区在线播放| 国产品无码一区二区三区在线| 亚洲精品揄拍自拍首页一 | 欧洲熟妇性色黄| 丝袜美女国产精品一区二区| 国产一区二区亚洲精品| 威海市| 少妇高潮毛片免费看| 色欲av永久无码精品无码蜜桃| 一本无码人妻在中文字幕免费| 好吊视频一区二区三区人妖| 色综合网址你懂的| 日韩美女亚洲性一区二区| 亚洲红杏AV无码专区首页| 亚洲人成在线免费观看|